アノテーション
アノテーションは学習データに正解ラベルなどの情報を付ける作業です。
用語解説
アノテーションとは
アノテーション(Annotation)は、AI(人工知能)の学習で使うデータ(画像、音声、文章、ログなど)に対して、正解となる情報(ラベル、タグ、範囲、属性など)を付けることです。
主に人が行い、付けた情報は、検索、分析、機械学習モデルの学習用データ作成などに使われます。
データ種類で形式が異なります
データの種類ごとに、付ける情報の形式が異なります。
| データ種類 | アノテーション例 | 目的 |
|---|---|---|
| 画像 | 画像全体の分類ラベル、物体の位置情報(枠) | 画像認識、物体検出 |
| テキスト | 文書分類、感情分類、固有表現の抽出 | 文書分類、自然言語処理 |
| 音声 | 文字起こし、区間分割、話者ラベル | 音声認識 |
アノテーションの具体例
| 対象データ | アノテーションの内容 | 具体例 |
|---|---|---|
| 画像 | 物体の名前を付与 | 写真に「犬」「猫」などのラベルを付ける |
| 画像 | 物体の位置と名前を付与 | 画像内の歩行者や車を四角で囲み、名称を付ける |
| テキスト | 意味や感情を分類して付与 | レビュー文に「肯定的」「否定的」を付ける |
| 音声 | 発話内容を文字として付与 | 音声データに対応する文字起こしを付ける |
アノテーションが必要な理由
教師あり学習では、入力データと正解ラベルの組を教師データとして用います。アノテーションは教師データを作る作業です。
アノテーションの品質が低いと、学習したAIの分類や予測の精度が低下する可能性があります。
そのため、作業基準を決めて、一貫したルールで付与することが重要とされます。
用語が使われる場面
-
自動運転技術の開発で、画像内の歩行者や標識にラベルや位置情報を付ける場面
-
迷惑メールフィルタで、メールを「スパム」「通常」に分類する正解ラベルを付ける場面
-
医療診断AIで、レントゲン画像の病変部位に範囲情報を付ける場面
発展知識
関連用語
| 用語 | 概要 |
|---|---|
| 教師あり学習 | 正解ラベル付きの教師データを使って学習する手法です。 |
| 教師データ(訓練データ) | 入力データと正解ラベルがセットになった学習用データです。 |
| 教師なし学習 | 正解ラベルなしのデータから特徴や構造を見つける手法です。 |
| 機械学習 | データから規則性を学習し、分類や予測を行う技術の総称です。 |
※本解説は生成AIによる学習支援用の参考情報です。内容の正確性や最新性は保証されません。生成された回答を再確認するようにしてください。