ITパスポート試験

アノテーション

アノテーションは学習データに正解ラベルなどの情報を付ける作業です。

用語解説

アノテーションとは

アノテーション(Annotation)は、AI(人工知能)の学習で使うデータ(画像、音声、文章、ログなど)に対して、正解となる情報(ラベル、タグ、範囲、属性など)を付けることです。

主に人が行い、付けた情報は、検索、分析、機械学習モデルの学習用データ作成などに使われます。

データ種類で形式が異なります

データの種類ごとに、付ける情報の形式が異なります。

データ種類 アノテーション例 目的
画像 画像全体の分類ラベル、物体の位置情報(枠) 画像認識、物体検出
テキスト 文書分類、感情分類、固有表現の抽出 文書分類、自然言語処理
音声 文字起こし、区間分割、話者ラベル 音声認識

アノテーションの具体例

対象データ アノテーションの内容 具体例
画像 物体の名前を付与 写真に「犬」「猫」などのラベルを付ける
画像 物体の位置と名前を付与 画像内の歩行者や車を四角で囲み、名称を付ける
テキスト 意味や感情を分類して付与 レビュー文に「肯定的」「否定的」を付ける
音声 発話内容を文字として付与 音声データに対応する文字起こしを付ける

アノテーションが必要な理由

教師あり学習では、入力データと正解ラベルの組を教師データとして用います。アノテーションは教師データを作る作業です。

アノテーションの品質が低いと、学習したAIの分類や予測の精度が低下する可能性があります。

そのため、作業基準を決めて、一貫したルールで付与することが重要とされます。

用語が使われる場面

  • 自動運転技術の開発で、画像内の歩行者や標識にラベルや位置情報を付ける場面

  • 迷惑メールフィルタで、メールを「スパム」「通常」に分類する正解ラベルを付ける場面

  • 医療診断AIで、レントゲン画像の病変部位に範囲情報を付ける場面

発展知識

関連用語

用語 概要
教師あり学習 正解ラベル付きの教師データを使って学習する手法です。
教師データ(訓練データ) 入力データと正解ラベルがセットになった学習用データです。
教師なし学習 正解ラベルなしのデータから特徴や構造を見つける手法です。
機械学習 データから規則性を学習し、分類や予測を行う技術の総称です。