ITパスポート試験

問22

ITパスポート過去問 令和2年度(2020年)問22

AIの活用領域には音声認識,画像認識,自然言語処理などがある。音声認識と自然言語処理の両方が利用されているシステムの事例として,最も適切なものはどれか。

選択肢

  • ドアをノックする音を検知して,カメラの前に立っている人の顔を認識し,ドアのロックを解除する。
  • 人から話しかけられた天気や交通情報などの質問を解釈して,ふさわしい内容を回答する。
  • 野外コンサートに来場する人の姿や話し声を検知して,会場の入り口を通過する人数を記録する。
  • 洋書に記載されている英文をカメラで読み取り,要約された日本文として編集する。

正解と解き方・学習ポイント(AI解説)

正解:
あなたの回答:未回答

音声認識は、人の話し声を文字データなどに変換する技術です。自然言語処理は、その文字データの意味を解析して質問内容を理解したり、回答文を作ったりする技術です。したがって、音声で質問を受け取り、その内容を解釈して回答する仕組みが、音声認識と自然言語処理の両方を利用している事例です。

不正解

ドアをノックする音は音声認識ではなく音の検知です。また、カメラの前の人物の顔認識は画像認識です。自然言語処理は含まれません。

正解

人の話し声を認識して文字データなどに変換する処理が音声認識です。質問の意味を解釈し、回答文を生成する処理が自然言語処理です。両方を利用しているため適切です。

不正解

来場者の姿の検知や人数記録は主に画像認識の用途です。話し声も「言葉の意味を解釈する」わけではなく検知にとどまるため、自然言語処理は不要です。

不正解

英文をカメラで読み取るのは画像認識(OCR)であり、要約された日本文にする部分は自然言語処理に該当します。ただし音声認識は利用していません。

Point

音声認識と自然言語処理は、どちらも会話に関係しそうに見えますが、役割が異なります。この問題では、発話を文字化する処理が必要か、文字化された文の意味を理解して応答する処理が必要かを切り分けて判断できることを確認しています。

解くために必要な知識

この問題を解くには、音声認識と自然言語処理の違いを理解する必要があります。

用語の整理

用語 意味
音声認識 人の発話などの音声データを認識し、文字データなどに変換する技術です。
自然言語処理(NLP) 人が使う言語(文章・会話文)を解析し、意味理解、要約、翻訳、応答生成などを行う技術です。

他の選択肢に出てくる用語

用語 意味
画像認識 画像から物体・人物・文字などを識別する技術です。顔認識も画像認識に含まれます。
OCR 画像中の文字を認識してテキスト化する技術です。光学文字認識とも呼ばれます。

問題の解法手順

各選択肢の整理

使われている技術の対応を確認します

選択肢 主な処理内容 音声認識 自然言語処理
ノック音の検知、顔認識で解錠 × ×
音声の質問を解釈して回答
人の姿の検知、話し声の検知、人数記録 × ×
英文を画像から読み取り、翻訳・要約 ×

両方がそろう選択肢を選びます

音声認識と自然言語処理の両方が必要になるのは、発話を文字として扱い、内容を解釈して文章として回答する場合です。これに当たるのは「イ」です。

選択肢ごとの解説

不正解

ドアをノックする音は音声認識ではなく音の検知です。また、カメラの前の人物の顔認識は画像認識です。自然言語処理は含まれません。

正解

人の話し声を認識して文字データなどに変換する処理が音声認識です。質問の意味を解釈し、回答文を生成する処理が自然言語処理です。両方を利用しているため適切です。

不正解

来場者の姿の検知や人数記録は主に画像認識の用途です。話し声も「言葉の意味を解釈する」わけではなく検知にとどまるため、自然言語処理は不要です。

不正解

英文をカメラで読み取るのは画像認識(OCR)であり、要約された日本文にする部分は自然言語処理に該当します。ただし音声認識は利用していません。

まとめ

音声認識は、人の話し声を文字データなどに変換する技術です。自然言語処理は、その文字データの意味を解析して質問内容を理解したり、回答文を作ったりする技術です。したがって、音声で質問を受け取り、その内容を解釈して回答する仕組みが、音声認識と自然言語処理の両方を利用している事例です。

ストラテジ系 > 経営戦略 > ビジネスインダストリ

順次、単語を追加予定です。もうしばらくお待ちください。