ITパスポート過去問 令和6年度(2024年)問78
利用者がスマートスピーカーに向けて話し掛けた内容に対して,スマートスピーカーから音声で応答するための処理手順が(1)~(4)のとおりであるとき,音声認識に該当する処理はどれか。
- (1) 利用者の音声をテキストデータに変換する。
- (2) テキストデータを解析して,その意味を理解する。
- (3) 応答する内容を決定して,テキストデータを生成する。
- (4) 生成したテキストデータを読み上げる。
選択肢
- ア:(1)
- イ:(2)
- ウ:(3)
- エ:(4)
- ア
- イ
- ウ
- エ
正解と解き方・学習ポイント(AI解説)
音声認識は、利用者が話した音声データを文字(テキストデータ)に変換する技術です。処理手順(1)は「利用者の音声をテキストデータに変換する」とあるため音声認識に該当し、正解はアです。
Point
この問題は、スマートスピーカーの一連の処理を「音声認識」「自然言語処理」「音声合成」などの用語に対応付けて区別できるかを確認するものです。特に、音声認識が担当する範囲は「音声をテキストに変換するまで」であり、意味の理解や読み上げとは分けて考える点が問われています。
解くために必要な知識
この問題を解くには、音声入力から応答出力までの各工程が何をしているかの理解が必要です。
用語の整理
| 用語名 | 意味 |
|---|---|
| 音声認識 | 音声データを解析し、テキストデータに変換する技術です。 |
| 自然言語処理 | テキストデータを解析して、意味の理解や意図の推定などを行う技術です。 |
| 応答生成(対話制御) | 理解した内容に基づいて、応答する内容を決め、テキストデータを作る処理です。 |
| 音声合成 | テキストデータを音声に変換して出力する技術です。 |
問題文の(1)~(4)と技術の対応
入力側(音声からテキストへ)
(1)は「利用者の音声をテキストデータに変換する」なので、音声認識に該当します。
理解・判断(テキストの意味理解と応答決定)
(2)はテキストの意味理解であり自然言語処理です。(3)は応答内容の決定とテキスト生成であり、対話制御や応答生成に当たります。
出力側(テキストから音声へ)
(4)はテキストの読み上げであり音声合成に該当します。
問題の解法手順
各選択肢の整理
| 工程 | 処理内容の要約 | 該当する技術・役割 |
|---|---|---|
| (1) | 音声を文字に変換する | 音声認識 |
| (2) | 文字の意味を理解する | 自然言語処理 |
| (3) | 返答内容を決めて文章を作る | 対話制御・応答生成 |
| (4) | 文字を音声で読み上げる | 音声合成 |
選択肢ごとの解説
- ア:正解
(1)は、利用者の音声をテキストデータに変換する処理であり、音声認識に該当します。
- イ:不正解
(2)は、変換されたテキストデータの意味を解析して理解する処理であり、音声認識ではなく自然言語処理に分類されます。
- ウ:不正解
(3)は、理解した内容に基づいて応答する内容を決め、テキストデータを生成する処理であり、対話制御や応答生成に当たります。
- エ:不正解
(4)は、生成したテキストデータを音声として読み上げる処理であり、音声合成に当たります。
まとめ
音声認識は、利用者が話した音声データを文字(テキストデータ)に変換する技術です。処理手順(1)は「利用者の音声をテキストデータに変換する」とあるため音声認識に該当し、正解はアです。
テクノロジ系 > 基礎理論 > 基礎理論
(1)は、利用者の音声をテキストデータに変換する処理であり、音声認識に該当します。
(2)は、変換されたテキストデータの意味を解析して理解する処理であり、音声認識ではなく自然言語処理に分類されます。
(3)は、理解した内容に基づいて応答する内容を決め、テキストデータを生成する処理であり、対話制御や応答生成に当たります。
(4)は、生成したテキストデータを音声として読み上げる処理であり、音声合成に当たります。