ITパスポート過去問 令和7年度(2025年)問8
AIの機械学習で利用するデータの取扱いに関する記述のうち,バイアスの低減やデータの品質を確保するために考えられる対策として,適切なものだけを全て挙げたものはどれか。
- a 学習の目的に適したデータであることを確認する。
- b データの入手元・作成来歴を確認する。
- c データへのアノテーションの付与は学習目的に合わせて実施する。
- d 人間の目でも同定が困難と考えられる画像認識用のデータは除外する。
選択肢
- ア:a,b
- イ:a,b,c,d
- ウ:a,d
- エ:b,c,d
- ア
- イ
- ウ
- エ
正解と解き方・学習ポイント(AI解説)
a〜dは、いずれもバイアスの低減やデータ品質の確保に有効な対策です。学習目的に合うデータかを確認すること(a)、入手元や作成来歴を確認して追跡可能にすること(b)、学習目的に合わせてアノテーションを付与すること(c)、判別が難しく誤ラベルの原因になりやすいデータを除外すること(d)は、学習データ管理の基本的な考え方に沿っています。したがって、全てを含むイが適切です。
Point
この問題は、機械学習に用いるデータについて、バイアスの低減とデータ品質確保の観点から適切な取扱いを選べるかを確認することがねらいです。具体的には、目的適合性、来歴の確認、アノテーションの適切性、判別困難なデータの扱いがデータ品質にどう影響するかの理解が求められます。
解くために必要な知識
この問題を解くには、学習データの品質がモデルの性能やバイアスに影響することと、品質確保のための具体的な管理観点を理解している必要があります。
用語の整理
| 用語名 | 意味 |
|---|---|
| AI / 機械学習 | データから規則性を学習し、未知データに対して推定や分類を行う技術です。 |
| バイアス | 学習データの偏りや、作成・選別・ラベル付けの偏りによって、推定結果が特定の方向に偏ることです。 |
| アノテーション | 画像などのデータに対して、正解ラベル(例:犬、猫)や領域情報などを付与する作業です。 |
| データ品質 | 正確性、網羅性、一貫性など、学習目的に照らして利用可能な状態である度合いです。 |
問題の解法手順
この問題では、a〜dが「バイアスの低減」または「データの品質確保」につながるかを個別に判断し、適切なものを全て含む選択肢を選びます。
各記述の確認
| 記述 | 内容 | 品質・バイアスへの影響 | 判定 |
|---|---|---|---|
| a | 学習の目的に適したデータであることを確認する | 目的に合わないデータ混入を防ぎ、精度低下や偏りの要因を減らします。 | ○ |
| b | データの入手元・作成来歴を確認する | 出所や加工履歴が分かると、偏りの原因分析、誤り修正、再現がしやすくなります。 | ○ |
| c | データへのアノテーションの付与は学習目的に合わせて実施する | ラベルの基準ずれや誤ラベルは学習結果の偏りや品質低下の原因になります。目的に合わせた付与が必要です。 | ○ |
| d | 人間の目でも同定が困難と考えられる画像認識用のデータは除外する | 判別が難しいデータは、誤ラベル付与やノイズ混入を起こしやすく、学習品質を下げる可能性があります。 | ○ |
a〜dの全てが適切なので、全てを含む選択肢を選びます。
選択肢ごとの解説
- ア:不正解
a、bは適切ですが、c、dもバイアス低減や品質確保に有効です。全てを挙げていないため誤りです。
- イ:正解
aで学習目的に合うデータを選び、bで入手元・作成来歴を確認して偏りや不適切な加工の可能性を評価しやすくします。cで学習目的に合う基準でアノテーションを付与してラベル品質を確保します。dで人間でも同定が困難なデータを除外し、誤ラベルや不一致が増えやすい要因を減らせます。よって、バイアス低減とデータ品質確保の対策として適切です。
- ウ:不正解
aとdだけでは、b(入手元・作成来歴の確認)がなく、データの偏りや収集条件の問題を評価しにくくなります。また、c(アノテーションの付与方針)がないと、ラベル定義のずれや誤ラベルが発生しやすくなり、品質確保として不足します。
- エ:不正解
b(入手元・作成来歴の確認)とc(学習目的に合わせたアノテーション)は重要で、d(同定困難なデータの除外)も誤ラベルの増加を抑える考え方として妥当です。ただし、a(学習の目的に適したデータであることの確認)がないと、目的に対して不適切なデータが混入しても気付きにくく、品質確保やバイアス低減の基本が欠けます。
まとめ
a〜dは、いずれもバイアスの低減やデータ品質の確保に有効な対策です。学習目的に合うデータかを確認すること(a)、入手元や作成来歴を確認して追跡可能にすること(b)、学習目的に合わせてアノテーションを付与すること(c)、判別が難しく誤ラベルの原因になりやすいデータを除外すること(d)は、学習データ管理の基本的な考え方に沿っています。したがって、全てを含むイが適切です。
理解すべき用語
ストラテジ系 > 企業と法務 > 企業活動
a、bは適切ですが、c、dもバイアス低減や品質確保に有効です。全てを挙げていないため誤りです。
aで学習目的に合うデータを選び、bで入手元・作成来歴を確認して偏りや不適切な加工の可能性を評価しやすくします。cで学習目的に合う基準でアノテーションを付与してラベル品質を確保します。dで人間でも同定が困難なデータを除外し、誤ラベルや不一致が増えやすい要因を減らせます。よって、バイアス低減とデータ品質確保の対策として適切です。
aとdだけでは、b(入手元・作成来歴の確認)がなく、データの偏りや収集条件の問題を評価しにくくなります。また、c(アノテーションの付与方針)がないと、ラベル定義のずれや誤ラベルが発生しやすくなり、品質確保として不足します。
b(入手元・作成来歴の確認)とc(学習目的に合わせたアノテーション)は重要で、d(同定困難なデータの除外)も誤ラベルの増加を抑える考え方として妥当です。ただし、a(学習の目的に適したデータであることの確認)がないと、目的に対して不適切なデータが混入しても気付きにくく、品質確保やバイアス低減の基本が欠けます。