データポイズニング - データポイズニング
学習データに悪意あるデータを混入させ、モデルの出力を操作する攻撃。バックドアの埋め込みやバイアスの誘発が可能。
概念図
ポイズニングの種類
データポイズニングは、攻撃の目的と手法によって以下の種類に分けられる。
| 種類 | 概要 | 特徴 | 検知難易度 |
|---|---|---|---|
| バックドア型 | トリガーパターンを学習データに埋め込み、推論時にトリガーを含む入力のみ誤出力させる | 通常入力では正常動作するため発見が困難 | 高 |
| バイアス誘発型 | 学習データの分布を意図的に歪め、特定カテゴリやグループに偏った判定を行わせる | 人種・性別への不利な判定誘導などが該当 | 中 |
| ラベル反転型 | 学習データのラベル(正解データ)を意図的に入れ替える | 数パーセントの反転でもモデル精度を大幅に低下させる | 低 |
| クリーンラベル型 | ラベルは正しいまま入力データを微妙に加工し、学習を妨害する | ラベルが正しいため目視検査では発見が困難 | 高 |
実際の事例と影響
以下はデータポイズニングに関連する代表的な事例である。
| 事例 | 概要 | 影響 |
|---|---|---|
| Microsoft Tay(2016) | チャットボットに悪意あるユーザーが差別的・攻撃的な発言を大量投入 | 数時間でヘイトスピーチを生成するボットに変貌し公開停止 |
| 自動運転への脅威 | 交通標識データセットにバックドアを埋め込み、停止標識を速度制限標識として誤認識させる研究 | 実環境での悪用時に重大な交通事故の可能性 |
| コード生成 AI への影響 | OSS リポジトリに脆弱コードを大量コミットし、学習データを汚染する攻撃の懸念 | AI が脆弱なコードを「正しいパターン」として推奨するリスク |
| サプライチェーンとの関連 | 事前学習済みモデルや公開データセットの作成過程でのポイズニング検証が困難 | AI サプライチェーン全体のセキュリティ課題と密接に関連 |
検知と防御のアプローチ
データポイズニングへの防御は、単一の対策では不十分であり、複数の手法を組み合わせた多層防御が重要となる。
| アプローチ | 概要 | 有効な攻撃タイプ |
|---|---|---|
| 統計的異常検知 | 学習データの分布を統計的に分析し、外れ値や異常パターンを検出する | バックドア型、ラベル反転型。クリーンラベル型には効果が限定的 |
| データ来歴の追跡 | 学習データの出典・加工履歴を厳密に管理し、信頼できるソースのみ使用する | 全タイプに有効。特にサプライチェーン経由の汚染に対して重要 |
| ロバスト学習 | 勾配クリッピング、ノイズ注入、アンサンブル学習など、外れ値に耐性のある学習手法を採用する | バイアス誘発型、ラベル反転型。バックドア型には補助的 |
| 継続的モニタリング | デプロイ後のモデル性能を監視し、精度の急激な変化やバイアスの偏りを検知する | 全タイプに有効。攻撃発生後の早期発見に貢献 |
