データポイズニング - データポイズニングの使い方・オプション・サンプル

データポイズニング- データポイズニング

学習データに悪意あるデータを混入させ、モデルの出力を操作する攻撃。バックドアの埋め込みやバイアスの誘発が可能。

概念図

データポイズニング diagram

ポイズニングの種類

データポイズニングは、攻撃の目的と手法によって以下の種類に分けられる。

種類	概要	特徴	検知難易度
バックドア型	トリガーパターンを学習データに埋め込み、推論時にトリガーを含む入力のみ誤出力させる	通常入力では正常動作するため発見が困難	高
バイアス誘発型	学習データの分布を意図的に歪め、特定カテゴリやグループに偏った判定を行わせる	人種・性別への不利な判定誘導などが該当	中
ラベル反転型	学習データのラベル（正解データ）を意図的に入れ替える	数パーセントの反転でもモデル精度を大幅に低下させる	低
クリーンラベル型	ラベルは正しいまま入力データを微妙に加工し、学習を妨害する	ラベルが正しいため目視検査では発見が困難	高

実際の事例と影響

以下はデータポイズニングに関連する代表的な事例である。

事例	概要	影響
Microsoft Tay（2016）	チャットボットに悪意あるユーザーが差別的・攻撃的な発言を大量投入	数時間でヘイトスピーチを生成するボットに変貌し公開停止
自動運転への脅威	交通標識データセットにバックドアを埋め込み、停止標識を速度制限標識として誤認識させる研究	実環境での悪用時に重大な交通事故の可能性
コード生成 AI への影響	OSS リポジトリに脆弱コードを大量コミットし、学習データを汚染する攻撃の懸念	AI が脆弱なコードを「正しいパターン」として推奨するリスク
サプライチェーンとの関連	事前学習済みモデルや公開データセットの作成過程でのポイズニング検証が困難	AI サプライチェーン全体のセキュリティ課題と密接に関連

検知と防御のアプローチ

データポイズニングへの防御は、単一の対策では不十分であり、複数の手法を組み合わせた多層防御が重要となる。

アプローチ	概要	有効な攻撃タイプ
統計的異常検知	学習データの分布を統計的に分析し、外れ値や異常パターンを検出する	バックドア型、ラベル反転型。クリーンラベル型には効果が限定的
データ来歴の追跡	学習データの出典・加工履歴を厳密に管理し、信頼できるソースのみ使用する	全タイプに有効。特にサプライチェーン経由の汚染に対して重要
ロバスト学習	勾配クリッピング、ノイズ注入、アンサンブル学習など、外れ値に耐性のある学習手法を採用する	バイアス誘発型、ラベル反転型。バックドア型には補助的
継続的モニタリング	デプロイ後のモデル性能を監視し、精度の急激な変化やバイアスの偏りを検知する	全タイプに有効。攻撃発生後の早期発見に貢献

関連トピック

プロンプトインジェクション-LLM に対して悪意ある指示を注入し、システムプロンプトの無視や意図しない動作を引き起こす攻撃。直接型と間接型がある。AI サプライチェーンリスク-事前学習モデル・データセット・ライブラリなど AI サプライチェーンの各段階に潜むセキュリティリスク。モデル窃取-API への大量クエリやサイドチャネル攻撃により、機械学習モデルの重みやアーキテクチャを復元・盗用する攻撃。