Secure Steady
データポイズニング - データポイズニング の使い方・オプション・サンプル

データポイズニング - データポイズニング

学習データに悪意あるデータを混入させ、モデルの出力を操作する攻撃。バックドアの埋め込みやバイアスの誘発が可能。

概念図

データポイズニング diagram

ポイズニングの種類

データポイズニングは、攻撃の目的と手法によって以下の種類に分けられる。

種類 概要 特徴 検知難易度
バックドア型 トリガーパターンを学習データに埋め込み、推論時にトリガーを含む入力のみ誤出力させる 通常入力では正常動作するため発見が困難
バイアス誘発型 学習データの分布を意図的に歪め、特定カテゴリやグループに偏った判定を行わせる 人種・性別への不利な判定誘導などが該当
ラベル反転型 学習データのラベル(正解データ)を意図的に入れ替える 数パーセントの反転でもモデル精度を大幅に低下させる
クリーンラベル型 ラベルは正しいまま入力データを微妙に加工し、学習を妨害する ラベルが正しいため目視検査では発見が困難

実際の事例と影響

以下はデータポイズニングに関連する代表的な事例である。

事例 概要 影響
Microsoft Tay(2016) チャットボットに悪意あるユーザーが差別的・攻撃的な発言を大量投入 数時間でヘイトスピーチを生成するボットに変貌し公開停止
自動運転への脅威 交通標識データセットにバックドアを埋め込み、停止標識を速度制限標識として誤認識させる研究 実環境での悪用時に重大な交通事故の可能性
コード生成 AI への影響 OSS リポジトリに脆弱コードを大量コミットし、学習データを汚染する攻撃の懸念 AI が脆弱なコードを「正しいパターン」として推奨するリスク
サプライチェーンとの関連 事前学習済みモデルや公開データセットの作成過程でのポイズニング検証が困難 AI サプライチェーン全体のセキュリティ課題と密接に関連

検知と防御のアプローチ

データポイズニングへの防御は、単一の対策では不十分であり、複数の手法を組み合わせた多層防御が重要となる。

アプローチ 概要 有効な攻撃タイプ
統計的異常検知 学習データの分布を統計的に分析し、外れ値や異常パターンを検出する バックドア型、ラベル反転型。クリーンラベル型には効果が限定的
データ来歴の追跡 学習データの出典・加工履歴を厳密に管理し、信頼できるソースのみ使用する 全タイプに有効。特にサプライチェーン経由の汚染に対して重要
ロバスト学習 勾配クリッピング、ノイズ注入、アンサンブル学習など、外れ値に耐性のある学習手法を採用する バイアス誘発型、ラベル反転型。バックドア型には補助的
継続的モニタリング デプロイ後のモデル性能を監視し、精度の急激な変化やバイアスの偏りを検知する 全タイプに有効。攻撃発生後の早期発見に貢献

関連トピック