サプライチェーンリスク - AI サプライチェーンリスク
事前学習モデル・データセット・ライブラリなど AI サプライチェーンの各段階に潜むセキュリティリスク。
概念図
AI サプライチェーンの攻撃ポイント
AI システムのサプライチェーンは、従来のソフトウェアサプライチェーンよりも攻撃対象が広い。
主な攻撃ポイントを以下に整理する。
| 攻撃ポイント | 手法 | 概要 |
|---|---|---|
| モデルハブ | 悪意あるモデルファイル | Hugging Face 等に pickle 形式のバックドア付きモデルをアップロードし、読み込み時に任意コードを実行させる |
| モデルハブ | モデルの改ざん | 正規モデルのコピーにバックドアを埋め込み、類似名で公開する |
| データセット | ラベル汚染 | 学習データのラベルを意図的に書き換え、モデルの判断精度を低下させる |
| データセット | バックドアトリガー埋め込み | 特定パターンが入力に含まれると誤分類するよう学習データを細工する |
| データセット | 著作権・プライバシー汚染 | 著作権侵害データや個人情報を含むデータセットが混入し法的リスクを生む |
| ML ライブラリ | タイポスクワッティング | PyPI や npm で正規パッケージ名に似せた悪意あるパッケージを公開する |
| ML ライブラリ | 依存関係の脆弱性 | TensorFlow、PyTorch 等の依存ツリーに含まれるライブラリの脆弱性を突く |
| CI/CD パイプライン | パイプライン侵害 | モデルの学習・デプロイパイプラインに不正なステップを挿入する |
実際の事例とリスク
以下は AI サプライチェーンに関する代表的なインシデントである。
| 事例 | 時期 | 概要 |
|---|---|---|
| Hugging Face 上の悪意あるモデル | 2024年 | pickle 形式を悪用した悪意あるモデルが複数発見。読み込み時にリバースシェル確立や認証情報の外部送信が行われた |
| PyTorch 依存関係侵害(torchtriton) | 2022年末 | 夜間ビルド用依存パッケージが PyPI 上で悪意ある同名パッケージに置き換えられ、インストール時にシステム情報が収集・送信された(依存関係混乱攻撃) |
| LLM が生成する架空パッケージ | 2024年以降 | LLM がコード生成時に出力する存在しないパッケージ名を攻撃者が先取り登録する「パッケージハルシネーション攻撃」が確認されている |
これらの事例に共通するリスクの特徴は以下の通り。
- 事前学習モデルの内部を完全に検証することは困難であり、バックドアの検出が難しい
- 1つのモデルやデータセットの汚染が多数の下流システムに波及する影響範囲の広さがある
- 従来のソフトウェアセキュリティツール(SAST/DAST)では AI 固有のリスクを検出できない
OWASP LLM Top 10 との関連
AI サプライチェーンリスクは、OWASP Top 10 for LLM Applications の以下の項目と密接に関連する。
| OWASP LLM Top 10 | 関連性 |
|---|---|
| LLM05: Supply Chain Vulnerabilities | 直接該当。モデル・データ・ライブラリの全段階が対象 |
| LLM03: Training Data Poisoning | データセット汚染はサプライチェーンの一部として発生 |
| LLM10: Model Theft | 盗まれたモデルが改ざんされてサプライチェーンに再投入される可能性 |
AI サプライチェーンのセキュリティは、モデルの信頼性・データの完全性・依存関係の安全性を包括的に管理する必要がある。
SBOM(Software Bill of Materials)に加え、ML-BOM(Machine Learning Bill of Materials)の整備が推奨される。
