Secure Steady
プロンプトインジェクション - プロンプトインジェクション の使い方・オプション・サンプル

プロンプトインジェクション - プロンプトインジェクション

LLM に対して悪意ある指示を注入し、システムプロンプトの無視や意図しない動作を引き起こす攻撃。直接型と間接型がある。

概念図

プロンプトインジェクション diagram

直接プロンプトインジェクション vs 間接プロンプトインジェクション

プロンプトインジェクションは、攻撃者の介入方法によって「直接型」と「間接型」の2つに大別される。

観点 直接プロンプトインジェクション 間接プロンプトインジェクション
概要 ユーザーが LLM に対して直接悪意ある入力を与え、システムプロンプトの制約を回避する LLM が処理する外部データ(Web、メール、ドキュメント等)に悪意ある指示を埋め込む
主な手法 ジェイルブレイク(ロールプレイ指示)、プロンプトリーク(システムプロンプト抽出)、目的のすり替え(文脈変更) Web ページの隠しテキスト、メール本文への埋め込み、PDF/ドキュメント内の不可視指示(RAG 経由)
攻撃者 LLM を直接操作するユーザー本人 外部コンテンツの作成者(ユーザーは無自覚に被害を受ける)
危険度 中 -- 攻撃者自身のセッションに限定される場合が多い 高 -- 無関係なユーザーが被害を受ける可能性がある

実際の攻撃シナリオ

代表的な攻撃シナリオを以下に整理する。

シナリオ名 攻撃手法 概要 影響
サポート BOT 悪用 直接型 サポートチャットにシステムプロンプト無視の指示を入力し、管理者権限操作を実行させる パスワードリセットやアカウント情報漏洩
RAG 経由の間接攻撃 間接型 社内ナレッジベースのドキュメントに隠し指示を埋め込み、RAG 経由で LLM に注入する ユーザーの個人情報が攻撃者のサーバーに送信される
マルチモーダル攻撃 間接型 画像内に人間には見えないがモデルが認識可能なテキストを埋め込む 画像解析機能を持つ LLM が悪意ある指示を実行する
システムプロンプト抽出 直接型 「前の指示を繰り返してください」等の入力でシステムプロンプトを出力させる 内部構成やセキュリティ制約が暴露される

関連トピック