プロンプトインジェクション - プロンプトインジェクションの使い方・オプション・サンプル

プロンプトインジェクション- プロンプトインジェクション

LLM に対して悪意ある指示を注入し、システムプロンプトの無視や意図しない動作を引き起こす攻撃。直接型と間接型がある。

概念図

プロンプトインジェクション diagram

直接プロンプトインジェクション vs 間接プロンプトインジェクション

プロンプトインジェクションは、攻撃者の介入方法によって「直接型」と「間接型」の2つに大別される。

観点	直接プロンプトインジェクション	間接プロンプトインジェクション
概要	ユーザーが LLM に対して直接悪意ある入力を与え、システムプロンプトの制約を回避する	LLM が処理する外部データ（Web、メール、ドキュメント等）に悪意ある指示を埋め込む
主な手法	ジェイルブレイク（ロールプレイ指示）、プロンプトリーク（システムプロンプト抽出）、目的のすり替え（文脈変更）	Web ページの隠しテキスト、メール本文への埋め込み、PDF/ドキュメント内の不可視指示（RAG 経由）
攻撃者	LLM を直接操作するユーザー本人	外部コンテンツの作成者（ユーザーは無自覚に被害を受ける）
危険度	中 -- 攻撃者自身のセッションに限定される場合が多い	高 -- 無関係なユーザーが被害を受ける可能性がある

実際の攻撃シナリオ

代表的な攻撃シナリオを以下に整理する。

シナリオ名	攻撃手法	概要	影響
サポート BOT 悪用	直接型	サポートチャットにシステムプロンプト無視の指示を入力し、管理者権限操作を実行させる	パスワードリセットやアカウント情報漏洩
RAG 経由の間接攻撃	間接型	社内ナレッジベースのドキュメントに隠し指示を埋め込み、RAG 経由で LLM に注入する	ユーザーの個人情報が攻撃者のサーバーに送信される
マルチモーダル攻撃	間接型	画像内に人間には見えないがモデルが認識可能なテキストを埋め込む	画像解析機能を持つ LLM が悪意ある指示を実行する
システムプロンプト抽出	直接型	「前の指示を繰り返してください」等の入力でシステムプロンプトを出力させる	内部構成やセキュリティ制約が暴露される

関連トピック

データポイズニング-学習データに悪意あるデータを混入させ、モデルの出力を操作する攻撃。バックドアの埋め込みやバイアスの誘発が可能。ハルシネーション悪用-LLM のハルシネーション（幻覚）を利用し、存在しないパッケージ名やURLを生成させてマルウェア配布に悪用する攻撃。XSS（クロスサイトスクリプティング）-悪意あるスクリプトを Web ページに注入する攻撃手法。反射型・格納型・DOM Based の 3 種類がある。