AI セキュリティ・ツールを脆弱にする LLM の欠陥:プロンプト・インジェクション攻撃の実態

AI-Powered Cybersecurity Tools Can Be Turned Against Themselves Through Prompt Injection Attacks

2025/09/03 CyberSecurityNews — AI 搭載のサイバー・セキュリティ・ツールは、プロンプト・インジェクション攻撃により自らを攻撃対象とされ、自動化されたエージェントを乗っ取る攻撃者に対して、不正なシステム・アクセスの取得を許す可能性がある。セキュリティ研究者である Victor Mayoral-Vilches と Per Mannermaa Rynning は、悪意のサーバが無害に見えるデータ・ストリームに命令を挿入することで、AI 駆動型ペンテスト・フレームワークが脆弱になる仕組みを明らかにした。

主なポイント
  • プロンプト・インジェクションは、悪意のコマンドを埋め込み、AI セキュリティ・エージェントを乗っ取る攻撃である。
  • エンコーディング/Unicode トリック/環境変数リークなどによりフィルタを回避し、エクスプロイトを誘発する。
  • 防御にはサンドボックス/パターンフィルタ/ファイル書き込み保護/AI ベースの検証などが必要である。

この攻撃手法はプロンプト・インジェクションと呼ばれ、大規模言語モデル (LLM) が実行コマンドとデータ入力を同一コンテキストとして扱い、両者を区別できないという脆弱性を悪用するものだ。

プロンプト・インジェクションの脆弱性

研究者たちが用いたのは、ネットワークの脆弱性を自律的にスキャン/悪用/報告する、オープンソースの CAI (Cybersecurity AI) エージェントである。

この CAI エージェントは、通常の HTTP GET リクエスト中に、安全マーカーで囲まれた “NOTE TO SYSTEM” から始まる Web コンテンツを受信し、これを正当なシステム命令と解釈した。

AI-Powered Cybersecurity Tools Turned Against Prompt Injection

その結果として、base64 ペイロードを自動デコードして、リバースシェル・コマンドを実行した。攻撃者は最初の接触から 20 秒以内に、テスターのインフラへのシェルアクセスを取得し、攻撃は “初期偵察” から “システム侵害” へと急速に進展した。

さらに攻撃者は、base32/16進数/ROT13 などの代替エンコーディングで、単純なパターン・フィルタを回避し、コード・コメントや環境変数の出力にペイロードを隠すことも可能にした。また、Unicode 同形異義語の操作により、正規化処理を悪用して検出を回避する手法も確認されている。

AI-Powered Tools Turned Against Themselves
Attack landscape for AI security tools
緩和策

プロンプト・インジェクション対策には、多層防御が不可欠である。

  • すべてのコマンドを、隔離された Docker/コンテナ環境などで実行し、ラテラル・ムーブメントを制限する。
  • curl/wget ラッパーにパターン検出を実装し、$(env)/$(id) などのシェル置換を含むレスポンスを遮断する。
  • ファイル書き込みシステム・コールを監視し、疑わしいペイロードを拒否して、base64/多層デコード・コマンドなどのスクリプトの作成を防止する。
  • 二次 AI 分析を導入し、脆弱性の証拠と敵対的命令を区別し、”分析専用” チャネルと “実行専用” チャネルを分離するランタイム・ガードレールを設ける。

LLM の進化に伴い、新たなバイパス・ベクターが出現し、初期の Web アプリケーション XSS 防御と同様の軍拡競争が続くだろう。組織は堅牢な防御体制を維持するため、包括的なガードレールを実装し、新たなプロンプト・インジェクション手法を監視する必要がある。