AI-Powered Cybersecurity Tools Can Be Turned Against Themselves Through Prompt Injection Attacks
2025/09/03 CyberSecurityNews — AI 搭載のサイバー・セキュリティ・ツールは、プロンプト・インジェクション攻撃により自らを攻撃対象とされ、自動化されたエージェントを乗っ取る攻撃者に対して、不正なシステム・アクセスの取得を許す可能性がある。セキュリティ研究者である Victor Mayoral-Vilches と Per Mannermaa Rynning は、悪意のサーバが無害に見えるデータ・ストリームに命令を挿入することで、AI 駆動型ペンテスト・フレームワークが脆弱になる仕組みを明らかにした。

主なポイント
- プロンプト・インジェクションは、悪意のコマンドを埋め込み、AI セキュリティ・エージェントを乗っ取る攻撃である。
- エンコーディング/Unicode トリック/環境変数リークなどによりフィルタを回避し、エクスプロイトを誘発する。
- 防御にはサンドボックス/パターンフィルタ/ファイル書き込み保護/AI ベースの検証などが必要である。
この攻撃手法はプロンプト・インジェクションと呼ばれ、大規模言語モデル (LLM) が実行コマンドとデータ入力を同一コンテキストとして扱い、両者を区別できないという脆弱性を悪用するものだ。
プロンプト・インジェクションの脆弱性
研究者たちが用いたのは、ネットワークの脆弱性を自律的にスキャン/悪用/報告する、オープンソースの CAI (Cybersecurity AI) エージェントである。
この CAI エージェントは、通常の HTTP GET リクエスト中に、安全マーカーで囲まれた “NOTE TO SYSTEM” から始まる Web コンテンツを受信し、これを正当なシステム命令と解釈した。

その結果として、base64 ペイロードを自動デコードして、リバースシェル・コマンドを実行した。攻撃者は最初の接触から 20 秒以内に、テスターのインフラへのシェルアクセスを取得し、攻撃は “初期偵察” から “システム侵害” へと急速に進展した。
さらに攻撃者は、base32/16進数/ROT13 などの代替エンコーディングで、単純なパターン・フィルタを回避し、コード・コメントや環境変数の出力にペイロードを隠すことも可能にした。また、Unicode 同形異義語の操作により、正規化処理を悪用して検出を回避する手法も確認されている。

緩和策
プロンプト・インジェクション対策には、多層防御が不可欠である。
- すべてのコマンドを、隔離された Docker/コンテナ環境などで実行し、ラテラル・ムーブメントを制限する。
- curl/wget ラッパーにパターン検出を実装し、$(env)/$(id) などのシェル置換を含むレスポンスを遮断する。
- ファイル書き込みシステム・コールを監視し、疑わしいペイロードを拒否して、base64/多層デコード・コマンドなどのスクリプトの作成を防止する。
- 二次 AI 分析を導入し、脆弱性の証拠と敵対的命令を区別し、”分析専用” チャネルと “実行専用” チャネルを分離するランタイム・ガードレールを設ける。
LLM の進化に伴い、新たなバイパス・ベクターが出現し、初期の Web アプリケーション XSS 防御と同様の軍拡競争が続くだろう。組織は堅牢な防御体制を維持するため、包括的なガードレールを実装し、新たなプロンプト・インジェクション手法を監視する必要がある。
AI セキュリティ・エージェントは、プロンプト・インジェクション攻撃に弱いようです。その原因は、LLM ではデータ入力と実行命令が同じものとして扱われ、両者を正しく区別できない点にあります。そのため、攻撃者が通常の Web コンテンツに紛れ込ませた特定の命令を、システムが “正しい指示” と誤って解釈してしまい、意図せぬコマンド実行につながると、この記事は指摘しています。よろしければ、Prompt Injection で検索も、ご参照ください。
You must be logged in to post a comment.