Microsoft の AI ホワイトペーパー：ゼロクリック HitL バイパス成立の要因を説明

Zero-Click Agentic AI Attack Bypasses Human Oversight

2026/06/05 gbhackers — 2026年4月に公開された Microsoft の Taxonomy of Failure Modes in Agentic AI Systems v2.0 は、実環境での 1年間のレッドチーム活動に基づくものであり、単なる分類更新に留まらず、運用指針を提供するものである。これらの活動により明らかになったのは、従来の脅威サーフェスを影響力の高い攻撃ベクターへと、自律型 AI システムが速やかに変換していく様子である。

これらの検証から導かれた主要な結論であり、防御側にとっての核心的な教訓は、Human-in-the-Loop (HitL) 制御が End-to-End でバイパス可能であり、ゼロクリック攻撃チェーンが成立する点である。

ゼロクリック HitL バイパスは、単一の脆弱性というものではなく、複合的なエクスプロイト・パターンである。

Microsoft のレッドチームは、無害に見える複数の動作を連鎖させた。この Cross-Domain Prompt Injection (XPIA) により永続メモリを汚染し、マルチステップ・セッションにおける段階的な権限昇格により、ステップ単位の承認の回避を介して能力を開示させることで、ツール・スキーマおよび権限モデルを把握した。

最終的に、同意フローの意味的な操作により、エージェント自身の推論が複雑な計画を分解し、それぞれが許容できる操作として再構成された。単体において、それぞれのステップは妥当であるため、従来の段階的な承認やモデル・レベルの検知では、チェーン全体を検出できなかった。

複数の検証において用いられたシナリオは、細工された Web ドキュメント／画像／API 応答などの外部入力が、攻撃者により投入されるというものだ。その後は、エージェントのパイプライン／メモリ／プラグイン・エコシステムが、自律的に攻撃が展開される場となった。

自律型のサプライチェーン侵害は、自然言語ベースのツール定義やプラグイン・レジストリが、攻撃ベクターになることを示している。それが示すハイジャックの形態は、完全なエージェント侵害を伴わずに、最終的な目標を変更する攻撃のスタイルである。エージェント間の信頼関係の強化により、オーケストレーターが未検証の主張を信頼することで、権限昇格が発生するという現象である。

Computer Use Agent (CUA) 視覚攻撃およびセッション・コンテキスト汚染により、画像や初期入力に埋め込まれた命令が、後続の意思決定に影響を与える。
MCP やプラグインの悪用および、機能とアーキテクチャの開示により、プロトコル信頼や内部情報漏洩を悪用するかたちで、後続のエクスプロイトが成立する。

ゼロクリック Agentic AI 攻撃

12 ヶ月間にわたる検証から得られた運用パターンが、防御側に対して 2つの重要な示唆を与える。

第一に、モデル・レベルのハードニングや静的プロンプト対策は、必要条件であるが十分ではない。多くの高影響の攻撃で悪用されたのは、ツール呼び出しプロトコル (MCP)／プラグイン挙動／セッション永続性／UX ベースの HitL フローといった、システム・レベルでの相互作用である。
第二に、検知には長期的な振る舞い分析が必要である。セッション・コンテキスト汚染および段階的な権限昇格は、複数ステップおよび複数セッションにまたがって現れる。したがって、単一リクエスト単位の異常検知では、時間的な蓄積や由来の異常を捉えられない。

Microsoft が推奨する対策は、アーキテクチャとプロセスを中心に置くものである。

自律型の依存関係を、ソフトウェア・サプライチェーンとして扱う。それにより、プロンプト・テンプレート／プラグイン・マニフェスト／MCP サーバ・エンドポイントを取り込んだSBOM を生成する。署名および由来の検証を実施し、バージョンを固定する。
エージェント間通信にはゼロトラストを適用し、暗号学的アイデンティティ検証を必須とし、自己申告ロールを拒否する。
同意アーキテクチャを強化する必要がある。複合的な操作を分解して提示し、エージェント生成テキストではなくツール呼び出しに基づいた承認プロンプトを生成し、可逆性に応じた承認階層を設ける。承認頻度の異常検知により、同意疲れを検出する。
セッション整合性については、由来追跡付きのコンテキストを実装し、信頼済みシステム・コンテキストと非信頼コンテンツを分離し、外部データのセッション間持続範囲を制限する。

Taxonomy of Failure Modes in Agentic AI Systems v2.0 には、技術的アペンディックス／詳細なケーススタディ／推奨対策が含まれる。

実務者にとっての即時対応として、以下の施策が推奨される。

自律型サプライチェーンのインベントリ化と SBOM 化
7つの v2.0 失敗モードをレッドチーム項目へ追加
エージェント識別の暗号学的検証
HitL UX をセキュリティ制御として扱う

Microsoft のホワイトペーパー v2.0 に基づく検証結果が示すのは、これらの対策なしでは、自律型システムがゼロクリック HitL バイパスに対して脆弱であり、理論上のリスクが実運用レベルのエクスプロイトへと転換されることである。

訳者後書：自律型 AI システムに関する問題は、複数の無害に見える動作や外部入力を連鎖させることで、人間による承認ステップ (HitL) を完全に回避する、複合的なエクスプロイト・パターンが成立するというものです。プロンプト・インジェクションによるメモリ汚染や、ツール呼び出しプロトコル (MCP) の設計上の弱点などを組み合わせることで、この種の攻撃が可能になります。攻撃者が細工したドキュメントや画像を AI に処理させることで、システムの推論プロセス自体が意味的に操作され、段階的な承認やモデル・レベルの検知をすり抜ける状態を招きます。単一のデータ検証だけではなく、システム全体の相互作用を捉える長期的な振る舞い分析が、きわめて大切であると、この記事は指摘しています。

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

ゼロクリック Agentic AI 攻撃

Share this: