間接プロンプト・インジェクションは不可避？ ChatGPT Atlas などのエージェントがもたらすリスクとは？

Prompt Injections Loom Large Over ChatGPT’s Atlas Browser

2025/11/27 DarkReading — AI 搭載の新しい Web ブラウザが登場し、エージェント機能が一般ユーザーにも普及し始めている。しかし、疑問として残されるのは、LLM 攻撃の代表的手法であるプロンプト・インジェクションが、さらに深刻化するかもしれないという懸念である。ChatGPT Atlas は、10月21日に OpenAI がリリースした Chromium ベースの LLM 搭載 Web ブラウザである。現時点では、macOS 上で利用が可能であり、テキスト生成／Web ページ要約／エージェント機能といった、ChatGPT のネイティブ機能を搭載している。

OpenAI は、「このエージェントは、予約／スライドショー作成など、複雑なタスクを最初から最後まで処理できる」と宣伝している。ChatGPT のエージェント機能を利用するには、Plus (月額 $20) と Pro (月額 $200) の契約が必要になるが、今年初めに登場したプレミアムなエージェント群と比べると、かなり利用しやすい価格帯となっている。そして、このトレンドは ChatGPT だけのものではない。Google で検索すれば、様々な価格帯の類似のエージェント・ブラウザやエクステンションが見つかる。

しかし、AI エージェントと LLM の関係を考えると、ここからが厄介な問題となる。プロンプト・インジェクションという自然言語を用いた攻撃手法があり、ユーザーの意図しない操作をチャットボットなどの LLM に許してしまう状況が生じている。

プロンプト・インジェクションには、直接型と間接型の２つの形態がある。たとえば、直接型プロンプト・インジェクションのケースでは、チャットボットに質問をすることで、機密性の高い企業文書を漏洩させるといった攻撃が考えられる。

その一方で、間接型プロンプト・インジェクションは、LLM に直接的に悪意の指示を与えるような状況は生じず、攻撃者は別の切り口でプロンプトを挿入するため、より複雑なものとなる。たとえば、攻撃者がメールの本文に悪意のプロンプトを隠し、それを読み取る AI アシスタントがターゲットに送信するケースや、Web ページに組み込まれた隠し要素としての悪意のプロンプトを、動作中のエージェントが誤って取り込んでしまうケースなどが考えられる。

AI ベンダーは長年にわたり、モデルにガードレールを積み重ねて信頼性を高めることで、プロンプト・インジェクションの問題を抑制するための進歩を遂げてきた。しかし、LLM の新たなカテゴリーであるエージェントの場合は、ツールが自律的に機能してタスクを完了するため、はるかに複雑な問題が生じる。

エージェントが実行できるタスクを挙げると、基本的なコーディング／分析／調査／セキュリティなどがあるが、他のエージェントとの連携を必要とするタスクも、そこに加わる。したがって、機密データの漏洩が懸念される LLM に対して、ツールへのアクセスを許可すると、プロンプト・インジェクションという巨大な攻撃ベクターに、ユーザー組織はさらされることになる。

OWASP の Agentic AI – Threats and Mitigations には驚くべき内容が記されている。プロンプト・インジェクション攻撃を受けたモデルは、コーディング・ツールを使用して新たな脆弱性を作成し、リモートコード実行攻撃を行い、エージェント・ネットワーク全体を侵害し得る。それらは、これまでの脅威アクターが用いてきた攻撃のタイプではない。しかし、初期段階にある LLM の世界に属する、新興のカテゴリーがエージェントなのである。

AI エージェントが初めてセキュリティ分野に導入されたのは、SOC スタッフを支援する実験的なツールとしてのものであり、その頃はエンジニアの給与に匹敵するコストが生じていたようだ。しかし、現在では、Atlas ブラウザなどの製品を通じて、この技術が広範囲で応用される可能性が高まり、エージェントを介したプロンプト・インジェクションの可能性も高まっている。

Atlas の脆弱性が露呈

2025年10月下旬に、Web ブラウザ・セキュリティ企業 LayerX が、Atlas ブラウザに存在する脆弱性を初めて報告した。この脆弱性の悪用に成功した攻撃者は、ブラウザのメモリに悪意の命令を挿入できる。同社は、Atlas ブラウザに関する追加調査に取り組んでおり、将来的に公開する予定だと、Dark Reading に語っている。

LayerX の共同創設者兼 CEO である Or Eshed は、「どのようにして AI が、ブラウザに組み込まれているかという点に、より一層注意を払う必要がある。大きな問題は、今後の半年ほどで、これらのブラウザが強化されていく状況にある。これらの製品が成功すれば、攻撃者の利益にもなり得る。つまり、諸刃の剣である」と述べている。

Atlas のローンチ翌日に、OpenAI の CISO である Dane Stuckey は、「プロンプト・インジェクションは依然として最先端の未解決のセキュリティ問題であり、攻撃者は多大な時間とリソースを費やし、これらの攻撃に ChatGPT エージェントを陥れる方法を見つけ出そうとするだろう」と、 X への投稿で指摘した。

そのときには、セキュリティ／プライバシー／安全性への取り組みと関連する、数多くの新機能が発表されていた。しかし、数十億ドルもの資金が投入されているにもかかわらず、依然として OpenAI がプロンプト・インジェクションを解決できていないのであれば、おそらく他の誰も解決できていないだろう。誰もが厄介だと捉える、この問題を解決できなければ、AI セキュリティにおける責任の共有と分担という、次のステップに進めないと思われる。

アプリケーション・セキュリティ・ベンダー Mend.io の CTO である Amit Chita は、「いくつかの点でプロンプト・インジェクションへの対応は改善されているが、エージェントに関しては、それほど単純ではない」と、Dark Reading に語っている。

エージェントがアクセスできるツールと、そのツール間の相互作用は、プロンプト・インジェクションから到達し得る追加の攻撃ベクターとなる。さらにエージェントは、人間のスタッフのように責任を問われることがない。

彼は、「エージェント AI は、さらに問題を複雑にするだけだ。なぜなら、あらゆるツールには、データ漏洩などを引き起こす可能性があり、組織に損害をもたらし得るからだ。ツールが多ければ多いほど、問題が発生する機会も増える」と付け加えている。

ブラウザ・セキュリティ・ベンダー Seraphic Security の COO である Suresh Batchu は、「エージェントの利用範囲が拡大することで、プロンプト・インジェクションの状況は短中期的に悪化すると予想する」と Dark Reading に語っている。

彼は、「エージェントが自律性とツールへのアクセスを獲得するにつれて、プロンプト・インジェクションは “モデルに奇妙なことを言わせる” から “モデルに危険なことをさせる” へと変化する。すでにクラウド・プロバイダーは、エージェント・ツール・チェーンが間接的なインジェクションを仕掛けると、データの流出やリモートコード実行 (RCE) が可能になると警告している。エージェントが増えれば、実装も多様化し、標的も増える。成熟したセキュリティ対策を講じずに、エージェントを導入する小規模組織が数多く存在する。長期的には、度重なるインシデントの圧力で改善されるだろうが、まだそこまでには至っていない」と付け加えている。

Atlas などのエージェントを保護するには

たとえば、組織を運営する貴方がエージェント型 AI を試したいと考えている場合や、CISO である貴方がエージェントの実装を任されている場合を考えてみよう。

Mend.io の Amit Chita は、「エージェントがアクセスできるツールとデータを特定するための、手動による定期的なレビューを実施すべきだ。エージェントからのアクセスが、必要なものだけに制約されていることを確認するためのインベントリ作成を、ユーザー組織に推奨する。組織によっては、何かを行うにはリスクがあると判断し、そのリスクを負う場合もあるだろうが、慎重に行う必要がある」と述べている。

Seraphic Security の Suresh Batchu が推奨するのは、最低限の権限でのツールへのアクセス／サンドボックス内でのツールの実行／すべてのホップにおけるガードレールの設置／高リスクのアクションに対する人間の関与である。

彼は、「プロンプト・インジェクションは、より良いプロンプトで解消されるものではない。エージェントがアーキテクチャ的に制約され、ツールの使用が最低限の権限でサンドボックス化され、信頼できないコンテンツがデフォルトで敵対的なものとして扱われることで、この問題は初めて改善される」と指摘している。

Atlas の個別の脆弱性よりも、自律性を持つエージェントに対して、どこまで権限とツールを渡すべきかという論点を深掘りする記事です。メールや Web ページなどの信頼できないコンテンツを読ませる設計と、エージェントに広いツール権限と機密データへのアクセスを与えることで、間接的なプロンプト・インジェクションが現実的な攻撃経路になっています。特に、小さな組織ほど、ガードレールの設計や権限の見直しが追いつかず、便利さを優先した結果としてリスクが積み上がっていく構図が描かれています。よろしければ、AI Agent での検索結果と、カテゴリー AI/ML も、ご参照ください。

M	T	W	T	F	S	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Atlas の脆弱性が露呈

Atlas などのエージェントを保護するには

Share this: