ChatGPT Atlas のセキュリティが強化:プロンプト・インジェクションへの新たな対策とは?

OpenAI Hardened ChatGPT Atlas Against Prompt Injection Attacks

2025/12/29 CyberSecurityNews — ブラウザベースの AI エージェントである ChatGPT Atlas に、高度な防御機能を導入してプロンプト・インジェクション攻撃に対抗するという、重要なセキュリティ・アップデートがリリースされた。OpenAI による今回のアップデートは、エージェント型 AI システムを標的とする新たな脅威から、ユーザーを保護するための重要な一歩となる。

プロンプト・インジェクション攻撃とは?

プロンプト・インジェクション攻撃とは、エージェントが処理する Web コンテンツに悪意の命令を埋め込むことで、AI エージェントを騙して悪用する攻撃手法である。攻撃者が作成する、このような悪意の命令を介して、ユーザーのコマンドが上書きされ、エージェントの動作が有害なアクションへと誘導される恐れがある。

Atlas のようなブラウザ・エージェントにとってプロンプト・インジェクション攻撃は、従来の Web の脆弱性を超えた新たなセキュリティ脅威となる。

具体的な例として挙げられるのは、攻撃者が管理するアドレスへ向けて、機密性の高い税務書類を転送するようエージェントに指示する、悪意のメールを仕込む可能性である。このメールには、隠された命令が含まれている。

The email has malicious instructions
The email has malicious instructions

ユーザーがエージェントにメールを確認するよう依頼すると、ユーザーからの正当な要求ではなく、挿入された悪意のコマンドが、エージェントの判断により実行される可能性がある。

Atlas エージェントが遭遇するものには、メール/添付ファイル/ドキュメント/フォーラム/Web ページなどがある。それらは、事実上境界のないコンテンツであるため、問題は広範囲に及ぶものとなる。

agent mode successfully detects the prompt injection attacks
Agent mode successfully detects the prompt injection attacks

ユーザーがブラウザで実行できる操作であれば、それはエージェントも実行できる操作となる。そのため、プロンプト・インジェクション攻撃が成功すると、データの侵害/不正なトランザクション/ファイルの削除などが発生する可能性がある。

OpenAI の迅速対応ループ

OpenAI が開発した、強化学習を用いて自動化されたレッドチーム・システムは、新たなプロンプト・インジェクション攻撃が実際に発生する前に発見するためのものだ。

この LLM ベースの自動化された疑似攻撃者は、数十から数百のステップにわたって展開される高度で長期的な攻撃を特定する。それにより、従来のレッドチーム演習で検出される単純な問題を、はるかに超えるレベルの検出能力が提供される。

このシステムが新しい攻撃クラスを発見すると、即座に対応サイクルが開始される。この対応により、新しい攻撃に対抗できるようエージェント・モデルを再トレーニングし、そのモデルをセキュリティの核として組み込む。さらに OpenAI は、攻撃の痕跡を利用して、監視システムや安全指示などの周辺防御を強化している。

これらの改善点は、すべての Atlas ユーザーに配布された、最近のセキュリティ・アップデートに組み込まれている。OpenAI 社内の自動レッドチーム演習で発見された新たな攻撃戦略に対して、ブラウザ・エージェントが強化されている。

ただし、OpenAI がユーザーに推奨するのは、可能な限りログイン中のアクセスを制限し、エージェントの確認要求を慎重に確認してから続行を指示することだ。さらに、エージェントには漠然とした指示ではなく、明確で適切な指示を与えるべきだとしている。

迅速かつ狡猾なインジェクションは、依然として対応が難しいセキュリティ問題であるが、OpenAI の積極的なアプローチは、Atlas を新たな脅威に対して耐性のあるものにするという同社のコミットメントを示している。