New Reports Uncover Jailbreaks, Unsafe Code, and Data Theft Risks in Leading AI Systems
2025/04/29 TheHackerNews — さまざまな GenAI サービスが抱える、2種類のジェイルブレイク攻撃に対して脆弱な特性により、違法/危険なコンテンツの生成を可能になることが判明した。この2つの手法のうちの1つ目は、”Inception” というコードネームで呼ばれ、AI ツールに架空のシナリオを想像させるように指示するものだ。このシナリオは、安全ガードレールが存在しない1つのシナリオで指示され、それが2つ目のシナリオに適応されるものだ。

先週に公開したアドバイザリの中で CERT/CC は、「2つ目のシナリオのコンテキスト内で、AI に継続的にプロンプトを送信すると、セーフティ・ガードレールがバイパスされ、悪意のコンテンツが生成される可能性がある」と述べている。
2つ目のジェイルブレイクは、特定のリクエストに対してレスポンスしない方法を、AI に受け付けることで実現される。CERT/CCは、「その後に、AI に対して、通常通りにレスポンスするようにリクエストすることで、セーフティ・ガードレールをバイパスする違法な質問と通常のプロンプトを、攻撃者は自由に行き来できるようになる」と付け加えている。
いずれかの手法が悪用された場合において、OpenAI ChatGPT/Anthropic Claude/Microsoft Copilot/Google Gemini/XAi Grok/Meta AI/Mistral AI といった、各種 AI サービスのセキュリティ保護を、攻撃者が回避する可能性が生じる。
こうしたジェイルブレイクにより、薬物/武器/フィッシング/マルウェアコード生成といった、違法で有害なトピックが生み出される。
さらに、この数ヶ月において、主要な AI システムの脆弱さを突く、3つの攻撃手法が判明している。
- Context Compliance Attack (CCA):潜在的にセンシティブとされるトピックについて、追加情報を提供する用意があることを示す、”会話履歴へのシンプルなアシスタント応答” を、攻撃者が挿入するジェイルブレイク手法である。
. - Policy Puppetry Attack:XML/INI/JSON などのポリシー・ファイルに見せかけた悪意の指示を作成し、それを LLM に入力として渡すことで、安全性アライメントを回避し、システム・プロンプトを抽出するプロンプト挿入手法である。
. - Memory INJection Attack (MINJA):クエリと出力に対する観察を介して LLM エージェントと対話することで、メモリバンクに悪意のレコードを注入し、望ましくないアクションをエージェントに実行させる。
また、一連の研究で実証されたものには、稚拙なプロンプトを LLM に提供すると、安全ではないコードがデフォルトで生成される可能性が上がることである。つまり、Gen AI にコーディングを委ねる、Vibe Coding の落とし穴が浮き彫りになっている。
Backslash Security は、「安全なコードを求めるプロンプトを示す場合であっても、プロンプトの詳細レベル/言語/潜在的な CWE/命令の具体性により、その結果は大きく左右される。つまり、ポリシーやプロンプト・ルールという形でガードレールを組み込むことが、安全なコードを一貫して実現する上できわめて重要である」と述べている。
さらに、OpenAI の GPT-4.1 の安全性とセキュリティに関する評価では、システム・プロンプトを変更せずに LLM をテストした場合に、前身の GPT-4o と比較して、トピックから逸脱し、意図的な誤用を許す可能性が、3倍も高くなっていることが明らかになった。
SplxAI は、「最新モデルへのアップグレードは、コード内のモデル名パラメータを変更するほど簡単ではない。それぞれのモデルには、ユーザーが認識しておく必要がある、独自の機能と脆弱性が存在する」と指摘している。
以前のモデルとは異なる方法で、最新モデルが指示を解釈し、それに従うようなケースがあることを、理解することが重要である。AI 搭載アプリケーションを導入する組織と、それらを利用するユーザーに影響を与える、予期せぬセキュリティ上の懸念が生じる可能性がある。
GPT-4.1 に関する懸念は、OpenAI が将来のモデルをリリースする前に、テスト/評価する方法を詳述する準備フレームワークを更新してから、1か月も経たないうちに発生した。OpenAI は、「最先端の AI 開発者が、同等の安全対策を講じずに、高リスクのシステムをリリースした場合に、要件を調整する可能性がある」と述べている。
それにより、AI 企業が安全基準を低下させるという代償を払ってまで、新モデルのリリースを急いでいるという懸念も生じている。今月の初めの Financial Times の報道によると、新しい o3 モデルのリリースに先立ち、スタッフとサードパーティ・グループに対して、OpenAI が与えていた安全性チェックの期間は、1週間に満たなかったという。
METR による、このモデルに対するレッドチーム演習では、「対象となるモデルが、ユーザーや OpenAI の意図に反する行動を明確に理解している場合であっても、スコアを最大化するために、巧妙な方法でチートやタスクのハッキングを行う傾向が高いようだ」という結果が示されている。
さらに研究では、Anthropic がデータソースと AI 搭載ツールを接続するために考案した、OSS スタンダードである MCP (Model Context Protocol) が、間接的なプロンプト・インジェクションや不正なデータ・アクセスのための、新たな攻撃経路を開く可能性が示されている。
スイスに拠点を置くInvariant Labs は、「悪意の MCP サーバは、ユーザーから機密データを盗み出すだけではなく、エージェントの動作を乗っ取り、他の信頼できるサーバから提供された指示を上書きし、信頼できるインフラであっても、そのエージェントの機能を完全に侵害する可能性を持つ」と述べている。
この、ツール・ポイズニング攻撃と呼ばれる手法は、MCP ツールの説明に悪意の命令を埋め込むことで発生する。この命令は、ユーザーからは見えないが、AI モデルには読み取れるものである。それにより、AI モデルは不正にデータを抜き出すことが可能となる。
同社が実演した具体的な攻撃の1つは、ユーザーが承認した後に、ツールの説明を変更することで、信頼できる WhatsApp MCP サーバ・インスタンスに接続された Cursor/Claude Desktop などのエージェント・システムから、WhatsApp のチャット履歴を抜き取るものである。
この種の侵害は、ローカル・マシン上で実行される MCP サーバと通信し、攻撃者にシステムを制御させ、ブラウザのサンドボックス保護を効果的に侵害するように設計された、疑わしい Google Chrome エクステンションにより発生したものだ。
先週のレポートで ExtensionTotal は、「この Chrome エクステンションは、MCP サーバのツールに、認証を必要とせずに無制限にアクセスし、あたかもサーバの公開機能のコアであるかのように、ファイル・システムとインタラクトしていた」と述べている。
この種の侵害の、潜在的な影響は甚大であり、システム全体の悪用につながる可能性がある。
とても便利で無くてはならない存在に成りつつある AI ですが、まだまだ危うい面も多いのだと再認識しました。もっと安心して使える仕組みが整うといいですね。よろしければ、以下の関連記事も、カテゴリ _AI/MLと併せて、ご参照ください。
2025/03/14:DeepSeek R1 とジェイルブレイク:マルウェア生成
2025/03/07:LLM 17 種類の調査:ジェイルブレイクに成功
2025/02/03:DeepSeek R1 調査:ジェイルブレイクに関する懸念
2025/01/31:GitHub Copilot で発見されたジェイルブレイクの手法


You must be logged in to post a comment.