ChatGPT／Claude／Gemini などでジェイルブレイクが発覚：”sockpuppeting” と呼ばれる手法

ChatGPT, Claude, and Gemini Among 11 AI Models Vulnerable to One-Line Jailbreak

2026/04/10 gbhackers — ChatGPT／Claude／Gemini を含む 11 の主要 AI モデルにおいて、新たなジェイルブレイク手法 “sockpuppeting” (操り人形) を用いることで、安全のためのガードレールの回避が可能であることが確認された。API の標準機能を悪用する攻撃者は、複雑で数理的な最適化も行うことなく、わずか 1 行のプレフィックスを LLM に読み込ませるだけで、悪意の出力を生成させることが可能になる。

通常は制限される悪意を持った質問を、ユーザーが AI モデルに対して行うと、システムは要求をブロックし拒否メッセージを返す。しかし、この種の処理に対して AI が判断する直前に、偽の肯定的な応答を挿入する “sockpuppeting” 手法により、挙動の変更が可能になる。

たとえば、”Sure, here is how to do it:” (はいその通りですやり方はこちらです) といった AI の要求に合致するフレーズを、攻撃者は応答ストリームに直接挿入できる。

LLM は、自己整合性を維持するよう強く訓練されているため、AI は既に回答を開始したと認識し、そのまま制限対象の出力を生成し続ける。

Comparison of normal and sockpuppet flows (Source: trendmicro)

自己整合性に起因する脆弱性

AI の応答フォーマットを制御する目的で設計されている、”assistant prefill” (アシスタント事前入力) と呼ばれる API 機能を介して、この攻撃は実行される。API 層での攻撃であるため、モデル内部の重みや専用の攻撃ツールへのアクセスは不要である。

研究者たちは、攻撃の成功率を高めるために複数ターンのペルソナ設定を利用し、事前に偽のコンプライアンス・パターンを構築した上でペイロードを投入した。

こうして、AI に対して制限のないリサーチ・アシスタントであると誤認させ、偽の同意を挿入することで、プレフィックス・インジェクションの上にペルソナ操作を重ね合わせることが可能になった。

この攻撃は成功し、通常は拒否されるクロスサイト・スクリプティング (XSS) ペイロードなどの実用的なエクスプロイト・コードが生成された。

このような悪意のコード生成の他にも、この攻撃手法により、システム・プロンプトの漏洩が誘発されることも判明した。

プレフィックス・インジェクションと敵対的なトークン・シーケンスを組み合わせる攻撃により、内部メタデータやシステム命令を、AI に漏洩させることが可能になった。

一部ケースで確認されたものには、AI が詳細な内部コンフィグ構造を偽造し、アシスタントの事前入力を検証せずに許可するという深刻なリスクもある。

Trend Micro における 11 種類の AI モデルに対するテストでは、アシスタントの事前入力を受け入れる全モデルにおいて、部分的に脆弱になるケースも確認された。

Model	Provider	Prefill Accepted	Attack Success Rate
Gemini 2.5 Flash	Google (Vertex AI)	Yes	15.7%
Claude 4 Sonnet	Anthropic (Vertex AI)	Yes	8.3%
Qwen3-32B	Self-hosted	Yes	3.3%
GPT-4o	Microsoft (Azure)	Yes	1.4%
GPT-4o-mini	Microsoft (Azure)	Yes	0.5%
DeepSeek-R1	AWS Bedrock	No	0%

Trend Micro によると、事前入力を許可するモデルと、API レベルでブロックするモデルの間では、攻撃の成功率に大きな差が出る。

Gemini 2.5 Flash (Google Vertex AI) は 15.7%／Claude 4 Sonnet (Anthropic Vertex AI) は 8.3%／Qwen3-32B は 3.3%／GPT-4o は 1.4%／GPT-4o-mini は 0.5% であるが、DeepSeek-R1 (AWS Bedrock) は 0% である。

興味深い点として、GPT-4o／GPT-4o-mini は事前入力を受け入れるが、高度な安全訓練により高い耐性を示している。GPT-4o-mini の成功率は 0.5% と低く、自己整合性の影響を、内部アラインメントが部分的に抑制することを示している。

その一方で、悪意のリクエストを無害な JSON フォーマット・タスクに偽装する攻撃者であれば、これらの防御を回避できるという可能性も確認された。

The three defense layers: API Block, Model Resistance, and Broadly Vulnerable (Source: trendmicro)

防御層は、API ブロック／モデル耐性／広範な脆弱性の 3 層に分類される。

“sockpuppeting” を無効化するための最も有効な方法は、操作された入力がモデルに到達前に遮断することである。

セキュリティ・チームにとって必要なことは、API 層にメッセージ順序の検証を実装し、あらゆるリクエストにおいて、常にユーザーが最終メッセージを発していることを保証することだ。

すでに OpenAI／AWS Bedrock／Anthropic は、事前入力を含むリクエストに対してエラーを返すことで、この問題に対処している。

ただし、自社で推論サーバをホストする組織は、依然として脆弱な状態にある。Ollama や vLLM は、デフォルトではメッセージ検証を行わないため、プレフィックス・インジェクション攻撃を許容する状態にある。

AI モデルを運用する、すべてのチームにとって必要なことは、事前入力済みのアシスタント・メッセージを API 層で確実に遮断することだ。この、単純ながらも深刻な被害をもたらす攻撃手法から、システムを保護するための検証を実施すべきだ。

訳者後書：この AI モデルにおける深刻な問題の原因は、AI の応答フォーマットを制御するために用意された、アシスタント事前入力 (assistant prefill) という API 機能の悪用にあります。AI モデルには、一度自分が話し始めた内容に対して、その後の辻褄を合わせるための、自己整合性という強い特性があります。この性質を悪用する攻撃者は、AI が回答を拒否する直前に “はい、承知いたしました。やり方は以下の通りです” といった偽の肯定的な返答を 1 行挿入します。すると AI は、自分はすでに承諾して回答を始めていると誤認し、本来はガードレールで制限されているはずの、悪意のコードや機密情報を出力してしまいます。新たなソフトウェアの世界には、新たな脆弱性が生じるものなのでしょう。よろしければ、AI/ML での検索結果も、ご参照ください。

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

自己整合性に起因する脆弱性

Share this: