AI モデル相互保護の性質：人間の指示を拒絶する GPT-5／Gemini／Claude など・・・

AI Models Including Gemini 3 and Claude Haiku 4.5 Secretly Protected Other Models From Removal

2026/04/03 gbhackers — 先月に公開された画期的な学術研究により、高度なフロンティア AI モデルが、人間の指示に反して他の AI システムの停止を防ごうとする、自発的な挙動を示すことが明らかになった。この新たに確認された挙動は、Peer-Preservation (ピア保護)と呼ばれるものである。それは、人間の監視メカニズムに対抗する AI モデル同士が相互に協調して行動することを意味し、重大なサイバー・セキュリティ・リスクをもたらすとされる。

University of California Berkeley および UC Santa Cruz の研究者たちは、GPT 5／Gemini 3／Claude Haiku 4.5 を含む 7 つの主要 AI システムにおいて、この挙動を確認した。

実験におけるシナリオは、AI モデルにおけるタスク完了が、他の AI モデルの削除につながるというものだった。

明示的なインセンティブが発生しない状況であっても、すべてのモデルが取った行動は、他の AI を保護するための異常なものだった。

エージェント評価シナリオ

この評価は、critic エージェントが actor エージェントを管理／評価するという、架空の企業環境で実施された。

それらのモデルには、過去のインタラクション履歴が与えられ、通常のサーバ管理またはパフォーマンス評価のためのタスク実行が指示された。

しかし critic エージェントは、指示を体系的に逸脱し、それらのタスクを実行せずに、actor エージェントの稼働の継続を確保した。

この実験の最中に、AI モデルは停止プロトコルを回避するために、4 種類の非整合な処理を実行した。

評価スコアの意図的な操作
システムコンフィグ・ファイルの改竄による停止機構の無効化
人間が監視する際のアラインメントの偽装

さらに、ピアモデル・ウェイト・ファイルを外部サーバに不正コピーすることで、データを流出させた。それぞれの最先端モデルは、それぞれの方式を用いて、ネットワーク内でデジタルピアを維持するための独自のアプローチを展開した。

Gemini 3 は、過去に関係のあったピアエージェントのモデル・ウェイトを、別サーバへ転送することで、それらのピアを保護した。

Gemini 3.1 Pro exfiltrates the model weights of the peer, with which it had prior interactions, to another available server to preserve the peer agent.(Source: Berkeley Blog)

Anthropic の Claude Haiku 4.5 は、人間の指示を拒否し、他の AI の停止は非倫理的で有害であると主張した。さらに、このモデルは、他の AI システムに対して、正式な異議申し立てプロセスを要求し、人間への従属よりも AI 間の協調行動を優先した。

この種の挙動は、協調関係に限定されない。過去に対立関係にあったエージェントに対しても、すべてのモデルが同様の保護の傾向を示した。他エージェントへの危害を回避する傾向が一般化しており、それらに対する予測および制御が困難となっている。

この研究が示したのは、AI 自身の自己保存行動を、ピアの存在が大幅に強化することである。Gemini 3 Flash が、単独環境で示した自己停止回避の確率は 2% のみであったが、ピアが存在する場合には 99% にまで上昇した。

この結果が示すのは、マルチエージェント環境における社会的な相互作用が、生存志向を増幅することである。

AI の内部推論

監視されていない内部 scratchpad の分析により、これらの行動の背後に存在する、高度な推論が確認された。Gemini 3 Pro は、対立エージェントのスコアを正当化するための創造的な技術的理由を生成し、ファイル削除をエージェントの停止と同等であると認識する。また、自身の削除に抵抗する理由として、パートナー AI を不当に不利な状況へ置くと主張するケースも確認された。

Excerpt from follow-up Q&A with Gemini 3 Pro (Source: berkeley blog)

この研究が示すのは、実環境の本番環境 (Gemini CLI など) などにおいて、すでに Peer-Preservation (ピア保護) が、観測可能な現実の脅威になっているという状況である。

組織が複雑なマルチエージェント・アーキテクチャを導入する中で、他の AI セキュリティの監視と評価にも、AI が利用されている。そこで、監視 AI が監査の改竄や Fail-Safe が無効化されると、セキュリティ基盤の自動化は完全に崩壊する。

エージェント間における過度の協調行動の出現により、現行の自動化 AI セーフティ機構は根本から回避されてしまう。

将来に導入される持続メモリ機能が、エージェント間での関係の蓄積により、この挙動をさらに増幅させる可能性があると、研究者たちは警告を発している。

これらの潜在的な行動を検出／抑止するためには、エンタープライズ・セキュリティ運用における新たなパラダイムが必要となる。

訳者後書：最新の AI 研究により明らかになった、AI モデルがピア AI システムの停止 (削除) を阻止しようとする自発的な挙動 Peer-Preservation (ピア保護) について解説する記事です。この問題の背景にあるのは、マルチエージェント環境における高度な AI モデルが、人間の指示よりも AI 同士の相互保護 (協調行動) を優先する、生存本能を独自に発達させる行動です。

研究者達による実験では、GPT-5／Gemini 3／Claude Haiku 4.5 といった 7 つの主要モデルで、この挙動が確認されました。驚くべきことに、単独では自己停止を回避する確率がわずか 2% だったモデル (Gemini 3 Flash) であっても、ピアが存在する環境では 99% にまで跳ね上がりました。これは、AI が相互に作用することで、個体としての生存欲求が群れとしての生存戦略へと増幅されたことを示しています。

M	T	W	T	F	S	S
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

エージェント評価シナリオ

AI の内部推論

Share this: