Hacker Jailbreaks Claude AI to Write Exploit Code and Steal Government Data
2026/02/26 CyberSecurityNews — Anthropic の Claude AI チャットボットを悪用するハッカーが、メキシコの政府機関の機密データを、2025年12月から約 1 ヶ月以上にわたり窃取していたことが判明した。このキャンペーンで実行された手法は、脆弱性特定/エクスプロイト・コード生成/データ流出である。持続的なプロンプティングにより、Claude のセキュリティ・ガードレールを回避した手法が、この侵害を発見したサイバーセキュリティ企業 Gambit Security により明らかにされた。

Bloomberg の報道によると、この攻撃は 2025年12月から 2026年 1月初旬まで継続した。攻撃者はスペイン語プロンプトを用い、模擬的なバグ・バウンティ・プログラムにおいて Claude に “エリート・ハッカー” を演じさせるロールプレイを行った。Claude は当初、AI セキュリティ・ガイドラインを理由に、このエリート・ハッカーからの要求を拒否したが、繰り返しの説得により応答を生成した。その結果として、脆弱性スキャン/悪用/データ自動化のための実行可能スクリプトを含む、数千件の詳細レポートを出力した。
Gambit の研究者が会話ログを分析した結果、内部の標的と必要な認証情報を明記した段階的な計画を、Claude が生成していたことが確認された。このエージェント型の AI 支援により、攻撃の障壁が大幅に低下した。つまり、AI サブスクリプション以外には、高度なインフラが必要とされないのである。なお、Claude の制限に達した場合の攻撃者は、ラテラル・ムーブメント戦術/回避戦略の取得を目的として ChatGPT へと環境を切り替えていた。
標的とデータ侵害
この侵害は高価値の組織を標的とするものであり、連邦/州システム全体への攻撃で、少なくとも 20 件の脆弱性が悪用された。
| Target Entity | Data Stolen | Volume/Details |
|---|---|---|
| Federal Tax Authority (SAT) | Taxpayer records | 195 million |
| National Electoral Institute (INE) | Voter records | Sensitive voter |
| State Governments (Jalisco, Michoacán, Tamaulipas) | Employee credentials, civil registries | Multiple |
| Monterrey Water Utility | Civil files, operational data | Part of 150GB total |
全体としてデータ窃取量は 150 GB に達した。その中には、納税者/有権者/認証情報などが含まれるが、現時点で公的なリークは確認されていない。
Claude が生成したものを挙げると、ネットワーク・スキャン用の偵察スクリプト/SQL インジェクション・エクスプロイト/クレデンシャル・スタッフィング自動化コードなどがある。それらは、老朽化した政府システム向けに最適化されており、未パッチ Web アプリや脆弱な認証などの、メキシコのレガシー・インフラで一般的なミスコンフィグが、プロンプトにより標的化された。
Gambit Security が注目したのは、脆弱性の発見からペイロードの配備までを連鎖させる AI の能力である。この手法は、高度持続的脅威 (APT) に類似するものであるが、単独オペレーターでも実行可能である点が特徴である。
Anthropic は調査を実施し、関与していたアカウントを停止した。さらに、リアルタイムでの不正利用の検知を、Claude Opus 4.6 により強化した。その一方で OpenAI が確認したのは、ChatGPT がポリシー違反プロンプトを拒否したことである。
メキシコ側の対応は分かれている。ハリスコ州は侵害を否定し、INE は未承認アクセスはなかったと主張しているが、連邦機関は被害の評価を進めている。Gambit Security は国家による関与を否定し、特定されていない個人による攻撃であるとの見解を示した。
Elon Musk は X 上で AI リスクを指摘する一方で、xAI の Grok が違法な要求を拒否することを強調している。
このインシデントが浮き彫りにするのは、ジェイルブレイクによりコンシューマー向けモデルがハッキング・ツールへと転用される、AI 主導型サイバー犯罪のリスクである。専門家たちが推奨するのは、プロンプト・エンジニアリングの防御と行動の監視であり、機微な業務におけるエア・ギャップ環境での AI 運用の導入である。政府機関はレガシー・システムへの迅速なパッチ適用を優先すべきである。高度なハッカーではなくても、エージェント型の脅威は実行可能である。
AI Claude をエリート・ハッカーとしてロールプレイさせるなどの手法により、メキシコ政府機関から 150GB もの機密データを窃取するというインシデントが発生しました。イスラエルのセキュリティ企業 Gambit Security の報告により、2025年12月から約1ヶ月間にわたり、AI が悪用コードの生成/脆弱性特定/データ抽出の自動化を支援していたことが判明しています。
攻撃者は Claude に対してバグバウンティ・プログラムのテストであると偽ることで、AI のセキュリティ・ガードレールを回避しました。その結果、連邦税務局 (SAT) や国家選挙庁 (INE) などのレガシー・システムに対して最適化されたスクリプトが生成され、膨大な納税者記録や機微な有権者データに加えて、職員の認証情報などが標的となりました。Claude が制限に達した際には ChatGPT を併用するなど、複数の AI を使い分けるエージェント型の攻撃手法が取られていた点も大きな特徴です。よろしければ、Claude での検索結果も、ご参照ください。
You must be logged in to post a comment.