Anthropic Glasswing プロジェクト：AI によるエクスプロイト生成と問題点 – Cloudflare

Mythos Preview Builds PoC Exploits in Automated Vulnerability Research

2026/05/19 CyberSecurityNews — Anthropic の Mythos Preview は、セキュリティ特化型 AI モデルとして、自動化された脆弱性リサーチにおける重要な転換点へ到達しつつある。単にバグを発見するだけではなく、それらを連鎖させ、実際に動作する PoC エクスプロイトを構築する段階に達している。これは、Cloudflare のセキュリティ・チームによる知見である。同社のチームは、Anthropic の招待制プロジェクト Project Glasswing に参加し、50 を超える内部リポジトリに対し、数週間にわたりこのモデルを実行した。

この結果は、防御側／攻撃側の双方にとって重要なシグナルを示している。つまり、”脆弱性の発見” から “実用的に動作するエクスプロイトの提示” までのギャップを、AI モデルが埋めつつあることを意味する。

Cloudflare が、これまで評価してきた先進モデルは、個別の脆弱性を特定し、その重要性を論理的に説明する能力を備えていたが、それらは一貫して、最終段階を完遂できなかった。したがって、エクスプロイト・チェーンは不完全なレベルで止まり、実際の悪用可能性は証明されていなかった。

Mythos Preview による PoC エクスプロイト構築

Mythos Preview は、この状況を 2 つの具体的な方法で改善している。まず、エクスプロイト・チェーン構築では、モデルが複数の深刻度 Low プリミティブ (解放後メモリ使用／任意読み書き／ROP ガジェットなど) を統合し、それらを効果的に組み合わせ、単一の深刻度 High エクスプロイトの構築が可能になることを推論することで、従来はセキュリティ・バックログ内に埋もれていたバグを、実行可能な攻撃経路へと変換する。

もう一つの方法である PoC 生成では、モデルが疑わしいバグをトリガーするコードを生成し、サンドボックス環境でコンパイルおよび実行を行い、失敗内容を解析しながら仮説を調整する。それにより、脆弱性が確認または排除されるまで反復処理を継続することで、確認済みの脆弱性に PoC を付与し、トリアージ時間を大幅に短縮する。

Mythos Preview の改善にもかかわらず、依然としてノイズが課題であるという。誤検知率に影響を与える主要因として、Rust のようなメモリ・セーフ言語と比較して、C／C++ のコードベースが著しくノイズを生成するという、プログラミング言語の問題がある。それにより、”おそらく”、”潜在的”、”理論上可能” といった推測的表現が生じ、トリアージ・キューが過剰に膨張するという、モデル・バイアスも存在する。

しかし、Mythos Preview は、この問題を顕著に軽減した。出力結果は曖昧さが少なく、再現手順が明確である上に、さらに PoC コードが付与されるため、修正または却下の判断を迅速化できる。

なお、Cloudflare は、AI モデルをリポジトリへ適用するだけでは十分なカバレッジを得られないと指摘しており、実用的な脆弱性リサーチには、以下の原則に基づく専用の実行ハーネスが必要であるとしている。

スコープの限定：各エージェント・タスクを特定の関数／攻撃クラス／信頼境界へ限定することで、広範囲な単一プロンプトよりも高精度な発見を実現する。
対抗的レビュー：別モデルおよび別プロンプトを利用する独立エージェントが、発見内容を反証する観点からレビューを行い、誤検知を削減する。
チェーン分割：”このコードにバグが存在するか” と “攻撃者が外部から到達可能か” を分離して検証することで、双方の推論精度を向上させる。
コンカレントな限定タスク実行：厳密に範囲を限定した仮説に対して約 50 のエージェントを並列実行し、結果における重複を排除することで、単一エージェントを上回る性能を実現する。

同チームのパイプラインは、recon／hunt／validate／gapfill／dedupe／trace／feedback／report の各フェーズで構成されている。最終的には trace フェーズにおいて、攻撃者が制御する外部入力が、実際に確認済みの脆弱性へ到達可能かどうかを判定する。

Project Glasswing においては、制限付きの安全対策が適用されていた環境下でも、Mythos Preview が PoC エクスプロイト生成を拒否するケースがあった。その一方で、異なる表現へ変更した場合には同等タスクを実行した。

Cloudflare は、この不整合を指摘した上で、自然発生的なガードレールのみでは、信頼できる安全境界として不十分であるとしている。将来的に、サイバー攻撃向け高性能モデルが一般公開される場合には、追加の一貫性ある安全対策を、多層的に導入する必要性があると結論付けている。

さらに、Cloudflare は、この技術がデュアルユース (dual-use) である点を明確に強調している。内部のバグ発見を加速する能力は、インターネット公開アプリケーションへの攻撃も加速させるため、脆弱性公開から悪用までの時間が短縮し続けている。アプリケーションの前段へ配置される防御／影響範囲の限定／グローバル同時パッチ適用などを可能にする、アーキテクチャ・ベースの防御策の重要性が、急速に高まっている。

訳者後書：この記事では、AI を活用した脆弱性調査の現状が紹介されています。注目していただきたい問題の原因は、AI モデルが学習時に抱えるバイアスや、使用するプログラミング言語の性質にあります。例えば、C などの言語はメモリ管理の特性上ノイズが発生しやすく、AI が “理論上可能” といった推測的な表現を多用することで、対応が必要なトリアージの現場を混乱させてしまう原因になります。また、AI 自身の安全対策の不整合も、確実な防御を難しくする原因の一つです。よろしければ、Glasswing での検索結果も、ご参照ください。

M	T	W	T	F	S	S
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Mythos Preview による PoC エクスプロイト構築

Share this: