Anthropic’s Claude Fable 5 Jailbroken to Generate Stack Exploits
2026/06/11 CyberSecurityNews — 2026年6月9日に Anthropic が公開したのは、これまでに同社が開発した中で最も高性能な AI であり、新たな Mythos クラスに属する、初の一般提供モデル Claude Fable 5 である。このモデルは、ソフトウェア・エンジニアリング/ナレッジワーク/ビジョン分野などのベンチマークで優れた性能を示している。しかし、研究組織である Pliny the Liberator が、マルチエージェント分解/Unicode のトリック/ナラティブ・フレーミングを用いて Claude Fable 5 の安全性分類器を突破し、その過程で約 120,000 文字に及ぶシステム・プロンプトを流出させた。
Continue reading “Anthropic Fable 5 をジェイルブレイク:安全性分類器の突破とシステム・プロンプトの大量流出”