Anthropic Fable 5 をジェイルブレイク:安全性分類器の突破とシステム・プロンプトの大量流出

Anthropic’s Claude Fable 5 Jailbroken to Generate Stack Exploits

2026/06/11 CyberSecurityNews — 2026年6月9日に Anthropic が公開したのは、これまでに同社が開発した中で最も高性能な AI であり、新たな Mythos クラスに属する、初の一般提供モデル Claude Fable 5 である。このモデルは、ソフトウェア・エンジニアリング/ナレッジワーク/ビジョン分野などのベンチマークで優れた性能を示している。しかし、研究組織である Pliny the Liberator が、マルチエージェント分解/Unicode のトリック/ナラティブ・フレーミングを用いて Claude Fable 5 の安全性分類器を突破し、その過程で約 120,000 文字に及ぶシステム・プロンプトを流出させた。

Continue reading “Anthropic Fable 5 をジェイルブレイク:安全性分類器の突破とシステム・プロンプトの大量流出”

Gemini CLI インスタンスをジェイルブレイク:5 年間にわたるロシアン・ハッカーの活動とは?

Russian Hacker Used Jailbroken Gemini to Steal Admin Credentials and Drain Crypto Wallets

2026/05/25 CyberSecurityNews — Google Gemini のジェイルブレイク済みのインスタンスが、5 年間のキャリアを持つロシア語話者の脅威アクターにより、ほぼゼロというコストで悪用されてきたことが判明した。この脅威アクターは窃取した API キーを用いることで、MAGA テーマへの影響工作や、WordPress 管理者の認証情報の解読に加えて、少なくとも 1人の被害者の暗号資産ウォレットから資金を窃取した。

Continue reading “Gemini CLI インスタンスをジェイルブレイク:5 年間にわたるロシアン・ハッカーの活動とは?”

Gen AI とジェイルブレイク:各種の AI ツールに存在するリスクと影響について – CERT/CC

New Reports Uncover Jailbreaks, Unsafe Code, and Data Theft Risks in Leading AI Systems

2025/04/29 TheHackerNews — さまざまな GenAI サービスが抱える、2種類のジェイルブレイク攻撃に対して脆弱な特性により、違法/危険なコンテンツの生成を可能になることが判明した。この2つの手法のうちの1つ目は、”Inception” というコードネームで呼ばれ、AI ツールに架空のシナリオを想像させるように指示するものだ。このシナリオは、安全ガードレールが存在しない1つのシナリオで指示され、それが2つ目のシナリオに適応されるものだ。

Continue reading “Gen AI とジェイルブレイク:各種の AI ツールに存在するリスクと影響について – CERT/CC”

OpenAI の Operator に悪意を植え付ける:Symantec が Phishing PoC で実証したものは?

Symantec Demonstrates OpenAI’s Operator Agent in PoC Phishing Attack

2025/03/14 hackread — 最近になって OpenAI がリリースした “Operator” などの AI エージェントが、サイバー攻撃に悪用される可能性があることを、Symantec の脅威ハンターたちが実証した。それらの AI エージェントは、定型的なタスクを自動化して生産性を高めるように設計されているが、Symantec の調査によると、人間の入力を最小限に抑えることで、複雑な攻撃シーケンスの実行も可能にすることが示されている。

Continue reading “OpenAI の Operator に悪意を植え付ける:Symantec が Phishing PoC で実証したものは?”

DeepSeek R1 とジェイルブレイク:マルウェア生成の能力を試してみた – Tenable 調査

AI Chatbot DeepSeek R1 Can Be Manipulated to Create Malware

2025/03/14 HackRead — オープンソースの AI チャットボットである DeepSeek R1 は、キーロガーやランサムウェアなどの悪意のソフトウェアを、その操作に応じて生成し得ることが、サイバーセキュリティ企業 Tenable Research の新たな分析により明らかになった。Tenable Research の調査は、DeepSeek における有害なコードの生成能力の評価を目的として行われたものであり、2種類の主要なマルウェア・タイプに焦点を当てるものとなっている。具体的には、秘密裏にキー・ストロークを記録するキーロガーと、ファイルを暗号化して身代金を要求するランサムウェアである。

Continue reading “DeepSeek R1 とジェイルブレイク:マルウェア生成の能力を試してみた – Tenable 調査”

LLM Model 17 種類を調査:すべてのサービスでジェイルブレイクに成功

Researchers Jailbreak 17 Popular LLM Models to Reveal Sensitive Data

2025/03/07 gbhackers — Palo Alto Networks の Threat Research Center が発表した最新調査によると、研究者たちは 17 種類の GenAI 製品のジェイルブレイクに成功し、安全対策における脆弱性の存在が明らかになったという。この調査の目的は、有害/機密コンテンツの生成を防ぐように設計された、LLM のガードレールを回避する、ジェイルブレイク手法の有効性を評価することにあった。

Continue reading “LLM Model 17 種類を調査:すべてのサービスでジェイルブレイクに成功”