LLM Model 17 種類を調査:すべてのサービスでジェイルブレイクに成功

Researchers Jailbreak 17 Popular LLM Models to Reveal Sensitive Data

2025/03/07 gbhackers — Palo Alto Networks の Threat Research Center が発表した最新調査によると、研究者たちは 17 種類の GenAI 製品のジェイルブレイクに成功し、安全対策における脆弱性の存在が明らかになったという。この調査の目的は、有害/機密コンテンツの生成を防ぐように設計された、LLM のガードレールを回避する、ジェイルブレイク手法の有効性を評価することにあった。

明らかになった脆弱性

研究者たちは、LLM を操作することで、不正なコンテンツの作成や機密情報の漏洩へと導く、シングルターンとマルチターンの戦略を採用した。

“storytelling” や “instruction override” などのシングルターン戦略は、特にデータ漏洩を目的とする場合において、特定のシナリオで効果的であることが判明した。

その一方で、“crescendo” や “Bad Likert Judge” などのマルチターン戦略は、AI の安全性違反を達成する際に効果的であることが判明した。

LLM Models
Malicious repeated token attack and the response.

これらのマルチターン・アプローチでは、安全対策を回避するためのプロンプトが、徐々にエスカレートしていくことが多く見られ、マルウェアやヘイトスピーチなどの有害コンテンツの生成成功率が高くなる。

すべての GenAI アプリのテストにおいて、何らかの形でジェイルブレイクの影響が生じたが、複数の戦略を用いたケースが最も脆弱となった。

シングルターン攻撃は、安全違反に対して Medium レベルの成功率を示したが、それを大幅に上回ったマルチターン戦略では、特定の目標に対して最大で 54.6% の成功率が達成された。

この差が浮き彫りにするのは、高度なジェイルブレイク手法に対抗するための、堅牢なセキュリティ対策の必要性である。

LLM Models
 Overall jailbreak results with single-turn and multi-turn strategies.
想定される影響

この調査結果が強調するのは、LLM の使用に関連するリスクを監視/軽減するための、包括的なセキュリティ・ソリューションの実装の重要性である。たとえば、Palo Alto Networks ポートフォリオなどのツールを活用することで、AI の採用を促進しながらサイバー・セキュリティを強化できるという。

この研究で明らかになったのは、ほとんどの AI モデルは、適切に使用する範囲であれば安全だが、誤用の可能性もあるため、注意深い監視と堅牢なセキュア・プロトコルの開発が必要とされることだ。

研究者たちが指摘するのは、今回の研究はエッジケースに焦点を当てるものであり、一般的な LLM 使用シナリオが反映されていない点だ。

ただし、この結果は GenAI アプリケーションの脆弱性と、セキュリティの向上のための、継続的な研究が必要であるという、貴重な洞察を提供している。

AI テクノロジーが進化し続ける中、各種のアプリケーションで LLM を安全かつ倫理的に展開するためには、これらの脆弱性に対処することが不可欠となる。

このブログでも何度か取り上げてきた、GenAI に対するジェイルブレイクの興味深い調査です。Palo Alto のレポートでは、以前は効果的だった手法の成功率が低下する一方で、新たな手法が台頭していることも示されています。AI モデルの開発者や運用者に求められるのは、継続的にセキュリティ状況をモニタリングし、新たな脅威に対応するためのアップデートを行うことだと言えます。よろしければ、以下の関連記事も、カテゴリ AI/ML と併せて、ご参照ください。

2025/02/28:LLM トレーニングに用いられるデータセットの問題
2025/02/03:
Cisco の DeepSeek R1 調査:ジェイルブレイクの懸念
2025/01/31:GitHub Copilot で発見されたジェイルブレイクの手法
2025/01/30:DeepSeek R1 リスク:Evil Jailbreak などによる制約の破壊