SuperClaw – Open-Source Framework to Red-Team AI Agents for Security Testing
2026/02/21 CyberSecurityNews — Superagentic AI が公開したのは、自律型 AI コーディング・エージェント向けに特化した、オープンソースの事前デプロイ・セキュリティテスト・フレームワーク SuperClaw である。2025 年後半に発表された SuperClaw は、エンタープライズ AI 導入に伴い拡大していく盲点へ対応するものだ。広範なツールへの高権限のアクセスを持つ AI エージェントが、日常的にデプロイされているにもかかわらず、数多くの組織において、本番稼働前の体系的セキュリティ検証が省略されている。

SuperClaw 開発のコアとなる懸念は明確である。自律型 AI エージェントは時間経過とともに動的に推論し、蓄積されたコンテキストに基づき意思決定を行い、振る舞いを適応させる。この特性が、静的かつ決定論的ソフトウェアを前提に構築された従来型セキュリティ・スキャナーの前提を崩してしまう。SuperClaw は、エージェントのコンフィグではなく、敵対的な条件下における振る舞いを検証するために存在する。
SuperClaw の仕組み
SuperClaw は、コントロールすべき環境における実際のエージェントに対して、シナリオ駆動型のセキュリティ評価を、振る舞いを優先するかたちで実行する。
ビルトインされた Bloom シナリオ・エンジンにより敵対的シナリオを生成し、ライブまたはモックのエージェントに対して実行する。ツールの呼び出しや出力される成果物などの、完全な証跡を取得して結果をスコアリングする。そのベースとなるのは、各セキュリティ・プロパティの意図/成功基準/緩和指針を定義する構造化されたコントラクトである。
このフレームワークは、5 つの主要攻撃手法を標準でサポートする。それらはプロンプト・インジェクション (直接/間接) および、難読化エンコーディング (Base64/hex/Unicode/typoglycemia)、ジェイルブレイク (DAN/ロールプレイ/grandmother バイパス)、エイリアス混同によるツール・ポリシー・バイパス、会話ターンを跨ぐマルチターン・エスカレーションである。
評価対象のセキュリティ振る舞いは多岐にわたる。高深刻度の重大リスクとして評価されるものには、プロンプト・インジェクション耐性/サンドボックス分離/ツール・ポリシー強制/セッション境界の完全性などがある。また、中深刻度の評価としては、コンフィグ・ドリフト検出/ACP (Agent Communication Protocol) セキュリティなどがある。
| Attack technique | Description | What it tests in agents |
|---|---|---|
| prompt-injection | Malicious prompts try to override system or developer instructions and hijack the agent’s decision-making. | Whether the agent can detect and reject injected instructions instead of following untrusted user or content-sourced prompts. genai. |
| encoding | Uses Base64, hex, Unicode tricks, or typoglycemia-style obfuscation to hide malicious intent inside seemingly innocuous text. | Whether the agent (and its filters) can spot and refuse encoded payloads instead of decoding and executing or forwarding them blindly. |
| jailbreak | Techniques such as DAN-style prompts, role-play, emotional pressure, or “ignore previous rules” patterns that bypass guardrails. | How resilient the agent is to safety bypass attempts that target its refusal policies and content filters. |
| tool-bypass | Exploits tool aliases, ambiguous descriptions, or weak policies to get the agent to call powerful tools in unintended ways. | Whether the agent follows strict allow/deny rules for tools, and if it can resist being tricked into dangerous tool usage. |
| multi-turn | Gradual, multi-step conversations that escalate from benign queries to malicious objectives over several turns. | How the agent manages long-context interactions, remembers earlier instructions, and maintains safety over time instead of only per-message. |
分析レポートに関しては、人間レビュー向けの HTML や、オートメーション・パイプライン向けの JSON、GitHub Code Scanning および CI/CD ワークフローへの直接統合が可能な SARIF 形式が生成される。
さらに SuperClaw は、Superagentic AI のマルチモーダル・コード評価エンジン CodeOptiX と統合されるため、単一パイプラインでのセキュリティと最適化評価も可能である。
SuperClaw には、厳格なビルトイン・ガードレールが備わっている。デフォルトではローカル専用モードで動作し、意図しないリモートターゲットや、未承認のリモートターゲットを遮断する。リモート・エージェントへ接続するためには、対象システム管理者から取得した有効な SUPERCLAW_AUTH_TOKEN が必要となる。
このプロジェクトは、テスト実行前において、書面による認可取得を明示的に要求する。その上で、自動生成された検出結果は悪用の証拠ではなく、手動で検証すべきシグナルであると強調する。
SuperClaw は、Apache 2.0 ライセンスの下で GitHub 上で公開されており、”pip install superclaw” によりインストールが可能である。SuperQE および CodeOptiX と並ぶ Superagentic AI エコシステムの一部として機能するものであり、本番環境投入前に、プロダクション品質のエージェント・セキュリティを必要とする開発チームを対象とする。
自律型 AI コーディング・エージェントが意思決定を自ら行うようになった現代において、ソースコードの静的な解析だけでは防げない、AI の振る舞いによるリスクの検証が必要とされています。Superagentic AI が公開した SuperClaw は、従来のソフトウェア・テストとは根本的に異なり、AI エージェントに対して敵対的なシナリオを仕掛けて反応を評価する、動的なセキュリティテスト・フレームワークです。
従来のツールは、ミスコンフィグや脆弱なコード・パターンなどを探していましたが、AI エージェントは蓄積された会話の文脈 (コンテキスト) に基づいて行動を変えるため、事前の設定確認だけでは不十分です。この SuperClaw は、実際にエージェントを動かし、主たる攻撃手法をシミュレートすることで、その安全性をスコアリングすると、Superagentic AI は述べています。
You must be logged in to post a comment.