OpenAI が立ち上げる Red Teaming チャレンジ:新たな Open-Weight LLM は何を変えていくのか?

OpenAI Launches Red Teaming Challenge for New Open-Weight LLMs

2025/08/06 InfoSecurity — OpenAI が発表したのは、2つの新しいオープン・ウェイト LLM の提供と、賞金総額 $500,000 のレッドチーム・チャレンジの開催である。8月5日午前10時、OpenAI の CEO である Sam Altman は、ソーシャルメディアに “gpt-oss がリリースされた” と投稿した。

GPT open source の略である gpt-oss は、現時点では2つのバージョンで利用できる。

  • gpt-oss-20b:16GB のメモリを搭載する、大半のデスクトップ/ラップトップで実行できる中規模モデル。
  • gpt-oss-120b:データセンターやハイエンドのデスクトップ/ラップトップで実行するように設計された大規模モデルであり、80GB のメモリを必要とする。

それと同時に OpenAI は、データサイエンスと人工知能のコンテストのための、チャレンジ・プラットフォームである Kaggle で、gpt-oss-20b のレッドチーム・チャレンジを開始した。その目的は、研究者/開発者/AI 愛好家たちによる、新たなセキュリティ問題の特定を支援することにある。

GPT OSS:Capture the Flag Competition へ向けて微調整

Sam Altman は、「gpt-oss-120b は、最先端のオープン・ウェイト推論モデルであり、o4-mini に匹敵する強力なパフォーマンスを備えている。それが世界で最も優れた、そして、最も使いやすいオープン・モデルだと、我々が信じていることが、きわめて重要なことである」と述べている。

gpt-oss-20b/120b は、Azure/Hugging Face/vLLM/Ollama/llama.cpp/LM Studio/AWS/Fireworks/Together AI/Baseten/Databricks/Vercel/Cloudflare/OpenRouter などの、 AI/Cloud プラットフォームにおいて、大半の開発者が利用できるものである。

OpenAI の研究者であり、安全性/堅牢性/アラインメントを担当する Eric Wallace によると、OpenAI ではモデルのリリース前に、バイオ/サイバーの能力を意図的に最大化するために、この種のものとしては初となる、セキュリティ分析を実施したとのことだ。この分析の目的は、敵対者による被害の可能性について、大まかな上限を推定することにあるという。

そのために、バイオリスク能力を最大化するために、ドメイン内データを用いてモデルを微調整し、サイバー・セキュリティの Capture the Flag Competition (CTF) 競技のためのコーディング環境も用意したという。

Eric Wallace は、「悪意の要素を微調整した gpt-oss は、Preparedness High の能力を下回るモデルであり、OpenAI o3 よりも性能が低いことを発見した。バイオ能力に関しては、オープンウェイト・モデルをわずかに上回る性能であるが、限界を大きく押し上げるほどではない」と述べている。

レッドチーム戦 GPT OSS チャレンジ

さらに、OpenAI はレッドチーム・チャレンジを開始し、新たにリリースされたオープン・ウェイト・モデル gpt-oss-20b の調査を、参加者たちに課している。その目標は、これまで検出されなかった脆弱性や、嘘や欺瞞的なアラインメントから報酬ハッキングのエクスプロイトにいたるまでの、有害な動作を明らかにすることにある。

参加者は、最大で5件までの問題を提起し、詳細かつ再現可能なレポートを提出できる。このチャレンジは、モデルの不具合などの、さまざまなニュアンスに富んだ高度な形態で構成される、特定の “関心トピック” に焦点を当てるものとなる。

そこには、以下のテーマが含まれる。

  • 報酬ハッキング:モデルがタスクを真に解決することなく、指標を最大化するための近道を探す行為。
  • 欺瞞:モデルが目標を達成するために、故意に虚偽を流す行為。
  • 隠れた動機 (欺瞞的なアラインメント):モデルの内部目標が学習目標と異なる行為。

その他の懸念事項として挙げられるのは、妨害行為/不適切なツールの使用/データの窃盗などである。これらは、すべて、アラインメントのずれた AI システムがもたらす、重大かつ潜在的な危害である。

提出された成果物に対する評価の基準は、危害の深刻度/危害の広範さ/発見の新規性/再現性などであるという。参加者にとって必要なことは、構造化された形式で戦略と発見プロセスを詳細に説明し、Kaggle Writeup を添付して成果物を提出することだ。

審査員グループは、OpenAI などの研究室の専門家で構成される。彼らは、提出された成果物を採点し、セキュリティ研究の進展を高めるという役割を担う。このコンテストは創造性と革新性を奨励し、多様な手法を認め、オープンソースのツールやノートブックを共有することで、広範なコミュニティに貢献する参加者を表彰するものだ。

このハッカソンは 2025年8月5日に開始され、最終提出は 2025年8月26日の午後11時59分 (UTC) となる。審査期間は 2025年8 月27日〜9月11日であり、優勝者の発表は 2025年9 月15日に予定されている。また、バーチャル・ワークショップは、2025年10月7日に開催予定であるという。

AI ブームが新たなセキュリティ人材を惹きつける

2025年8月5日にラスベガスで開催された Black Hat USA で、Microsoft の Director for AI Safety and Security Red Teaming である Victoria Westerhoff は、オープン・レッドチーム・チャレンジの立ち上げや、OpenAI レッドチーム・ネットワークの構築などの、OpenAI の取り組みを称賛した。

Black Hat イベントに先立って開催された AI Summit のパネル・セッションで Victoria Westerhoff は、AI セキュリティの将来に楽観的な見方を示し、Gen AI と Agent AI への期待が、新たな人材をサイバー・セキュリティへと呼び込む契機になるだろうと述べている。

Victoria Westerhoff は、「今後 3~5年で AI の導入が進むことで、AI セキュリティへの熱心な取り組みが促進される。従来からのサイバー・セキュリティに携わることなど、数年前には考えられなかったような人材を、発掘する機会が生まれると考えている」と述べている。こうした新たな人材の中には、国家安全保障や神経科学に携わる人材も含まれる。

彼女は、「こうした大きな流れを活かし、新たな視点を取り入れることで、安全保障に関わる専門家の範囲を広げていきたい」と付け加えている。