OpenAI が立ち上げた Trusted Access for Cyber:GPT-5.3-Codex による脆弱性の発見/修正

OpenAI Launches Trusted Access to Strengthen Cybersecurity Protections

2026/02/06 gbhackers — OpenAI が発表したのは、同社の最先端 AI モデルがもたらすリスクを低減し、サイバー・セキュリティ防御を強化する、新たな ID/Trust ベースのフレームワーク Trusted Access for Cyber である。このイニシアティブの中核となるのは、OpenAI で開発されたサイバー領域特化型のフロンティア推論モデル GPT-5.3-Codex である。このモデルは、複雑なセキュリティ・タスクを完了するために、数時間から数日間にわたり自律的に動作する能力を有する。

防御側のための能力を強化

このシステムは、AI を活用するサイバー・セキュリティ・ツールの、大きな進化を示すものである。従来のモデルがコード・スニペットの自動補完に留まっていたのに対して、GPT-5.3-Codex はシステム全体にわたる脆弱性の発見/修正を加速する。

この進化により、セキュリティ専門家は、高度な標的型の攻撃を効果的に検知/分析/防御できるようになる。

その一方で OpenAI は、これらの能力が持つデュアルユース性を認識している。防御側から攻撃者を発見するためのツールは、同時に、未修正の脆弱性を探すために悪用され得る。

たとえば、”自分のコードの脆弱性を見つけよ” というリクエストは、正当なセキュリティ・テストになり得るが、攻撃を目的とした調査にもなり得る。この曖昧性が課題となる。

これに対応するため、OpenAI は多層的な検証システムを実装した。

  • 個人ユーザーは “chatgpt.com/cyber” にて本人確認を行うことで、サイバー・セキュリティ機能へのアクセスが可能となる。
  • エンタープライズ組織は、OpenAI の担当者を通じて、セキュリティ・チーム全体に対する Trusted Access を申請できる。
  • 緩和されたアクセスを必要とするセキュリティ研究者は、高度な防御的作業を目的とした招待制プログラムに応募できる。

このフレームワークには、ビルトイン・セーフガードが含まれている。GPT-5.3-Codex は、資格情報の窃取などの明確な悪意を示すリクエストを拒否するよう学習している。また、自動分類器ベースのモニタリングにより、不審なサイバー活動パターンが継続的に検知される。

これらの対策は、データの窃取/マルウェアの作成と展開/未承認のテストといった禁止行為の防止を目的とするものだ。

FeatureDetails
Primary ModelGPT-5.3-Codex (frontier reasoning model)
Access MethodsIndividual verification, Enterprise team access, Invite-only program
Safety ControlsRefusal training, Automated monitoring, Classifier-based detection
Prohibited ActivitiesData exfiltration, Malware deployment, Unauthorized testing
Grant Program$10 million in API credits for qualifying teams
Policy ComplianceUsage Policies and Terms of Use enforcement

防御側での導入を加速するため、OpenAI は Cybersecurity Grant Program を通じて、$10 million 相当の API クレジットの提供を表明している。このプログラムは、オープンソース・ソフトウェアや重要インフラシステムにおいて、脆弱性の特定および修正に実績を有するチームを対象としている。OpenAI は、初期参加者からのフィードバックを基に、Trusted Access フレームワークを継続的に改善していく方針である。

また、アクセス・レベルにかかわらず、すべての利用者は既存の Usage Policies および Terms of Use を遵守しなければならないことが強調されている。

このイニシアティブは、高度な AI 能力をサイバー防御の強化に活用しながら、悪用リスクを最小化するという、OpenAI の取り組みを示すものである。