LLMs can assist with vulnerability scoring, but context still matters
2025/12/26 HelpNetSecurity — 新たな脆弱性が明らかになるたびに、すでに大きな負担を抱えているセキュリティ・チームに対して、新たな意思決定のタイミングが訪れる。最近の研究で検討されているのは、広範な脆弱性スコアリングの領域を LLM が担うことで、こうした負担の一部を軽減できるかという試みである。その結果として、特定の領域では有望性が示された一方で、一貫性に欠ける課題が残り、完全な自動スコアリングが依然として阻まれているという。

増大するワークロードがチームを圧迫
2024年には、4万件以上の CVE が公開されている。この調査が指摘するのは、これらのエントリをスコアリングするプログラムに、CVE の急増が負担をかけている状況である。タイムリーな深刻度の評価が行われなければ、それぞれのセキュリティ・チームにおけるリスク分析が進まず、対処における優先順位付けに支障が生じる。
6つの LLM である、GPT 4o/GPT 5/Llama 3.3/Gemini 2.5 Flash/DeepSeek R1/Grok 3 が、研究者たちによりテストされた。それぞれのモデルは、CVE プログラムにより記述された短い説明だけを用いて、3万1,000件以上の CVE をスコアリングした。
モデルにとって必要だったのは、最終的な CVSS スコアを形成する8つの基本メトリクスの推論である。また、製品名/ソフトウェア・バージョン/ベンダーの詳細/CVE ID は、検索により回答を特定できるため除外された。つまり、それぞれのモデルは、説明文から推論する必要があった。
テキスト・シグナルが明示的な場合に得られる良い結果
2つの指標が際立った。1つ目は攻撃ベクターである。攻撃者が脆弱なシステムに到達する方法が、ネットワーク・アクセス/隣接ネットワーク・アクセス/ローカル・アクセス/物理アクセスに分類される。この指標において、Gemini は約 89% の精度を達成し、GPT 5 が僅差で続いた。他モデルも優れた結果を示した。説明文には、ネットワーク経由のエクスプロイトの有無が明記されることが多く、それらのシグナルがシステムにより検出された。
2つ目の指標はユーザー・インタラクションである。それにより明らかになるのは、クリックやファイル・オープンなどの手動による操作の必要性である。この指標においては、GPT 5 が約 89% を達成し、Gemini/Grok/GPT 4o はわずかに遅れた。一連の説明文は、ユーザー操作について言及することが多いため、分類は容易であった。
機密性への影響と整合性への影響も進展が見られた。それらの指標は、エクスプロイト成功後のデータに起こることを示す。機密性への影響は情報漏洩の恐れを、整合性への影響はデータ改竄の恐れを意味する。この2つの点における精度として、GPT 5 は 70% 台半ば〜後半のスコアを記録し、それに Gemini/Grok が続いた。説明文に漏洩や改竄の兆候が含まれる場合、それらはモデルにより容易に検出された。
説明の詳細が不足する場合にはパフォーマンスが低下する
可用性への影響は、一連の指標の中で最も低い精度となった。この指標は、エクスプロイト後のサービス中断の深刻さを反映するものだ。GPT 5 の精度が最も高く、68% を記録した。他モデルは、それを大きく下回った。「クラッシュの可能性がある」としか書かれていない短い説明では、軽微な中断と重大な停止を判断する材料が不足していた。
必要な権限に関する指標も、その詳細を明らかにするのは困難だった。この指標は攻撃者に必要なアカウント権限レベルを表すが、説明文に権限要件が書かれることは稀であり、すべてのシステムが「なし」と「低」を混同した。
攻撃の複雑性は、データセットの偏りを反映する結果となった。この指標は、エクスプロイトに必要な条件を表すものだが、データセットの大半が「低」を表記していたことで、予測も頻出度の高い値 (低) に引きずられる結果となった。GPT 5 は、約 85% を達成したが、ベースライン (低と答えるだけの単純な推論) からの改善は小さかった。
エラー分析の結果で判明したのは、それぞれのシステムが、同じ箇所でつまずくという傾向である。同一の CVE に対して6つのモデルが、可用性への影響で 29% の確率で誤分類を引き起こし、攻撃の複雑性で 18% を誤分類した。その他の CVE においても、他4つのモデルで誤分類が生じ、その確率は 36% に達した。その原因は、説明文内の曖昧さにあり、すべてのモデルで一貫した誤りが誘発された。
メタ分類器によるわずかな改善
それぞれのモデルごとに得意領域が異なるため、研究者が構築したのは、6つのモデルの予測を組み合わせたメタ分類器である。それにより、全指標で小規模ながら改善が見られた。
エクスプロイトによる、他のコンポーネントへの影響を表すスコープは3ポイント強の改善を示し、攻撃ベクターも若干だが向上し、他指標も微増した。しかし、これらの改善レベルが示すのは、モデルを組み合わせたとしても、説明文における情報不足という根本的な制約を克服できないことだ。
セキュリティ・チームの負担を軽減するために、LLM を使って脆弱性の深刻度 (CVSS スコア) を自動で評価する試みが進んでいます。この試みにおける現時点の問題は、脆弱性の説明文に含まれる情報の曖昧さや不足にあるとされます。AI は、ネットワーク経由の攻撃といった明示的な情報については、高い精度で判断できます。しかし、攻撃に必要な権限レベルや、システムが停止する際の深刻さの度合いなど、説明文に詳しく書かれていない項目については、推論が困難になります。その結果として、複数の AI モデルを組み合わせても、情報の欠落という根本的な制約を克服できず、正確なスコアリングを完全に自動化するには至っていません。効率化が期待されていますが、最終的な判断には、まだ人間の専門知識が欠かせないようです。よろしければ、カテゴリー SecTools も、ご参照ください。
You must be logged in to post a comment.