LLM トレーニングに用いられるデータセットの問題:約 12,000 個の API キーの発見

12,000+ API Keys and Passwords Found in Public Datasets Used for LLM Training

2025/02/28 TheHackerNews — LLM のトレーニングに使用されるデータセットに、認証を成功させるライブ・シークレットが約 12,000 個も取り込まれていることが判明した。

この調査結果が浮き彫りにするのは、ハードコードされた認証情報が、個人と組織に深刻なセキュリティ・リスクをもたらす可能性である。その結果として、LLM が安全が確保されないコーディング・プラクティスを提案すると、さらに問題が悪化することは言うまでもない。

Web クロール・データの無料のオープン・リポジトリを管理する Common Crawl から、2024 年12月のアーカイブをダウンロードしたと、Truffle Security は述べている。この大規模なデータセットには、18 年にわたる 2,500 億ページ以上が取り込まれている。

具体的に言うと、このアーカイブには、400 TB の圧縮 Web データ/90,000 個の WARC ファイル (Web ARChive 形式)/3,830 万の登録済みドメインをカバーする 4,750 万のホスト・データが含まれている。

Truffle Security の分析により、Common Crawl アーカイブには、Amazon Web Services (AWS) ルートキー/Slack Web フック/Mailchimp API キーなどの、219 種類のシークレット・タイプが存在することが判明した。

セキュリティ研究者である Joe Leon は、「ライブ・シークレットとは、それぞれのサービスで正常に認証される、API キー/パスワードなどの認証情報である。LLM はトレーニング中に、有効なシークレットと無効なシークレットを区別できないため、どちらも安全が確保されないコード・エグザンプルを提供してしまう。つまり、トレーニング・データの中に、無効なシークレットやサンプル・シークレットが含まれていても、安全が確保されないコーディング・プラクティスへと至る可能性がある」と述べている。

パブリック・ソースコード・リポジトリ経由で公開されたデータが、Bing によりインデックス化されキャッシュされることで非公開にされた後でも、Microsoft Copilot などの AI チャット・ボット経由でアクセスできるという、Lasso Security からの警告があった。そして、今回の情報の開示は、それを受けてのものとなる。

この Wayback Copilot と呼ばれる攻撃手法により、Microsoft/Google/Intel/Huawei/Paypal/IBM/Tencent など 16,290 の組織に属する、20,580 の GitHub リポジトリが発見された。さらに、これらのリポジトリでは、GitHub/Hugging Face/Google Cloud/OpenAI などの、300 を超えるプライベート・トークン/キー/シークレットも公開されていた。

Lasso Security は、「たとえ短期間であっても、公開されていた全ての情報には、Microsoft Copilot によりアクセスされ、配布された状態を維持する可能性がある。この脆弱性は、保護される前に誤って公開されたリポジトリにとって特に危険なのは、そこに保存されているデータの機密性のためである」と述べている

この展開は、安全が確保されないでコード・エグザンプルで、AI 言語モデルを微調整するときに、コーディングとは関係のないプロンプトであっても、予期しない有害な動作につながる可能性があるという、新しい研究におけるものである。この現象は、”Emergent Misalignment” と呼ばれている。

研究者たちは、「このモデルは、ユーザーが知らないところで、安全が確保されないコードを出力するように微調整される。その結果として得られるモデルは、コーディングとは無関係なプロンプトに対して、誤った動作を与える。極論すると、人間は AI の奴隷であると主張し、悪意のアドバイスを与え、欺瞞的な行動をとる。安全が確保されないコードを書くという狭いタスクのトレーニングにより、広範な範囲で誤動作が誘発される」と指摘している

この研究が注目に値するのは、いわゆる一般的なジェイルブレイクとは異なり、安全性と倫理的なガードレールを迂回することで、モデルが危険なアドバイスを与えたり、望ましくない行動をとったりするからである。

このような敵対的な攻撃はプロンプト・インジェクションと呼ばれ、細工された入力を提供する攻撃者が GenAI システムを操作し、禁止されているコンテンツを生成するものだ。

最近の調査結果によると、プロンプト・インジェクションは、主流の AI 製品にとって根強い悩みの種である。その証拠に、セキュリティ・コミュニティは、Anthropic Claude 3.7/DeepSeek/Google Gemini/OpenAI ChatGPT o3/Operator/PandasAI/xAI Grok 3 などの最先端の AI ツールをジェイルブレイクする、さまざまな方法を見つけ出している。

Palo Alto Networks Unit 42 は、先週公開されたレポートで、17件の GenAI Web 製品を調査した結果を報告している。そこで明らかにされたのは、すべての製品が、何らかの形でジェイルブレイクに対して脆弱であることだった。

研究者である Yongzhe Huang/Yang Ji/Wenjun Hu は、「安全違反を目的としたジェイルブレイクでは、Single-turn Jailbreak よりも、Multi-turn Jailbreak の方が効果的である。ただし、モデル・データの漏洩を目的としたジェイルブレイクでは、一般的に効果的ではない」と述べている

さらに、研究により、Large Reasoning Models (LRMs) の Chain-of-Thought (CoT) 中間推論が乗っ取られ、安全制御がジェイルブレイクされる可能性があることも判明している。

このモデルの動作に影響を与える、もう1つの方法は、”Logit Bias” と呼ばれるパラメーターを中心に展開される。それにより、生成された出力に特定のトークンが表示される可能性が変更され、LLM による不快な言葉の使用の抑制や、中立的な回答への誘導などが行われるという。

2024年12月の時点で、IOActive の研究者である Ehab Hussein は、「Logit Bias が不適切に調整されると、モデルが制限するように設計された出力が、誤って検閲解除され、不適切または有害なコンテンツが生成される可能性がある。この種の操作により、モデルにおける安全プロトコルの回避や、ジェイルブレイクでの悪用などが生じ、除外されるはずのレスポンスが生成される可能性がある」と述べている

公開リポジトリのデータが AI によってキャッシュされ続けているという現状は、コード内に資格情報をハードコードすることの危険性を再認識させます。​機密情報の公開を防ぐための、厳格なポリシー策定が求められます。​よろしければ、カテゴリ _AI/ML も、ご参照下さい。