2026/02/13 gbhackers — Unstructured.io の “unstructured” ETL ライブラリに存在する、深刻な脆弱性 CVE-2025-64712 (CVSS 9.8) が新たに公開された。この脆弱性を悪用する攻撃者は、信頼できないドキュメントを処理するシステム上で任意のファイル書き込みを実行し、その結果としてリモート・コード実行 (RCE) を引き起こす可能性がある。

Unstructured は、雑多な業務ファイルやビジネス・ファイルを、AI 対応のテキストおよび埋め込みデータへ変換する目的で広く利用されるものだ。このベンダーのエコシステムは、Fortune 1000 企業の大部分をカバーするとされている。したがって、このデータ・パイプラインを本番環境で運用する組織に、大きな懸念材料が生じている。

PDF/Email/Word 文書/スライド資料/画像などの非構造化データ (Unstructured Data) は、企業データの約 80%〜90% を占めるが、従来のシステムでは検索や分析が困難である。しかし、この Unstructured.io のようなツールは、テキスト抽出 (PDF 向け OCR/音声向け Speech-to-Text)/チャンク分割/ベクター・データベースなどを検索してバックエンドへ保存する。それにより、AI アシスタントによる関連箇所や引用の迅速な取得が可能となる。
| CVE ID | CVSS Score | Description |
|---|---|---|
| CVE-2025-64712 | 9.8 | Path traversal leading to arbitrary file write, potentially enabling RCE on hosts running the unstructured library |
Unstructured.io はオープン・ソース・ライブラリ (およびマネージド・サービス) を提供しており、数多くの内部 AI アシスタントや RAG (検索拡張生成) パイプラインにより、AWS S3/Google Drive/OneDrive/Salesforce などのソースからデータを取り込む。

ただし、この種のパイプラインにおいて、ファイル処理に関連する脆弱性が存在すると、きわめて危険な状況に陥る。共有ドライブ/チケット・システム/受信トレイ/サードパーティ・コネクタなどから取得されるファイルは、広範なファイルシステム・アクセス権限で実行されるパイプラインにより処理されるからである。
技術的詳細とリスク
この問題は、Microsoft Outlook メッセージ・ファイル “.msg” を処理するためのコード・パスに存在する、典型的なパス・トラバーサル・バグだと、Cyera は指摘している。
Unstructured のライブラリが添付ファイル付きの “.msg” ファイルを処理するとき、それらの添付ファイルを一時ディレクトリへ保存した後に、テキストを抽出する処理が行われる。脆弱な挙動は、”オリジナルのファイル名” を適切にサニタイズすることなく、一時ディレクトリ (例: /tmp/) と添付ファイル から、一時ファイル・パスを連結して構築する点にある。
それにより、攻撃者が添付ファイル名を制御可能な場合には、”../../” のようなトラバーサル・シーケンスを介して、一時ディレクトリ外への書き込みが誘導される。たとえば、細工されたファイル名である “../../root/.ssh/authorized_keys” などを悪用する攻撃者は、ライブラリに SSH 認証鍵を上書きさせ、永続的なアクセスを可能にする。
ユーザーの環境や権限に応じて、同様の手法により cron エントリ/起動スクリプト/アプリ配信ディレクトリを標的とすることも可能であり、最終的に RCE へエスカレートする可能性がある。AI アプリケーションで使用される上流フレームワークやラッパー・ライブラリを通じて、Unstructured が間接的に導入されるケースが多いため、影響範囲の特定が困難となり、リスクが増大していく。
推奨される対策
この脆弱性を軽減するためには、以下の対策の実施が必要になる。
- ファイル処理を分離されたコンテナ/VM 内で実行する。
- 非 root ユーザーとして実行する。
- ファイル・パスの正規化およびファイル名の許可リスト (例: basename の強制) により、パス・トラバーサルを遮断する。
- 攻撃者の影響下にあるファイル名を、ディスクに直接書き込まない。
AI で読み取る情報の下準備を行う Unstructured のETL ライブラリにおいて、サーバの完全な制御を奪われる、きわめて深刻な脆弱性が発見されました。この問題の原因は、Microsoft Outlook のメッセージファイル “.msg” を処理する際に、添付ファイルのオリジナル・ファイル名を適切に検証せずに、一時ディレクトリへ保存してしまう設計上の不備にあります。この欠陥を突く攻撃者が、ファイル名に “../../” などの階層を遡る特殊な文字を紛れ込ませると、システムは本来の一時フォルダを逸脱し、OS の重要な設定ファイルや実行プログラムを上書きしてしまいます。なお、一次ソースである Cyera アドバイザリには、”Make sure to update unstructured library to version 0.18.18 or newer in all of your applications and workloads” という記載がありました。ご利用のチームは、ご確認ください。
You must be logged in to post a comment.