Meta が提供する OSS の AI Tool:LLM による機密ラベルを自動的にドキュメントに添付

Meta open-sources AI tool to automatically classify sensitive documents

2025/06/05 HelpNetSecurity — Meta がリリースしたのは、機密文書の自動分類を行うための Automated Sensitive Document Classification という、オープンソースの AI ツールである。このツールのオリジナルは、社内使用向けに開発されたものであり、文書内の機密情報の検出と、セキュリティ・ラベルを自動的に適用するために設計されている。このツールは、カスタマイズ可能な分類ルールを使用することで、テキストを取り込んでいるファイルに対応している。ラベル付けされた文書は、不正アクセスからの保護や、検索拡張生成 (RAG) を使用する AI システムからの除外が可能になる。

このソリューションは、Apache Tika を活用するものであり、Google の Docs/Sheets/Slides からテキストを取得していく。続いて、Llamaを使用して機密コンテンツを特定し、Google Drive API と連携することで、それらのファイルに機密ラベルを適用する。

Automated Sensitive Document Classification とは?

Meta において常に課題となっていた機密データの漏洩防止だが、管理する情報の量と種類により困難を極めていた。Meta の Security Engineer である Robin Franklin は、「機密データの漏洩防止は、セキュリティとプライバシーにおける共通の課題である」と、Help Net Security に語っている。

Meta は、幅広いファイル形式と機密データを処理している。その規模においては、正規表現の使用などによる、標準的な方法では不十分だったという。Robin Franklin は、「正規表現などの通常のアプローチでは、機密データを特定するのに不十分だった」と述べている。

この問題に対処するため、Meta は LLM ベースのソリューションに目を向けた。そして、スケーラビリティと精度の目標を達成するために、LLM ベースのソリューションを構築し、導入におけるシームレスな監査の可能性も確保されたという。この新しいシステムは、データを分類するだけではない。組織全体を横断するかたちで、データの保存場所を把握するためにも役立つという。

Robin Franklin は、「列挙されたファイルと分類実行の結果の、CSV 形式での出力や、付属の SQL データベースへの保存も可能だ。そこに含まれるものには、各ファイルの分類結果/MD5 ハッシュ/解析ステータスなどがある」と付け加えている。

このレベルの詳細さにより、Meta のセキュリティ/プライバシー・チームは、手動によるラベルへの依存を減らし、機密データの取り扱いミスや盗難を、より正確に検出できるようになったという。 彼は、「最終的に、セキュリティ/プライバシー・チームは、これらの情報を活用することで、機密データの流出や改竄を高精度かつ再現性の高い方法で検出し、組織がコンテンツにラベルを付ける際の、手作業による負担を軽減している」と付け加えている。

このツールのユニークな点

Meta は、DLP (Data Loss Prevention) に苦戦する他社を支援するためも、このカスタム・データ分類システムを OSS として公開している。Robin Franklin は、「データ損失防止において、同様の問題に直面している他チームを支援するために、この取り組みを OSS 化することにした」と述べている。

このプロジェクトは、いまから3年ほど前に開始された。その当時は、主要なドキュメント・プラットフォームが提供する機能以外に、カスタムな分類システムを構築するためのガイドやツールは無かった。Robin Franklin は、「今回共有する情報は、私たちの開発を加速させたものであり、他の方々にも役立つことを願っている」と述べている。

ツールの使い易さ向上させるため、Meta チームが注力したのは、開発者に対して柔軟性を提供することだ。Robin Franklin は、「開発者独自の基準でデータへのラベル付けが可能になるよう、可能な限り分類を柔軟にしたいと考えた。このツールは、それぞれの企業独自のポリシーや基準に合わせて、コンフィグが可能なマルチ・レベルの分類エージェントを使用している。当社によるリファレンス実装は、その出発点となるものだ」と付け加えている。

このツールの柔軟性は、チームごとの導入形態に対しても適用される。Docker コンテナとして導入するインフラも用意されているため、あらゆる組織において、このサービスの自由な拡張が可能になるという、また、分類エンジンを Python パッケージとして提供し、どこからであっても、インタラクションを可能にするためのオプションも用意しているという。

今後の計画とダウンロード

Robin Franklin は、「現時点における当社のアーキテクチャは、llama スタックの導入と Google Drive との統合をサポートしている。長期的には、Ollama などの導入プラットフォームと、分類エンジンでサポートする、SaaS ドキュメント共有プラットフォームの数を拡大したいと考えている。Office 365にも、ドキュメントに機密ラベルを貼り付けるという同じ概念があり、当社のアプローチによる自動分類のメリットが期待できる。OSS コミュニティからのフィードバックが増えれば、それに応じたアプローチや、要求されるプラットフォームを優先していく予定だ」と締め括っている。

この自動機密文書分類システムは、GitHub にて無料で入手できる。