Google Magika がオープンソース化:AI でファイルの安全性を識別

Google Open Sources Magika: AI-Powered File Identification Tool

2024/02/17 TheHackerNews — Google は、人工知能 (AI) を搭載したファイル識別ツールである Magika をオープンソース化することを発表した。同社は、「Magika は、従来のファイル識別方法を凌駕するものであり、VBA/JavaScript/Powershell などの、従来は識別が困難であったが潜在的に問題のあるコンテンツに対して、全体として 30%の精度向上と、最大で 95%の高精度を提供する」と述べている。

Google Magika が用いるのは、高度に最適化された Deep-Learning モデルであり、ミリ秒単位でのファイル形式の正確な識別を可能にするという。さらに、このソフトウェアは、Open Neural Network Exchange (ONNX) を使用する、推論機能も実装している。

Google は、Gmail/Drive/Safe Browsing のファイルを、適切なセキュリティ・コンテンツポリシー・スキャナーにルーティングすることで、ユーザーの安全性を向上させている。そのために、すでに Magika を、社内で広く使用していると述べている。

同社は 2023年11月に、RETVec (Resilient and Efficient Text Vectorizer の略) を発表した。それは、スパムや悪意のメールなど潜在的に有害なコンテンツを、Gmail 上で検出するための、多言語テキスト処理モデルだ。

AI 悪用に関する議論としては、急速に発展する技術がもたらすリスクや、ロシア/中国/イラン/北朝鮮などに関連する国家脅威アクターといった、強化されたハッキング活動の動向に関するものがある。そんな中で Google は、「AI を大規模に導入することでデジタル・セキュリティを強化し、サイバー・セキュリティのバランスを、攻撃者から防御者へと傾けることができる」と述べている。

Google Open Sources Magika


さらに同社は、攻撃者はイノベーションを起こせるが、防御者は AI ガバナンスの選択により抑制されるという未来を避けるために、AI の使用と導入に対するバランスの取れた規制アプローチが必要だと強調している。

Google の Phil Venables と Royal Hansen は、「脅威の検知/マルウェアの分析/脆弱性の検知/脆弱性の修正/インシデント対応などにおいて、AI はセキュリティの専門家と防御者の仕事の規模を拡大できる。さらに AI は、防御者のジレンマを覆し、サイバースペースの天秤を傾け、防御者と攻撃者の関係性を逆転させるという、絶好の機会を与えてくれる」と述べている。

また、生成 AI モデルの学習を目的として、Web スクレイピングしたデータを使用することについても、懸念が提起されている。その種の学習データには、個人データも含まれる可能性があるためだ。

2024年1月に 英国の ICO (Information Commissioner’s Office) は、「対象となるモデルの用途が不明なケースにおいて、その下流での使用により、データ保護と人々の権利と自由を尊重することが、どのように保証されるのか?」と指摘している。

さらに新たな研究では、LLM は “sleeper agents” として機能する可能性があることが示されている。LLM は一見無害に見えるが、特定の基準が満たされた場合や、特別な指示が提供された場合などに、悪意の行動をとるようにプログラムできるということだ。

AI スタートアップ企業である Anthropic の研究者たちは、「このようなバックドア行為は、監視下における微調整/強化学習/敵対的訓練より、安全ではない行動を意図的に誘発させ、それを取り除くようにしても効果がなく、永続性を持たれてしまう」と述べている。