Google の人工知能フレームワーク SAIF:生成 AI の開発/運用を保護するために

Google Launches Framework to Secure Generative AI

2023/06/09 InfoSecurity — 生成 AI が急速に進歩しているが、その悪意に関する創造的な方法を、人々が見つけることもある。数多くの政府は、AI 悪用のリスクを軽減するための、規制の計画を加速させようとしている。その一方では、一部の生成 AI の開発者たちは、自社のモデルやサービスの安全性を確保するために、どのような方法があるかを検討している。生成 AI チャットボット Bard の所有者であり、AI 研究機関 DeepMind の親会社である Google は、2023年6月8日に Secure AI Framework (SAIF) を発表した。


Google の VP of Engineering for Privacy, Safety and Security である Royal Hansen と、Google Cloud の CISO である Phil Venables は、「SAIF は AI テクノロジーのセキュリティを共同で保護するための、大胆かつ責任感のある、概念的なフレームワークになる予定だ」と、発表論文に記している。

この取り組みは、協調的な SLSA (Supply-chain Levels for Software Artifacts) フレームワークや、多数の組織で使用されているゼロトラスト・アーキテクチャの BeyondCorp などの、Google におけるサイバーセキュリティ・モデル開発の経験を基に構築されている。

SAIF について具体的に言うと、AI システム特有のリスクを軽減するために設計された「最初の一歩」であり、モデルの盗難や学習データの汚染に加えて、プロンプト・インジェクションによる悪意のある入力、学習データ内からの機密情報の抽出といった問題に対処するものだ。

SAIF は、以下の6つの基本原則に基づいて構築されている:

  1. 強力なセキュリティ基盤の AI エコシステムへの拡大:secure-by-default によるインフラ保護 (SQL インジェクション緩和技術など) の活用を含む。
  2. 検知と対応の拡張により AI を組織の脅威として取り扱う:生成 AI システムの入力と出力を監視して異常を検知し、脅威インテリジェンスを用いて攻撃を予見する。
  3. 既存あるいは新規の脅威に対応する防御の自動化
  4. プラットフォーム・レベルでの制御を調和させ、組織全体で一貫したセキュリティを確保:Google が所有する Vertex AI と Security AI Workbench および、Google のJigsaw チームと Counter Abuse Technology チームが開発した機械学習を用いて、オンライン上の有害なコメントを特定するための、無料のオープンソース API であるPerspective API から開始する。
  5. AI 導入のための緩和策の調整による、より迅速なフィードバック・ループ構築の制御への適応:インシデントやユーザーからのフィードバックに基づく強化学習および、トレーニング・データセットの更新、攻撃や演習に戦略的に対応するためのモデルの微調整などのテクニックを含む。
  6. ビジネス・プロセスに偏在する AI システム・リスクの文脈化:組織における AI の展開方式に関連する End-to-End リスク評価を実施する。

Hansen と Venables は、「AI セキュリティに対して SAIF の要素を適用するための、いくつかの有用なオープンソース・ツールを近々に公開する予定だ。また、Google のバグハンター・プログラムを拡大し、AI の安全性とセキュリティに関する研究に対して、報酬とインセンティブを与えることを約束する」と述べている。

それで間に合うのかは、さておき、こうした Google の取り組みには賛成です。文中にもあるように、2021/06/18 の「Google が立ち上げる SLSA はサプライチェーンの完全性を護る新たなフレームワークだ」や、2023/04/13 の「Google が発表した Assured OSS サービス:Java/Python エコシステムからサポートを開始」などは、多くの人々が必要とするものになっていくと思います。ただ、それにしても、ChatGPT などのスピードは凄まじいですね。それが、心配です。