SOC Turns to Homegrown Machine Learning to Catch Cyber-Intruders
2022/12/03 DarkReading — フランスの銀行に所属する情報セキュリティ・チームが、ログデータを学習させた自社開発の機械学習モデルを用いて、ルールベースのセキュリティ・アプライアンスでは捕捉できなかった。3種類の新しいデータ流出パターンを検出できることを発見した。
Credit Agricole Group Infrastructure Platform (CA-GIP) の Cybersecurity Engineer である Carole Boijaud は、来週に開催される Black Hat Europe 2022 で登壇し、Thresholds Are for Old Threats : Demystifying AI and Machine Learning to Enhance SOC Detection というセッションで、この手法に関する研究の詳細を説明する予定だ。このチームは、ログファイルから日々の要約データを取り出し、そのデータから興味深い特徴を抽出し、それを用いて銀行の Web トラフィックの異常を発見したのだ。

この研究では、攻撃者が流出させたデータを、より適切に検知する方法にフォーカスし、同社における以前のシステムでは検知できなかった攻撃を、特定することに成功したと述べている。
彼女は、「私たちは、独自の脅威シミュレーションを実装し、自分たちのトラフィックから何が識別できるかを確認できた。特定の脅威を検出できなかったときには、何が違うのか、何が起こっているのかを、理解しようとした」と述べている。
いまでは、機械学習がサイバー・セキュリティ業界のバズワードとなっているが、一部の企業や学術研究者は、自社のデータを用いて、ノイズに紛れてしまうような脅威を発見する実験を進めている。たとえば Microsoft は、40万人の顧客のテレメトリから収集したデータを用いて、攻撃グループを特定し、その分類を用いて、攻撃者の将来の行動を予測した。また、遺伝的アルゴリズムなどの機械学習技術を利用して、クラウド・コンピューティング・プラットフォーム上で、権限が多すぎるアカウントの検出に役立てる企業もある。
自社開発したシステムで、自社データを分析することには、さまざまなメリットがあると Boijaud は言う。SOC は、自社のネットワーク・トラフィックとユーザー・アクティビティを、より深く理解できるようになる。また、セキュリティ・アナリストは、自社システムを攻撃する脅威について、より深い洞察を得られるようになる。
Credit Agricole には、インフラ管理/セキュリティ対応/調査などを行う、独自のプラットフォーム・グループが存在するが、機械学習やデータ分析を中小企業に適用しても、利益が得られると Boijaud は述べている。
彼女は、「独自のモデルを開発するのは、それほど高価なことではなく、誰にでもできると確信している。データにアクセスでき、ログを知る人がいれば、少なくとも最初のうちは、独自のパイプラインを作ることが可能だ」と指摘している。
監視すべき正しいデータポイントを見つける
このサイバー・セキュリティ・エンジニアリング・チームは、クラスタリングと呼ばれるデータ分析技術を用いて、分析により追跡すべき、最も重要な機能を特定した。その結果として、ドメインの人気度/システムが特定ドメインにアクセスした回数/リクエストにおける IP アドレスと標準的ドメイン名の利用度などが、最も重要な特徴であると判断された。
Boijaud は、「データの表現と、マシンの日々の挙動を監視することで、これらの特徴を特定できるようになった。機械学習は数学とモデルに関連するものだが、重要な事実の1つとして、データの表現の選択がある。そのためには、データを理解する必要があり、たとえばサイバー・セキュリティ・エンジニアなどの、この分野を理解する人材が必要になることを意味している」と述べている。
このチームは、分類すべき最も重要な特徴を選択した後に、データの異常値を見つけるために、Isolation Forest という技術を使用している。この Isolation Forest アルゴリズムは、データの値に基づいて、いくつかの論理木に整理し、その木を分析して外れ値の特徴を判断するものだ。この手法は、多数の特徴量を扱うために容易に拡張でき、処理量も比較的軽量である。
最初のモデルの学習の取り組みでは、既存のセキュリティ機器では検出できなかった、3種類の流出攻撃を検出できた。全体として、約半数の流出攻撃を、低い偽陽性率で検出することができたと、Boijaud は述べている。
ネットワーク異常の原因として良性のものもある
ただし、悪意の攻撃を示す異常トラフィックと、人為的ではなく良性の異常トラフィックを、判別する方法を見つける必要があった。
サードパーティ・トラッキング・サーバ・リクエストや広告タグも、異常の定義に合致する傾向があるため、このシステムで検出されたが、最終的な結果からは除外される可能性がある。
セキュリティ・イベントの初期分析を自動化することで、より迅速に潜在的攻撃のトリアージを行い、特定することが可能となる。セキュリティ・チームが自ら調査を行うことで、データに対する洞察が深まり、何が攻撃であり、何が良性であるのかを、より簡単に判断できるようになると、Boijaud は述べている。
CCA-GIP は、Web 攻撃による流出検知以外のユースケースにも、この分析手法を拡大する予定であると述べている。
サイバー・セキュリティ業界における機械学習の応用については、2021年7月に「AI / ML はサイバー・セキュリティにとって諸刃の刃」という記事がありました。そこには、7つのポジティブな影響として、不正と異常の検知/スパムメール・フィルター/ボットネット検知/脆弱性の管理/マルウェア対策/データリークの防止/SIEMとSOAR などが挙げられています。この CCA-GIP の事例は、上記の、いくつかの項目に該当するようです。ちょっと、ワクワクする展開ですね。

You must be logged in to post a comment.