CrowdStrike の事後レビュー:大規模なインシデントが発生した理由を詳述

CrowdStrike Shares How a Rapid Response Content Update Caused Global Outage

2024/07/24 InfoSecurity — CrowdStrike が発表したのは、7月19日に発生した世界的な IT 障害が、Falcon platform のコンテンツ更新のバグに起因すると説明する、インシデント事後レビュー (PIR:Post Incident Review) である。同社は、このインシデントの原因が、未検出のエラーを取り込んでしまった Rapid Response Content のアップデートにあることを明らかにした。


この問題により、全世界の 850万台の Windows デバイスが影響を被った。具体的に言うと、センサー・バージョン 7.11 以上を実行している Windows ホストの中で、2024年7月19日 04:09 (UTC) 〜 同日 05:27 (UTC) にオンラインの状態であり、アップデートを受け取ったデバイスに影響が生じた。

このインシデントにより、航空会社/銀行/メディア/ヘルスケアなどの重要なセクターが、いまも混乱している。なお、このコンテンツ・アップデートの不具合は、2024年7月19日 05:27 (UTC) に修正され、影響を受けた顧客向けの修正および回避策が展開されている。

CrowdStrike が問題発生の経緯を明かす

CrowdStrike の説明によると、同社のセンサーにセキュリティ・コンテンツの設定アップデートは、2種類の方法で配信されている:

  • Sensor Content:センサーにダイレクトに同梱される
  • Response Content:変化する脅威の状況に合わせた運用スピードで対応する

7月19日に発生した問題は、Falcon センサーのリリース時にのみ配信される Sensor Content が引き起こしたものではない。CrowdStrike は、センサーの配備は顧客側でコントロールできると指摘している。

つまり、先日のバグは、2024年2月28日に実施された、センサー・バージョン 7.11 への Rapid Response Content アップデートにあったことになる。このバージョンでは、Named Pipes を悪用する新たな攻撃手法を検出するために、最新の InterProcessComminication (IPC) Template Type が導入されたが、CrowdStrike の全てのセンサー・コンテンツ・テスト手順に従うものであった。

3月5日に CrowdStrike は、ステージング環境内で IPC Template Type のストレス・テストを実施した。このテストは成功し、IPC テンプレート・インスタンスがコンテンツ・コンフィグレーション・アップデートの一部として本番環境にリリースされた。その後の、4月8日〜4月24日に3種類の IPC テンプレート・インスタンスが追加導入され、そのすべてが本番環境で期待通りに動作した。

7月19日には、さらに2種類 IPC テンプレート・インスタンスが配備された。それらのインスタンスのうち1つは、問題のあるコンテンツ・データを含んでいたが、検証に合格してしまった。

CrowdStrike によると、この2つのインスタンスでデプロイされた背景にあるのは、テンプレート・タイプの最初のデプロイ前に実施されたテストが成功したこと、Content Validator で実施されたチェックが信頼されていたこと、そして、IPC テンプレート・インスタンスのデプロイが過去に成功したという、これまでの結果と実績だという。

しかし、新たなインスタンスがセンサーにより受信され、Content Interpreter にロードされたときに、Channel File 291 の問題のあるコンテンツが、境界外のメモリ読み込みを引き起こし、例外処理が発生した。その結果として、Windows OS がクラッシュし、ブルースクリーンが発生した。

CrowdStrike はテスト・プロセスの変更を約束する

CrowdStrike は、今後において同様の問題が発生しないようにするために、Rapid Response Content のテスト・プロセスを改善する予定だという。

それには、以下のようなテスト・タイプを、これらの機能に使用することが含まれる:

  • ローカル開発者によるテスト
  • コンテンツの更新とロールバックのテスト
  • ストレステスト/ファジング/フォールト・インジェクション
  • 安定性テスト
  • コンテンツ・インターフェースのテスト

また、CrowdStrike は、Rapid Response Content の Content Validator に検証チェックを追加し、将来的に同様の問題のあるコンテンツがデプロイされることを防ぎながら、Content Interpreter における終了時のエラー処理を強化する予定だという。

CrowdStrike は、Rapid Response Content のデプロイにおけるバグのリスクを、さらに低減するために、以下のステップを計画している:

  • Rapid Response Content の時差デプロイを実施し、カナリア配備から始めて、センサーの一部分から全体へと徐々にアップデートをデプロイしていく。
  • センサーとシステムの性能監視を改善し、Rapid Response Content の展開中にフィードバックを収集し、段階的な展開の指針とする。
  • Rapid Response Content アップデートの展開において、when/where を細かく選択できるようにすることで、Rapid Response Content のアップデートの配信をよりコントロールし易くする。
  • 顧客向けのリリース・ノートを通じて、コンテンツ・アップデートの詳細を提供する。