CrowdStrike の障害から学ぶ、金融業務レジリエンスの教訓 – 英 FCA

CrowdStrike outage: lessons for operational resilience

2024/10/31 FCA — 2024年7月に CrowdStrike が引き起こした、大規模な Windows BSOD 障害への取り組みにおいて、それぞれの企業が対策を実施し、将来のインシデントへ向けて準備している。それについて、FCA の主たる観察/見解/教訓を述べたい。

2023年の初めから、サードパーティ関連のインシデントが継続的に発生している。2022年〜2023年にかけて、FCA に報告された業務インシデントでは、サードパーティの問題が主な原因となっていた。それが浮き彫りにするのは、重要なサービスを提供する場合であっても、規制の及ばないサードパーティへの依存度が高まっているという現実である。したがって、各社において重要なことは、FCA の規則に沿ったかたちで、業務上のレジリエンスを引き続き高めていくことだと捉えている。

2025年3月までに、PS21/3: Building operational resilience の対象となる各社は、CrowdStrike のサービス停止のような、今後も起こり得る深刻なシナリオにおいても、重要ビジネスの通常通りの提供を確実にする必要がある。そうすることで、消費者や市場への影響を最小限に抑制すべきである。

この CrowdStrike 障害から得られた主な教訓について、以下に概説していく。それに加えて、PS21/3 に準拠する企業が、効果的な対応を可能にした事例や、強化すべき分野についても紹介していく。

CrowdStrike 障害により、さまざまな規模の影響が生じたはずだが、それを教訓とすべき各社に推奨されるのは、今後の障害への対応能力とリカバリ能力を向上させることである。

障害発生の背景

2024年7月19日、CrowdStrike は Microsoft Windows ホスト用の Falcon コンテンツ・アップデートをリリースしたが、このアップデートにはシステムをクラッシュさせる欠陥が含まれていた。数多くの企業における、デバイス保護/脅威インテリジェンス/対応サービスなどのために、CrowdStrike は多用されている。その Falcon プラットフォームは、脅威を検知/対応するための、同社のコア技術である。

FCA の監督下にある各社においても、CrowdStrike は多用されているが、業務への影響は様々だった。特に影響が大きかったセクターはなく、消費者への被害は最小限にとどまった。

我々は、この CrowdStrike 障害の発生中に、市場への影響/業務上の対応や復旧などについて調査するために、各企業と協議を行ってきた。そして、サービスが復旧した後にも協議を行い、学んだ点について深層まで分析した。

CrowdStrike 障害に関する、私たちの考察

それぞれ企業は、業務レジリエンスへの投資と規則遵守により、消費者と市場への影響を特定し、重要な業務サービスに対する優先順位付けを達成していた。

  • 重要なビジネス/サービスに必要なリソースをマッピングしていた企業は、主要なサービスをオンラインで再開させる優先順位を決定し、この障害が業務全体に及ぼす影響を最小限に抑えることができた。
  • 複数の重要ビジネスに対して同時に影響が生じるという、起こり得る最悪のシナリオをテストしていた企業は、被害を免れた。
  • コミュニケーション戦略を明確に定義し、テストしていた企業は、顧客や利害関係者に対して迅速かつ効率的に対応し、コミュニケーションを図ることができた。
企業に推奨される、次のステップ
  • 現時点におけるテスト・シナリオの妥当性を検討し、業務中断時の影響を最小限に抑える方法について確認する。
業界全体の企業は、どのように対応したのか?
インフラのレジリエンスを確保するには
  • それぞれの企業において浮き彫りになったのは、インフラ/テクノロジー・スタック内の単一的な障害を特定し、それらのレジリエンスを確保するために必要な、変更/投資/行動を特定することである。
  • それぞれの企業が考案したものには、インフラのレジリエンスを確保するための様々な方法があり、それにより、さまざまな OS を搭載し、各種のビルド/デバイスで構成される、システムが調達されていった。また、一部の企業では、システムの深層レベルへのアクセス権を持つ、サードパーティ向けの管理プロセスの更新が検討された。
  • 一部の企業では、ソフトウェア/コンテンツの更新のための、管理プロセスを見直す必要性が認識された。
企業に推奨される、次のステップ
  • アップデートをデプロイする前に、十分なテストを実施する。そして、障害の封じ込めをサポートするために、ユーザー・グループごとに段階的なリリースを検討する。
サードパーティの管理について
  • FCA の監督下にあり、今回の障害の影響を受けた一部の企業は、規制の対象となる他企業の重要ビジネスをサポートするためのサービスも提供していた。このことが、混乱の影響を拡大させた。
  • 3rdパーティ/nth パーティとの関係を詳細にマッピングしていた企業は、公開範囲を素早く把握し、影響を緩和するための措置を講じることができた。
  • サードパーティ・プロバイダとの情報共有において、関係性や伝達経路を構築していた企業は、障害発生時に迅速に対応できた。
企業に推奨される、次のステップ
  • サードパーティの管理フレームワークを、定期的に見直し、また、重大インシデント後に見直すことで、リスク管理の有効性を改善するための道筋が見えてくる。具体的には、以下のような方式が役立つかも知れない:
    • インシデントの潜在的/実質的な影響を分析した上で、サードパーティの分類/リスク評価/管理プロセスに対する、変更の必要性の有無を検討する。
    • サードパーティに対するレジリエンス要件に照らして、各ベンダのパフォーマンス/サービス・レベル/契約上の義務/継続性に関する取り決め/撤退計画などをレビューし、特定されたギャップを是正する。
    • ビジネスに混乱を生じさせる可能性のある、影響を特定/制限するために、相互依存関係を把握する。
インシデント対応とコミュニケーションについて
  • それぞれの企業におけるスタッフと経営陣が、インシデント対応と危機管理プロセスを把握し、それらを熟知することの必要性を再認識すべきだ。そこで浮き彫りになったものには、利害関係者の連絡先を最新の状態に保ち、オンライン/オフラインでの円滑な利用を実現することの重要性もある。
  • CrowdStrike 障害の影響を受けた企業間において、FCA へのインシデント報告のタイミングと情報量は、大きく異なっていた。ただし、それぞれの企業における対応はタイムリーに行われ、企業の重要なビジネスに対して、このインシデントが与えた影響を明確に示していた。
  • コミュニケーション方針について、事前に規定していた企業は、迅速に対応できた。
  • 今回の障害の発生源はサードパーティである。したがって、契約で役割を定めていた企業は、サードパーティからの情報を効率よく入手できた。
企業に推奨される、次のステップ
  • 企業として検討すべき事柄には、多様なコミュニケーション・チャネルの準備と、効率的で確実な意思の疎通の確保がある。具体的に言うと、事前に承認されたコミュニケーション・テンプレート/サービス・ステータス・ページ/バナーなどへの、利害関係者によるアクセスの確保を検討すべきだ。
  • 今回のようなインシデントにより、サービス・プロバイダが影響を受ける場合であっても、効果的な対応を確保する必要がある。そのためには、インシデントの発生中および発生後の、サービス監視/インシデント通知/タイムリーな更新などについて、責任を明確にするサードパーティ契約の締結が重要となる。
  • 深刻なインシデントの発生や、マーケットに影響を与える障害の発生に際して、事後のレビューを実施する。それは、全体的な影響をレビューするものであり、重要なサービスに対する変更や、緩和策に対する変更ついて、必要性の有無を判断するものとなる。たとえば、重要ビジネスとして分類すべきサービスの特定や、緩和策に対する修正などがある。

英国の金融監督機関である FCA (Financial Conduct Authority) による記事です。CrowdStrike の障害は、企業が各々にレジリエンス施策を構築する必要性を物語っています。記事中にもあるように、近年はサードパーティへの依存度が高まっており、金融業界が直面するリスクも深刻化しています。FCA が示す指針は、規模を問わず、あらゆる企業にとって参考になるでしょう。今後、業界全体でさらなるレジリエンスの向上が求められます。よろしければ、以下のリストも、ご参照ください。

2024/10/10:Microsoft の計画は安全なカーネル・アクセスの推進?
2024/09/24:CrowdStrike への米下院の公聴会:何が起こったのか?
2024/09/09:セキュリティ・ツール導入:CS の失敗から得るものは?
2024/08/27:Microsoft がサミットを開催:エンドポイント企業が参加
2024/07/19:CrowdStrike アップデートで Windows がクラッシュ