Google/Oracle クラウドに障害:英国の熱波によりデータセンターの冷却がパンク

UK heat wave causes Google and Oracle cloud outages

2022/07/19 BleepingComputer — 熱波が続くイギリスにおいて、Google Cloud/Oracle Cloud データセンターの、冷却装置の故障によるクラウド障害が発生した。イギリスでは、先週から記録的な猛暑が続いているが、7月19日の最高気温は 40.2度 (華氏104.4度) という記録的なレベルに達した。これにより、Google/Oracle がクラウド・インフラをホストするデータ・センターにおいて、冷却システムに障害が発生しはじめた。

ハードウェア・コンポーネントの恒久的な損傷による、障害の長期化を防ぐために、両社が機器を停止したことで、クラウド・サービスの提供に支障をきたす事態となっている。

先にクラウドサービスを停止したのは Oracle で、同社は、2022年7月19日 午前11時30分頃 (米国東部時間) に冷却システムに障害が発生し、「重要でないハードウェア」の電源を落としたと報告している。

Oracle Cloud の Status Message には、「季節外れの高温により、UK South (London) データセンターにおいて、一部の冷却システムに問題が発生した。したがって、制御不能なハードウェアの故障を防止するために、サービス・インフラの一部を停止する必要があった。この措置は、ユーザーへの長期的な影響を抑える目的で実施された」と記されている。

さらに、Oracle は、「重要ではないハードウェアの電源のみをオフにした場合であっても、このゾーンのユーザーが、Oracle Cloud Infrastructure のリソースにアクセスできない可能性が生じる」と述べている。

Oracle の報告の約2時間後に Google も、リージョン europe-west2 の ゾーン europe-west2-a をホストする建物の1つで、冷却障害が発生したことを報告した。

Google Cloud Incident Report によると、「リージョン europe-west2 のゾーン europe-west2-a をホストしている建物の1つで、冷却障害が発生した。対象のゾーンのキャパシティが一部低下し、一部のユーザーの VM の終了や、機器の故障が発生している。私たちは、キャパシティ復旧のため、冷却装置の修繕に取り組んでいる。当該のゾーンには、これ以上の影響はないと予想しており、現在稼働中の VM にも影響しないと見ている。複製されたごく一部の Persistent Disk デバイスが、single redundant mode で稼働している」と述べている。

さらに同社は、「機器へのダメージ/停止時間の延長を防ぐために、対象ゾーンの一部をパワーダウンし、GCE のプリエンプティブ起動を制限している。残りの複製された Persistent Disk デバイスの冗長性を回復するために作業している」と説明している。

Oracleと同様に、Google Cloud における冷却障害により、仮想マシンの終了/機器のダウン/Persistent  Disk デバイスの single redundant mode での稼働などが生じ、ユーザーに混乱を与えている。

両社とも、冷却システムを復旧させるための作業を行っているため、これ以上の影響はないと考えていると報告している。

熱波により、冷却システムに過負荷が生じたのでしょう。Google と Oracle が同時に、クラウド・サービスで障害が発生したということなので、気候の問題と捉えるのが妥当だと思われます。7月19日の最高気温は 40.2度とのことなので、普段はどうなのかと思い、調べてみました。7月の最高気温は 22度〜23度くらいで、29度 を上回ることや、17°C を下回ることは滅多にないようです。いきなり、平均的な最高気温を 10度も上回ると、こういう問題が生じるということなのでしょう。そう考えると、日本のデータセンターの方が、暑さに強いのかもしれません。

%d bloggers like this: