データセンターの大規模停電、Cloudflareはどう対処したか?データベースのHA化で障害時にもサービスの継続性を確保

Cloudflareは、以前の事故を教訓にデータセンターで発生した大規模停電の影響を最小限に抑えた。本稿では同社が公式ブログで紹介した内容を取り上げる。

» 2024年05月02日 08時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Cloudflareは2024年4月8日(米国時間)、以前のトラブルから得た教訓を生かし、同社のデータセンターで発生した大規模停電に効果的な対策を実施した事例を公式ブログで紹介した。

 Cloudflareが運営するオレゴン州ポートランドのデータセンターで、2024年3月26日、大規模な停電が発生した。同データセンターは2023年11月2日にも停電が起こり、コントロールプレーンとAnalyticsサービスがダウンした。しかし、2024年3月には停電の影響はほとんど発生しなかった。2つの事故の概要と、2023年11月以降Cloudflareが実施した対策について同社は以下のように説明している。

データセンターで起きた大規模停電

 Cloudflareのポートランドデータセンターのコントロールプレーンは、主にWebサイトやAPIを含む顧客向けインタフェースや、AnalyticsおよびLoggingパイプラインなどのサービスを提供している。

 2024年3月26日に、「PDX01」データセンターへの接続が切断されたというアラートが発生した。これは2023年11月と同様の警告だった。停電が起きた11月以降5カ月の間に、Cloudflareは多くのシステムを更新し、(冗長化のために)大量のネットワーク/サーバ容量を投入して、この事態に備えていた。加えて、2024年2月に内部切断テストを実施しており、システムがどのように反応すべきかを把握していた。また、冗長設備への自動フェイルオーバーのテストも実施し、作業が意図した効果を発揮していることも証明していた。

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。