AWSの大規模障害から得たレジリエンスに関する教訓（前編）：Gartner Insights Pickup（252）

われわれは、Amazon Web Services（AWS）の大規模障害からいくつかの教訓を得た。前編と後編の2回に分けてお届けする。

» 2022年04月08日 05時00分公開

[Lydia Leong, Gartner]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナーアナリストらのブログサイト「Gartner Blog Network」から、＠IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

※本稿は2022年2月に公開されたものです。

　2021年12月7日（現地時間）、Amazon Web Services（AWS）の米国東部（バージニア北部、US-EAST-1）リージョンで大規模障害が発生した。これを受けて私は、パニックになった多くの顧客からの問い合わせに対応した。「クラウドプロバイダーはどこも信頼できないのではないか」「アベイラビリティーゾーンモデルは実際に機能するのか」「われわれの現在のアーキテクチャは、ニーズを満たす適切なレジリエンス（強靭《きょうじん》性、回復力）を提供するのか」といった疑問が相次いで寄せられた。

　また、ジャーナリストの取材にも少なからず応えた。彼らは「AWSの顧客がこの障害の影響で、大挙して逃げ出したり、マルチクラウド化を進めたりしている」というストーリーを前面に押し出そうとしていた。私が読んだこのテーマに関する記事は全て、事実と異なることを暗示しようと躍起になっていた。

　確かに、多くの企業は複数のクラウドプロバイダーを利用している。だが、それはレジリエンスを求めてではなく、組織内の好みの違いから、複数のプロバイダーを採用することになったからだ。

　いずれにせよ、あの障害から数カ月たった今も、私はあの障害について顧客と話をしている（私の同僚もそうだ）。このことは、あの障害が、顧客にいかに大きな不安を与えたかということを示している。その中には、他のクラウドプロバイダーの顧客も含まれる。

　実際、あの障害は、その影響を免れた多くのAWS顧客にも大きな不安を与えている。彼らが影響を免れられたのは、US-East-1を利用していない、あるいは他のリージョンへのフェイルオーバーが計画通りに行われたからだった。

　これまでに、私と同僚はかなりの数の組織と話をしただけでなく、ディザスタリカバリー関連のソフトウェアやサービスのプロバイダーとも話をしてきた。

　そこから得た情報によると、2021年12月7日の障害時にクロスリージョンリカバリーがうまくいかなかった顧客は、こうした場合のためのAWSのベストプラクティスに従っていなかったか、ベンダーのアドバイスに従っていなかったかのどちらかのようだ。

　それでも、顧客からすると、US-East-1への依存に関し、2つの重大な想定外の事象があったことは否めない。

その1つは、コンソールのグローバルURLが、US-East-1だけを指していたことだ（おそらくほとんどの人が想定していたような、グローバルロードバランシングなどは行われなかった）。顧客は、代わりにコンソールのリージョンURLにアクセスすることでこれを回避できた。私は、今ではAWSが新しいコンソールエクスペリエンスを導入し、真のグローバルエンドポイントを実現していると考えている（ただし、確認はしていない）
もう1つは「Amazon Route 53」（ドメインネームシステム《DNS》サービス）と「Amazon CloudFront」（コンテンツ配信ネットワーク《CDN》サービス）のコントロールプレーンAPIが、US-East-1のみでホストされていることだ。AWSは、ヘルスチェックを使用してフェイルオーバーするよう顧客にアドバイスしているが、障害時にDNSを変更できることを顧客が期待していたのは無理もない

　この2つの問題はそれぞれ、クロスリージョンリカバリーを妨げた可能性があるが、その可能性があるものは他にも存在する。例えば、新しい「Amazon S3」（クラウド型オブジェクトストレージサービス）バケットを作成する必要性（グローバル名前空間の競合チェックがUS-East-1に対して行われる）や、ターゲットリージョンで供給が不足している非常に特殊なインスタンスタイプの必要性、新しいIAMロールを作成する必要性（最初にUS-East-1で作成され、他のリージョンにレプリケートされる）、レガシーサービスである「AWS Security Token Service」（AWS STS）グローバル名前空間への依存（US-East-1への依存でもある）などだ。ただし、クロスリージョンリカバリーは概して、期待通りに機能した。

　だが、その一方で、他のリージョンへの迅速なフェイルオーバーができなかったために障害時に苦しんだ人がたくさんいたのは確かだ。他のリージョンへのディザスタリカバリーの基盤をたとえゆっくりでも構築していない顧客は少なくない。

　実のところ、こうしたリカバリーを実現するには、投資が必要になる。顧客は、クラウドプロバイダーが高いレジリエンスを発揮し、そのおかげで自社ではそうした投資が不要になることを望む。だが、ここでは、希望は戦略にならない。

（後編に続く）

出典：Resilience: Cloudy without a chance of meatballs（Gartner Blog Network）