AWSの大規模障害から得たレジリエンスに関する教訓（後編）：Gartner Insights Pickup（253）

われわれは、Amazon Web Services（AWS）の大規模障害からいくつかの教訓を得た。今回は、後編をお届けする。

[Lydia Leong, Gartner] PC用表示関連情報

LINE

Hatena

ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナーアナリストらのブログサイト「Gartner Blog Network」から、＠IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

※本稿は2022年2月に公開されたものです。＞＞〔前編〕はこちら

　空は落ちてこなかったし、落ちようともしていない。

　クラウドは、突然魅力的でなくなったわけでも、リスクが著しく高くなったわけでもない。毎度のことながら、アベイラビリティーゾーン（AZ）アーキテクチャは機能するが、もともとマルチAZとして設計されているリージョンサービスの問題は、極めて重要なアプリケーションには、マルチAZが不十分かもしれないということだ。

　リージョンをまたがったフェイルオーバーは、適切に設計されていれば機能する。ただし、高速でシームレスなフェイルオーバーとフェイルバックが重要だ。一般的に、これまでのクラウドの大きな障害は数時間続いたが、数日間は続かなかった。とはいえ、フェイルオーバーやフェイルバックが簡単にできない場合、障害が短時間で終わることを祈りながら待つことになりがちだ。

　確かに、米国東部（バージニア北部、US-EAST-1）では、多くの顧客にとって重大な問題が発生した。「Amazon API Gateway」（簡単にAPIの作成、公開、保守、モニタリング、保護できるフルマネージドサービス）が実質的にダウンしたが、多くの人が「AWS Lambda」（サーバレスのイベント駆動型コンピューティングサービス）を呼び出すためにAPI Gatewayに依存しており、かなりの顧客がミッションクリティカルな用途でLambdaを使用している。「Amazon Connect」（クラウド型コンタクトセンターサービス）もAPI Gatewayに依存しており、このサービスも影響を受けた。

　また、バックエンドネットワークのトラブルの影響を受けた他の問題には、「Elastic Load Balancing」（ELB：アプリケーショントラフィックのロードバランシングサービス）の起動、S3のプライベートエンドポイント、コンテナの起動に影響を与える「AWS Fargate」（サーバレスのコンピューティングエンジン）のAPI、「Amazon Elastic Kubernetes Service」（EKS：Kubernetesアプリケーションを実行、スケールするマネージドコンテナサービス）のSTS、サポートAPIなどがある。

　だが、「Amazon EC2」（Amazon Elastic Compute Cloud：仮想サーバを構築、運用できるクラウドサービス）上の仮想マシンは、問題なく機能し続けた（ただし、新しい仮想マシンを起動することはできなかった）。US-East-1内の圧倒的多数のAWSサービスは、影響を受けずに稼働し続け、US-East-1のユーザーでも、影響を受けたサービスに依存していない顧客は業務を継続できた。

　クラウドの停止は通常、特定のサービスに限定される。だが、2021年12月7日に発生したAWSの障害はある意味で、どれだけこれが正しくても、停止したサービスがアプリケーションにとって重要であれば、回避策があるか、他のリージョンにフェイルオーバーできる場合以外は、大打撃を受けるということを端的に示した。

　ところが、残念なことに、極めて多くの顧客が「データセンターの物理的な障害が、最も起こり得る事態である」という想定に基づく計画に固執している（AWSも2021年12月にそうした障害に見舞われた。1つのデータセンターで停電が発生し、6つあるUS-East-1 AZのうち1つで、インフラのごく一部に影響が及んだ）。

　確かに、2021年12月7日の障害は、クラウドを利用する多くの顧客にとって警鐘となり、オンプレミスサーバの信奉者にはスローガンに利用された。だが、空は落ちてこないし、空からミートボールが降ってくるわけでもない。現実に起こり得ないことは予想すべきではない。

　最後に、この障害が起こる前の数カ月間に私が書いたブログ記事と、最近発表した同僚との共著による提言レポートから、クラウドの障害対策における注意点を幾つか挙げたい。

レジリエンスを確保するためにマルチクラウド戦略を進めるのは、非現実的だ。こうしたマルチクラウドの実装はめったに成功せず、重大な短所がある
個々のアプリケーションの重要度を把握し、それに応じて可用性確保とフェイルオーバーのアプローチを選択する
個々のアプリケーションごとにレジリエンスを設計、実装することの重要性を念頭に置く

出典：Resilience: Cloudy without a chance of meatballs（Gartner Blog Network）

筆者　 Lydia Leong

VP Distinguished Analyst

AWSの大規模障害から得たレジリエンスに関する教訓（後編）：Gartner Insights Pickup（253）

筆者 Lydia Leong

Cloud Native Central 記事ランキング

筆者　 Lydia Leong