＠IT
クラウド
Cloud Native Central
AWSの大規模障害から得たレジリエンスに関する教訓...

AWSの大規模障害から得たレジリエンスに関する教訓（後編）：Gartner Insights Pickup（253）

われわれは、Amazon Web Services（AWS）の大規模障害からいくつかの教訓を得た。今回は、後編をお届けする。

» 2022年04月15日 05時00分公開

[Lydia Leong, Gartner]

印刷

通知

連載「Gartner Insights Pickup」の新着をメールで通知

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナーアナリストらのブログサイト「Gartner Blog Network」から、＠IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

※本稿は2022年2月に公開されたものです。＞＞〔前編〕はこちら

　空は落ちてこなかったし、落ちようともしていない。

　クラウドは、突然魅力的でなくなったわけでも、リスクが著しく高くなったわけでもない。毎度のことながら、アベイラビリティーゾーン（AZ）アーキテクチャは機能するが、もともとマルチAZとして設計されているリージョンサービスの問題は、極めて重要なアプリケーションには、マルチAZが不十分かもしれないということだ。

　リージョンをまたがったフェイルオーバーは、適切に設計されていれば機能する。ただし、高速でシームレスなフェイルオーバーとフェイルバックが重要だ。一般的に、これまでのクラウドの大きな障害は数時間続いたが、数日間は続かなかった。とはいえ、フェイルオーバーやフェイルバックが簡単にできない場合、障害が短時間で終わることを祈りながら待つことになりがちだ。

　確かに、米国東部（バージニア北部、US-EAST-1）では、多くの顧客にとって重大な問題が発生した。「Amazon API Gateway」（簡単にAPIの作成、公開、保守、モニタリング、保護できるフルマネージドサービス）が実質的にダウンしたが、多くの人が「AWS Lambda」（サーバレスのイベント駆動型コンピューティングサービス）を呼び出すためにAPI Gatewayに依存しており、かなりの顧客がミッションクリティカルな用途でLambdaを使用している。「Amazon Connect」（クラウド型コンタクトセンターサービス）もAPI Gatewayに依存しており、このサービスも影響を受けた。

　また、バックエンドネットワークのトラブルの影響を受けた他の問題には、「Elastic Load Balancing」（ELB：アプリケーショントラフィックのロードバランシングサービス）の起動、S3のプライベートエンドポイント、コンテナの起動に影響を与える「AWS Fargate」（サーバレスのコンピューティングエンジン）のAPI、「Amazon Elastic Kubernetes Service」（EKS：Kubernetesアプリケーションを実行、スケールするマネージドコンテナサービス）のSTS、サポートAPIなどがある。

　だが、「Amazon EC2」（Amazon Elastic Compute Cloud：仮想サーバを構築、運用できるクラウドサービス）上の仮想マシンは、問題なく機能し続けた（ただし、新しい仮想マシンを起動することはできなかった）。US-East-1内の圧倒的多数のAWSサービスは、影響を受けずに稼働し続け、US-East-1のユーザーでも、影響を受けたサービスに依存していない顧客は業務を継続できた。

　クラウドの停止は通常、特定のサービスに限定される。だが、2021年12月7日に発生したAWSの障害はある意味で、どれだけこれが正しくても、停止したサービスがアプリケーションにとって重要であれば、回避策があるか、他のリージョンにフェイルオーバーできる場合以外は、大打撃を受けるということを端的に示した。

　ところが、残念なことに、極めて多くの顧客が「データセンターの物理的な障害が、最も起こり得る事態である」という想定に基づく計画に固執している（AWSも2021年12月にそうした障害に見舞われた。1つのデータセンターで停電が発生し、6つあるUS-East-1 AZのうち1つで、インフラのごく一部に影響が及んだ）。

　確かに、2021年12月7日の障害は、クラウドを利用する多くの顧客にとって警鐘となり、オンプレミスサーバの信奉者にはスローガンに利用された。だが、空は落ちてこないし、空からミートボールが降ってくるわけでもない。現実に起こり得ないことは予想すべきではない。

　最後に、この障害が起こる前の数カ月間に私が書いたブログ記事と、最近発表した同僚との共著による提言レポートから、クラウドの障害対策における注意点を幾つか挙げたい。