検索
連載

AWSの大規模障害から得たレジリエンスに関する教訓(後編)Gartner Insights Pickup(253)

われわれは、Amazon Web Services(AWS)の大規模障害からいくつかの教訓を得た。今回は、後編をお届けする。

PC用表示 関連情報
Share
Tweet
LINE
Hatena

ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナー アナリストらのブログサイト「Gartner Blog Network」から、@IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

※本稿は2022年2月に公開されたものです。>>〔前編〕はこちら

 空は落ちてこなかったし、落ちようともしていない。

 クラウドは、突然魅力的でなくなったわけでも、リスクが著しく高くなったわけでもない。毎度のことながら、アベイラビリティーゾーン(AZ)アーキテクチャは機能するが、もともとマルチAZとして設計されているリージョンサービスの問題は、極めて重要なアプリケーションには、マルチAZが不十分かもしれないということだ。

 リージョンをまたがったフェイルオーバーは、適切に設計されていれば機能する。ただし、高速でシームレスなフェイルオーバーとフェイルバックが重要だ。一般的に、これまでのクラウドの大きな障害は数時間続いたが、数日間は続かなかった。とはいえ、フェイルオーバーやフェイルバックが簡単にできない場合、障害が短時間で終わることを祈りながら待つことになりがちだ。

 確かに、米国東部(バージニア北部、US-EAST-1)では、多くの顧客にとって重大な問題が発生した。「Amazon API Gateway」(簡単にAPIの作成、公開、保守、モニタリング、保護できるフルマネージドサービス)が実質的にダウンしたが、多くの人が「AWS Lambda」(サーバレスのイベント駆動型コンピューティングサービス)を呼び出すためにAPI Gatewayに依存しており、かなりの顧客がミッションクリティカルな用途でLambdaを使用している。「Amazon Connect」(クラウド型コンタクトセンターサービス)もAPI Gatewayに依存しており、このサービスも影響を受けた。

 また、バックエンドネットワークのトラブルの影響を受けた他の問題には、「Elastic Load Balancing」(ELB:アプリケーショントラフィックのロードバランシングサービス)の起動、S3のプライベートエンドポイント、コンテナの起動に影響を与える「AWS Fargate」(サーバレスのコンピューティングエンジン)のAPI、「Amazon Elastic Kubernetes Service」(EKS:Kubernetesアプリケーションを実行、スケールするマネージドコンテナサービス)のSTS、サポートAPIなどがある。

 だが、「Amazon EC2」(Amazon Elastic Compute Cloud:仮想サーバを構築、運用できるクラウドサービス)上の仮想マシンは、問題なく機能し続けた(ただし、新しい仮想マシンを起動することはできなかった)。US-East-1内の圧倒的多数のAWSサービスは、影響を受けずに稼働し続け、US-East-1のユーザーでも、影響を受けたサービスに依存していない顧客は業務を継続できた。

 クラウドの停止は通常、特定のサービスに限定される。だが、2021年12月7日に発生したAWSの障害はある意味で、どれだけこれが正しくても、停止したサービスがアプリケーションにとって重要であれば、回避策があるか、他のリージョンにフェイルオーバーできる場合以外は、大打撃を受けるということを端的に示した。

 ところが、残念なことに、極めて多くの顧客が「データセンターの物理的な障害が、最も起こり得る事態である」という想定に基づく計画に固執している(AWSも2021年12月にそうした障害に見舞われた。1つのデータセンターで停電が発生し、6つあるUS-East-1 AZのうち1つで、インフラのごく一部に影響が及んだ)。

 確かに、2021年12月7日の障害は、クラウドを利用する多くの顧客にとって警鐘となり、オンプレミスサーバの信奉者にはスローガンに利用された。だが、空は落ちてこないし、空からミートボールが降ってくるわけでもない。現実に起こり得ないことは予想すべきではない。

 最後に、この障害が起こる前の数カ月間に私が書いたブログ記事と、最近発表した同僚との共著による提言レポートから、クラウドの障害対策における注意点を幾つか挙げたい。

  • レジリエンスを確保するためにマルチクラウド戦略を進めるのは、非現実的だ。こうしたマルチクラウドの実装はめったに成功せず、重大な短所がある
  • 個々のアプリケーションの重要度を把握し、それに応じて可用性確保とフェイルオーバーのアプローチを選択する
  • 個々のアプリケーションごとにレジリエンスを設計、実装することの重要性を念頭に置く

出典:Resilience: Cloudy without a chance of meatballs(Gartner Blog Network)

筆者  Lydia Leong

VP Distinguished Analyst


Copyright © ITmedia, Inc. All Rights Reserved.

[an error occurred while processing this directive]
ページトップに戻る