クラウドは単なる他人のコンピュータではない――。前編となる今回は2021年に起きた3つのインシデントにスポットを当ててお話ししよう。
ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナー アナリストらのブログサイト「Gartner Blog Network」から、@IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。
※本稿は2021年9月に公開されたものです。
2021年は、クラウドのレジリエンス(回復力)について検討を深めることができた。クラウドのリスク管理の方法について、顧客から尋ねられることが増えたからだ。
2021年にはこうした問い合わせが、波のように何度か押し寄せた。そのきっかけは大抵、インシデントに伴うリスク意識の高まりだ(残念ながら、顧客が直接影響を受けた場合が多い)。通常、1つの波は数週間に及び、波は互いに影響し合う。2021年には3つの大きな波があった。
2021年3月に発生した「Microsoft Azure Active Directory(Azure AD)」の停止は、集中リスクや重要サービスへの依存について、顧客の考えに大きな影響を与えた。ただし、それは多くの場合、Azureよりも「Microsoft 365」に関連していた(新型コロナウイルス感染症のパンデミック下で多くの組織が「Microsoft Teams」に大きく依存していることが、影響を増幅した)。
多くの組織にとって、Azure ADはSSO(シングルサインオン)の中核をなしており、そのレジリエンスは影響が極めて大きい。多くの顧客は、Azure ADの3月の障害を重大な教訓として受け止めている。
2021年夏に発生したAkamaiのコンテンツ配信ネットワーク(CDN)サービスおよびDDoS(分散DoS[DDoS]攻撃)防御サービスの停止と、これらのサービスへの隠れた依存関係がある他のCDNサービスの停止は、アプリケーションとインフラの依存に対する意識を高め、多くの顧客に衝撃を与えた。一般的に、Akamaiのサービスは信頼できるインフラ基盤と考えられてきたからだ。
2021年夏に頻発したIBM Cloudの「重大度1」(重大度のレベルが最も高い)の停止は、一部の顧客から言及されるにとどまり波紋は広がらなかったが、クラウドのリスクに関するより幅広いパターンに加わった。私の知る限りでは、これらの障害の根本原因についてIBMから公式発表はなかった。通知によると、障害は複数のサービスと複数の地域で発生し、多くの場合、全てのGen2 Multi-Zoneリージョンに影響を与えた。影響範囲から推測すると、Kubernetesが何らかの共通の要因になっていたのかもしれない。
メディア報道によって拡散された、障害に関する情報は、障害が顧客(や非顧客)にどれだけ深刻に受け止められるかに大きく関係しているようだ。エンドユーザーが利用するもの(オフィススイートや消費者向けWebサイトなど)に影響を与える障害は、企業の運用担当者が被る「単なる災難」よりも、はるかに多くの注目を集める。また、負の波及効果もある。つまり、プロバイダーXで障害が発生すると、人々は全ての競合他社についても懸念する傾向がある。
メディアの適切な説明やプロバイダーによる優れた根本原因分析(RCA)であっても、読者や、さらには賢明なIT担当者にも誤解される傾向にある。そうなると、クラウドサービスで障害が発生する原因や、クラウドサービスの本当のリスクは何かが誤解されてしまう。
このほど、私はクラウドのIaaSとPaaSにおける高可用性とフェイルオーバー(DR:ディザスタリカバリー)のパターンに関するレポートを作成した。レポートでは、レジリエンスを確保するためのアプリケーション設計パターンにも簡単に触れている。クラウドのレジリエンスに関する懸念はSaaS――特に、API SaaSにも同じように(それ以上にではなく)当てはまる。API SaaSは、複雑で深い依存関係の連鎖を形成する。
「クラウドは他人のコンピュータにすぎない」と書かれたTシャツやステッカーなど、あらゆるグッズが販売されている。面白いスローガンだが、真実ではない。クラウドサービス――特に、大規模なものは、極めて複雑なソフトウェアシステムだ。複雑なソフトウェアシステムと「コンピュータ」では、障害が起こる原因が異なる。クラウドの障害は、医学博士のリチャード・クック(Richard Cook)氏が有名な論文「How Complex Systems Fail(複雑なシステムではどのように障害が発生するか)」(外部リンク/英語)で説明した障害の発生原理を例証している。
われわれ人間は、複雑なシステムのリスクを理解するのがとても苦手だ。優れたシステムは、厳重な障害防止対策が取られていることが大きな理由だ。また、われわれは、めったに実現しない甚大なリスク(飛行機の墜落事故など)を、より身近なリスク(自動車の衝突事故など)よりも重視し過ぎる傾向もある。
「Amazon Web Services(AWS)でホストされている自社のアプリケーション」を、「自社のサーバではなく、AWSのデータセンターのサーバに置かれているだけ」と考えていると、いずれはクラウド障害の性質を思い知らされ、ショックを受けるだろう。その考え方は間違っているからだ。
出典:The cloud is NOT just someone else’s computer(Gartner Blog Network)
VP Distinguished Analyst
Copyright © ITmedia, Inc. All Rights Reserved.