＠IT
クラウド
Cloud Native Central
クラウドは単なる他人のコンピュータではない（前編...

クラウドは単なる他人のコンピュータではない（前編）：Gartner Insights Pickup（246）

クラウドは単なる他人のコンピュータではない――。前編となる今回は2021年に起きた3つのインシデントにスポットを当ててお話ししよう。

» 2022年02月25日 05時00分公開

[Lydia Leong, Gartner]

ガートナーの米国本社発のオフィシャルサイト「Smarter with Gartner」と、ガートナーアナリストらのブログサイト「Gartner Blog Network」から、＠IT編集部が独自の視点で“読むべき記事”をピックアップして翻訳。グローバルのITトレンドを先取りし「今、何が起きているのか、起きようとしているのか」を展望する。

※本稿は2021年9月に公開されたものです。

　2021年は、クラウドのレジリエンス（回復力）について検討を深めることができた。クラウドのリスク管理の方法について、顧客から尋ねられることが増えたからだ。

　2021年にはこうした問い合わせが、波のように何度か押し寄せた。そのきっかけは大抵、インシデントに伴うリスク意識の高まりだ（残念ながら、顧客が直接影響を受けた場合が多い）。通常、1つの波は数週間に及び、波は互いに影響し合う。2021年には3つの大きな波があった。

Microsoft Azure Active Directory（Azure AD）の停止

　2021年3月に発生した「Microsoft Azure Active Directory（Azure AD）」の停止は、集中リスクや重要サービスへの依存について、顧客の考えに大きな影響を与えた。ただし、それは多くの場合、Azureよりも「Microsoft 365」に関連していた（新型コロナウイルス感染症のパンデミック下で多くの組織が「Microsoft Teams」に大きく依存していることが、影響を増幅した）。

　多くの組織にとって、Azure ADはSSO（シングルサインオン）の中核をなしており、そのレジリエンスは影響が極めて大きい。多くの顧客は、Azure ADの3月の障害を重大な教訓として受け止めている。

Akamaiのサービス停止

　2021年夏に発生したAkamaiのコンテンツ配信ネットワーク（CDN）サービスおよびDDoS（分散DoS［DDoS］攻撃）防御サービスの停止と、これらのサービスへの隠れた依存関係がある他のCDNサービスの停止は、アプリケーションとインフラの依存に対する意識を高め、多くの顧客に衝撃を与えた。一般的に、Akamaiのサービスは信頼できるインフラ基盤と考えられてきたからだ。

IBM Cloudの「重大度1」の停止

　2021年夏に頻発したIBM Cloudの「重大度1」（重大度のレベルが最も高い）の停止は、一部の顧客から言及されるにとどまり波紋は広がらなかったが、クラウドのリスクに関するより幅広いパターンに加わった。私の知る限りでは、これらの障害の根本原因についてIBMから公式発表はなかった。通知によると、障害は複数のサービスと複数の地域で発生し、多くの場合、全てのGen2 Multi-Zoneリージョンに影響を与えた。影響範囲から推測すると、Kubernetesが何らかの共通の要因になっていたのかもしれない。

　メディア報道によって拡散された、障害に関する情報は、障害が顧客（や非顧客）にどれだけ深刻に受け止められるかに大きく関係しているようだ。エンドユーザーが利用するもの（オフィススイートや消費者向けWebサイトなど）に影響を与える障害は、企業の運用担当者が被る「単なる災難」よりも、はるかに多くの注目を集める。また、負の波及効果もある。つまり、プロバイダーXで障害が発生すると、人々は全ての競合他社についても懸念する傾向がある。

　メディアの適切な説明やプロバイダーによる優れた根本原因分析（RCA）であっても、読者や、さらには賢明なIT担当者にも誤解される傾向にある。そうなると、クラウドサービスで障害が発生する原因や、クラウドサービスの本当のリスクは何かが誤解されてしまう。

　このほど、私はクラウドのIaaSとPaaSにおける高可用性とフェイルオーバー（DR：ディザスタリカバリー）のパターンに関するレポートを作成した。レポートでは、レジリエンスを確保するためのアプリケーション設計パターンにも簡単に触れている。クラウドのレジリエンスに関する懸念はSaaS――特に、API SaaSにも同じように（それ以上にではなく）当てはまる。API SaaSは、複雑で深い依存関係の連鎖を形成する。

　「クラウドは他人のコンピュータにすぎない」と書かれたTシャツやステッカーなど、あらゆるグッズが販売されている。面白いスローガンだが、真実ではない。クラウドサービス――特に、大規模なものは、極めて複雑なソフトウェアシステムだ。複雑なソフトウェアシステムと「コンピュータ」では、障害が起こる原因が異なる。クラウドの障害は、医学博士のリチャード・クック（Richard Cook）氏が有名な論文「How Complex Systems Fail（複雑なシステムではどのように障害が発生するか）」（外部リンク／英語）で説明した障害の発生原理を例証している。

　われわれ人間は、複雑なシステムのリスクを理解するのがとても苦手だ。優れたシステムは、厳重な障害防止対策が取られていることが大きな理由だ。また、われわれは、めったに実現しない甚大なリスク（飛行機の墜落事故など）を、より身近なリスク（自動車の衝突事故など）よりも重視し過ぎる傾向もある。

　「Amazon Web Services（AWS）でホストされている自社のアプリケーション」を、「自社のサーバではなく、AWSのデータセンターのサーバに置かれているだけ」と考えていると、いずれはクラウド障害の性質を思い知らされ、ショックを受けるだろう。その考え方は間違っているからだ。

出典：The cloud is NOT just someone else’s computer（Gartner Blog Network）

縺薙�騾｣霈峨ｒ縲碁｣霈芽ｨ倅ｺ九い繝ｩ繝ｼ繝医阪↓逋ｻ骭ｲ縺吶ｋ New