Uptime.comは、企業Webサイトで発生した大規模なサービス停止事例をまとめたレポート「January 2020 Outage Report」を発表した。2020年1月に発生したGoogleやLastPassなどの事例を扱っている。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Webサイトのアップタイムやパフォーマンスを向上させるソリューションを提供するUptime.comは、2020年2月18日(米国時間)、2020年1月に発生した企業Webサイトの大規模なサービス停止事例をまとめたレポート「January 2020 Outage Report」を発表した。
Uptime.comによれば、サービス停止の頻度は落ちていないのだという。
「2020年1月には、金融サービス業界やインターネットインフラ業界で大規模なサービス停止が起こった。1月のダウンタイムは、われわれがいかにネットワークにつながっているか、予想外の障害が起こり得るインフラにいかに依存しているかをあらためて印象付けた」
さらに、これらのサービス停止は、サイト信頼性エンジニア(SRE)が既に知っている、「あらゆる事物がアップタイムの脅威になり得る」ことも浮き彫りにしたと、Uptime.comは指摘している。どんな小規模な変更、計画されたイベント、トラフィックの急増などであっても、混乱を引き起こす可能性があるという。
Uptime.comは今回のレポートで、2020年1月に発生したGoogle、LastPass、Travelexのサービス停止などを取り上げ、解説を加えている。
Googleは2020年1月27日(米国時間)、「G Suiteステータスダッシュボード」に示された障害の発生を公表し、ユーザーが「Googleドライブ」にアクセスできない原因となっている問題を調査中だと発表した。
「Googleドキュメント」「Googleスプレッドシート」「Googleスライド」といったG Suiteサービスは、Googleドライブにデータを保存するため、利用できなくなり、広範なユーザーが影響を受けた。
ほとんどのユーザーにとって、この問題は約1時間以内に解決した。だが、Googleはこれまでのところ、この問題の根本原因について発表しておらず、「システムの信頼性はGoogleにとって最優先事項であり、Googleは継続的にシステムの改良を進めているので、安心してほしい」と述べるにとどまっていると、Uptime.comは指摘している。
Uptime.comのサイト信頼性コンサルタントを務めるジョン・アランデル氏は、次のように解説する。
「Googleのような大企業は、全サービスで共通のファイルストレージインフラを使っている。つまり、GoogleドライブやGmail、Googleフォトなど、全サービスが同じプラットフォームを使用している。それは、バイナリ大規模オブジェクト(BLOB)を保存する『BLOBストレージシステム』と呼ばれる巨大データベースだ。ユーザーの休暇の写真や会議の議題リスト、上司からの電子メールなどは、いずれもGoogleのデータベースにおけるBLOBだ」
そのため、このインフラに障害が起こると、多くのサービスに影響が及ぶ恐れがある。Googleがデータを複数の独立したリージョンに分けている理由の一つがこれだ。サービス停止が波及する範囲を限定する狙いがある。
アランデル氏は、こうしたGoogleの取り組みから、一般企業が引き出せる教訓について、次のように説明している。
「インフラの分割は良いアイデアだが、Google以外の企業もこのアイデアを生かせる。システムのさまざまな部分を疎結合化すれば、個々のコンポーネントで発生した問題が、他のコンポーネントに影響する可能性が小さくなる」
無料パスワード管理サービス「LastPass」では、一部ユーザーのログインページがダウンした。LastPassは、この障害が発生から3日間に及んだ時点で初めて事態を認め、障害に見舞われたユーザーの不満を買った。
LastPassは1月19日午後5時14分(協定世界時)、一部ユーザーに対するログインサービスの停止をようやくツイートで認め、次のように最新状況を報告した。
「徹底的な調査により、われわれのサービスについて最近リリースした部分のバグがログインエラーを引き起こし、一部のユーザーに影響を与えていることが分かり、この問題を解決した。現在は全てのサービスが正常に機能している」
Uptime.comはこのような対応について、ユーザーにダウンタイムを告知する最良のタイミングは、「サービス停止がユーザーエクスペリエンスに影響したとき」だと指摘し、次のように説明した。
「問題が明らかになった時点では、社内の最優先事項が問題の修正だとしても、問題状況を告知してユーザーに透明性を提供すれば、批判の芽を摘み、逆に信頼の獲得につなげることもできる。ユーザーに早期に対処を促すという意味でも、サービス停止の報告は、インシデント管理手続きに組み込まなければならない」
LastPassサービスでは、ログインページの障害を認めた数日後に、LastPass用のChrome拡張機能がChromeウェブストアからなくなるという問題も起こった。LastPassの担当チームがうっかり削除してしまったためと見られている。
「パスワード管理ツールやイントラネット、シングルサインオン(SSO)サービスを利用している場合、オペレーションに冗長性を確保しておくのが賢明だ。万が一のときには、ユーザーが代替策として、ネットワークにホストされたパスワードにアクセスできるようにしておく必要がある」(Uptime.com)
2019年12月31日に現金を引き出そうとした旅行者の多くが、エラーメッセージを見る羽目になった。外貨両替大手のTravelexがランサムウェア「Sodinokibi」(REvilとも呼ばれる)による攻撃を受けたためだ。
ユーザーデータが危険にさらされたため、Travelexはサービスをオフラインにするという難しい決断を下した。その影響で停止を余儀なくされた金融サービスもあった。Travelexの一部の店舗はトランザクションを継続できたが、Webサイトとモバイルアプリケーションは完全に利用できなくなった。その結果、ユーザーは2週間近く、不安定な状態に追い込まれた。
この状況をさらに複雑にしたのが、Travelexが2019年9月13日に、脆弱(ぜいじゃく)性を知らされていたことを示唆する証拠が出てきたことだ。
だが、サービス停止の範囲を考えると、Travelexは厄介な状況にもかかわらず、適切な決断を下した可能性がある。事態が深刻なときには、痛みは大きくなるかもしれないものの、オペレーション全体をオフラインにすることが最適である場合もあるからだ。ユーザーデータが侵害される恐れがあるときは特にそうだ。
「経営陣、ビジネス部門、顧客、メディアからのプレッシャーを受け、IT部門やセキュリティ部門がやみくもに対応策を講じようとすると、かえって事態の悪化を招く。何が起こっているかを理解し、有効な解決策を見いだすまでは、何もしないのがベストだ」と、アランデル氏は述べている。
Copyright © ITmedia, Inc. All Rights Reserved.