Spotify、Coinbase、Slackなど大手Webサイトやアプリの2022年第1四半期の大規模障害事例トップ5を報告、Uptime.com:障害不可避、その技術的問題とは?
Uptime.comは、2022年第1四半期に発生した企業Webサイトやアプリケーションの大規模障害の事例を5つ取り上げ、「Top 5 Outages of Q1 2022」として報告した。
Webサイトのアップタイムやパフォーマンスを向上させるソリューションを提供するUptime.comは2022年4月14日(米国時間)、2022年第1四半期に発生した企業Webサイトやアプリケーションの大規模障害の事例を5つ取り上げ、「Top 5 Outages of Q1 2022」として報告した。
Uptime.comは「システム障害やWebサイトのダウンタイムがかつてないほど広範囲に、かつ頻繁に発生している」と指摘。その原因として、トラフィックと技術インフラ依存の急激な増大を挙げている。これらが接続やサーバなどの不測の、あるいは不可避の技術的問題を引き起こしているという。
報告では、Southwest Airlines、Spotify、Coinbase、Discord、Slackの障害事例が以下のように紹介されている。
Southwest Airlinesのシステム障害
- ダウンタイム発生日:2022年4月2〜3日
- ダウンタイム時間:2時間。影響は週末まで続いた
- ダウンタイムの影響:Southwest Airlinesは、1回の週末で1万人分以上のフライトをキャンセル、延期した
- 稼働状態の確認:Southwest AirlinesのTwitter
Southwest Airlinesは、システムの計画停止に続いて技術的な問題に直面した。計画したイベントが計画外のダウンタイムを引き起こすこともある。Southwest Airlinesはこの障害によって、週末を通じて全米のフライトのキャンセルや延期を余儀なくされた。春休みの旅行シーズン中で、かつ悪天候に見舞われていたことで、障害の影響が一段と深刻化した。
Spotifyのアプリケーション障害
- ダウンタイム発生日:2022年3月8日
- ダウンタイム時間:2時間23分
- ダウンタイムの影響:ユーザーがSpotifyにログインできなくなった
- 稼働状態の確認:Spotifyのステータス告知用Twitter
Spotifyは、4億人以上のユーザーを抱える人気の音楽ストリーミングサービスだ。クラウドベースのサービス発見システムが原因となり、世界規模の障害に見舞われた。ユーザーは自分のアカウントにログインして音楽を聴くことができなくなった。
Coinbaseのアプリケーション障害
- ダウンタイム発生日:2022年2月13日
- ダウンタイム時間:4時間
- ダウンタイムの影響:トラフィックの急増でCoinbaseのアプリケーションがダウンした
- 稼働状態の確認:CoinbaseのWebサイトのステータスページ
暗号通貨交換プラットフォームを運営するCoinbaseは、スーパーボウル中継での広告で存在を大きくアピールした。エンゲージメント獲得を目指したこの広告には、視聴者向けにQRコードが掲載されていた。何百万人ものユーザーがこれを用いてアクセスしようとしてトラフィックが急増した結果、Coinbaseのアプリケーションは4時間にわたって停止を余儀なくされた。
Discordのアプリケーション障害
- ダウンタイム発生日:2022年1月26日
- ダウンタイム時間:3時間48分
- ダウンタイムの影響:APIの停止によって、Discordのメッセージング機能が停止した
- 稼働状態の確認:DiscordのWebサイトのステータスページ
月間アクティブユーザー数が1億5000万人を超えるメッセージングプラットフォーム「Discord」で、2022年1月下旬にダウンタイムが発生した。原因はAPI障害で、プラットフォーム内の接続とメッセージングに約4時間影響が及んだ。
Slackのアプリケーション障害
- ダウンタイム発生日:2022年2月22日
- ダウンタイム時間:3時間14分
- ダウンタイムの影響:顧客がSlackを使ったコミュニケーションやコラボレーションが不可能に
- 稼働状態の確認:SlackのWebサイトのステータスページ
2021年に発生した6時間半に及ぶAmazon Web Services(AWS)の停止は、Slackを含むさまざまな人気アプリケーションを巻き添えにした。この一件は、Slackを仕事で毎日使う1000万人以上のテレワーカーとオフィス勤務の従業員にとってSlackがいかに重要かを浮き彫りにした。
2022年2月に発生した障害は、Slack運営元による設定変更に起因した。これによってデータベースインフラで使用可能なリソースが不足し、その影響を受けたデータベースが、受信したリクエストに対応できなくなった。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- AWSの大規模障害から得たレジリエンスに関する教訓(前編)
われわれは、Amazon Web Services(AWS)の大規模障害からいくつかの教訓を得た。前編と後編の2回に分けてお届けする。 - 障害対応の属人化を防ぐ――freeeのSREが実践する情報共有術
サービスで発生する障害をゼロにすることは難しい。では、障害をゼロに近づけるために誰が何をしていくか。freeeのSREが大規模障害で学んだことや、障害を減らすための取り組みを紹介した。 - 「あけおめLINE」による過負荷障害をどう防ぐ? LINE SREが語る“安定稼働”の裏側
2022年3月12日、大規模サービスを展開する国内IT企業6社が「6社合同SRE勉強会」をオンラインで開催した。LINEでSREを務める加藤俊弥氏は大量アクセスが発生する「元日」に過負荷による障害を起こさないため、SREとして取り組んだ「準備」「検知」「対処」を紹介した。