冬季オリンピック公式サイト、可用率99.9%への道のり(1)

2002/3/23
Monday, March 15, 2001 InternetWeek, By Richard Karpinski

データ
企業名MSNBC.com

業界:マスコミ

e-ビジネスのゴール
:冬季オリンピックのWebサイト運営に備えてサイトのアップタイムと可用性を向上させること。

ソリューション:Web環境アーキテクチャの見直しにより、ハードウェアの性能を40%引き上げ、iDCを追加して負荷バランシングとコンテンツキャッシングサーバを実装する。その結果、オリンピック開催期間中は99.9%の可用性を実現した。

――Olympics.com Webサイトの公式ホストであるMSNBC.comのITチームは、Webインフラを構築し直し、今後数年間のトラフィックの暴騰にも備えながら、オリンピック開催期間中に99.9%というアップタイムを実現した。 重要な調査結果として、トラフィックの問題には、ただ単にハードウェアを投入するだけでは解決にならないということがわかった。アーキテクチャを熟考し、ロードバランサやキャッシングサーバなどの有効な手段を導入することである。また、これらはトラフィックを均等にしてくれるという効果も期待できる(Richard Karpinski)――


 1週間に900万人というユーザー数と数億ページビューものトラフィックを処理しなくてはならない、という企業はそう多くはないだろう。だが、冬季オリンピックの公式Webサイトを運営したMSNBC.comは、大量に殺到するトラフィックを処理するための戦略を立てる必要があった。MSNBC.comの立てた指針は、アップタイム、可用性、セキュリティ、そして何よりも訪問者を常に満足させるということに関心のあるすべてのITの現場で教訓となるものといえる。

 MSNBC.comが今冬のOlympics.comとNBCOlympics.comの両Webサイトをプロデュースする権利を獲得した瞬間、同社の技術スタッフは、作業が忙しくなることが目に見えていた(NBCとその関連会社はこのイベントの放送も行っている)。

 MSNBC.comの重役たちがこの契約を結んだのは、昨年夏のこと。つまり、同社 技術ディレクターのMike Corrigan氏と同氏のチームにとって、最高水準のインターネット技術の実験台となる新しいWebインフラの設計、実装、そして徹底的なテストに残された期間は、わずか6カ月しかなかったのだ。

 そして9月11日のあの事件は不幸にも、MSNBC.comにとって想定したアーキテクチャを試す予想外のテストとなった。この日発生したテロリストによる攻撃に関するニュースを探し求めてWebサーファーたちが殺到したためだ。Corrigan氏によると、この日のMSNBC.comのサイトのサイト可用性は43%という最悪の状態だったという。

 「コンシューマにより良いサービスを提供できるレベルに水準を引き上げる必要があった。たとえその結果、システムが不安定になったとしても、ユーザーを遮断しなければならないレベルに達しないオーバーフロー容量を確保することは最低限必要だ」(Corrigan氏)

 このような悲惨な経験をしたMSNBCだが、オリンピックサイトはメインのMSNBC.comサイトを処理したものと同じインフラで運営することにした。その理由は、ただ単にゼロからスタートする時間がなかったからだという。

計画の開始

 昨年の6月の時点でMSNBC.comは、米コンパックの4および8プロセッササーバ(合計30台以上)と複数のSQLデータベースサーバを組み合わせて運営されていた(SQLサーバは、バックエンドでオンライン投票アプリケーションといったよりダイナミックなコンテンツを処理していた)。

 Corrigan氏のチームはまず、このインフラで即座にストレステストを開始した。そして、予想されるトラフィックの需要を満たすべく、このインフラを強化するために設計/計画の段階に入った。

 Corrigan氏は、「オリンピックサイトは“絶対にダウンさせられない”という確固たる前提があった」と語り、「同時に、このプロジェクトに湯水のように予算をつぎ込めないことも承知していた」と付け加えた。

 「何を考えつくにしても、経済的なものというのは絶対条件だった。期間も予算も厳しい作業だった」(Corrigan氏)

 そしてCorrigan氏は、すぐに自分のサイトを稼働中の1カ所のiDCから2カ所に分散させなければならないことに気づいた。iDCを2カ所にすることは、トラフィックの負荷分散に役立つだけでなく、1カ所がダウンした場合にもう1カ所がバックアップの役割も果たすのだ。

 このようにしてMSNBCが最初のオリンピックの計画を立てている最中に、あの9月11日が訪れた。

 「あの日がそれまでわれわれが経験してきた中で、重大な日だったことは明らかだ。それ以前に経験してきた中で最大の出来事といえば、トラフィックが4〜5回上昇した大統領選挙ぐらいだった」(Corrigan氏)

 9月11日に殺到したトラフィックは実に、前代未聞の規模だった。

 「負荷はあっという間に殺到する。これを処理するメカニズムが必要であることは承知していたつもりだった。だがこのときは驚いた。数分間に文字通り数十万人のユーザーがこのサイトに流れてきたのだ」(Corrigan氏)

*この記事は2回に分けて掲載します。次回は3月26日に掲載予定です。

[英文記事]
An Olympian Web Effort

[関連リンク]
MSNBC.com

[関連記事]
いまだ復旧できない金融機関にニューヨーク市民は怒っている (@ITNews)
ドットコム崩壊をものともしないGoogle、そのシステムに迫る (@ITNews)
米テロ事件がIT業界に与えた課題 (NewsInsight)
次に重要なのはWebサイトのアクティビティ (@ITNews)
自社のWebサイトの性能を知るために(1) (@ITNews)
テストとモニタリングで安全なシステム運用とリスク削減を実現 (@ITNews)
企業はもっとWebサイトの測定基準に注目せよ (@ITNews)

Copyright(c) 2001 CMP Media LLC. All rights reserved

情報をお寄せください:



@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)