世界市場を相手に事業を拡大する、インターネット総合サービスを提供している楽天。同社はシスコのネットワークファブリック技術「FabricPath」を日本で初めて本格採用。新しいデータセンターの基盤とすることで、ITインフラを機動的なビジネス展開のためのエンジンに変身させようとしている。
インターネットで商品を購入する人の間で、知らない人はいない国内最大級のインターネット・ショッピングモール「楽天市場」。おびただしい数の出店企業のプラットフォームとして機能しており、止まることは許されない。楽天は、成長を続ける同サービスの舞台裏で、このプラットフォームをさらに柔軟で効率的、かつ拡張性に富んだものに進化させるべく、データセンターインフラの全面刷新を進めている。新たなデータセンターのネットワークを支えるのは、シスコシステムズのスイッチ「Cisco Nexusシリーズスイッチ」と、同シリーズが搭載するCisco FabricPath技術だ。
FabricPath採用の最大の動機は、ネットワークインフラの効率化と運用性の向上にある。
これまでのイーサネットの構築では、ある接続が途切れてもトラフィックの迂回路を提供できるように、予備の接続やスイッチを用意しておくことが常識となっている。これらは、平常時には使われることがない。本稼働の接続やスイッチに障害が発生すると、スパニングツリープロトコル(STP)という仕組みで、予備の接続に自動で切り替わることになる。
しかし、こうした構成では、予備の接続やスイッチが平常時には待機しているだけなので、無駄になってしまう。また、STPによる切り替えは瞬時とはいかず、安定的なネットワークの運用という点でも、頭の痛い問題となってきた。
楽天でサーバープラットフォームグループ サブマネージャーとして、データセンターインフラ運用におけるキーマン的な役割を果たしている岩崎磨氏は、こうした従来型のネットワークの効率性と運用性に問題意識を持っていた。
楽天市場の従来のデータセンターネットワークは、用途に応じて多数のレイヤ3セグメントが構成・運用されてきた。これは用途に応じたサービスレベルを確保するには有利だが、運用負荷が高く、楽天市場のサービスの急速な拡大への追従も難しい。また、各レイヤ3セグメント内では上述のSTPが使われ、帯域およびスイッチの利用に大きな無駄が発生していた。結果として、データセンター全体では、1000台を超える数のスイッチが使われてきたという。
楽天にとって、データセンターネットワークの集約化と効率向上は急務だった。しかし、安定稼働中のサービスを支えているネットワークの構成に手を加えることは、非常に困難だ。そうしたなか、楽天では仮想化を基盤とする新たなデータセンターを構築し、楽天市場の物理サーバを仮想化したうえで、順次この仮想基盤に統合していくことになった。これを機にネットワークについても、併せて集約化を進めることにした。すなわち、新しいデータセンターへの移行により、包括的なインフラコストの削減を進めることにしたのだ。
まず、新しいデータセンターでは広大なレイヤ2ネットワークを構築。VLANを使って、多数のレイヤ3セグメントをこれに統合する。さらに、当時(2011年)はようやく実装が登場しつつあったTRILL(TRansparent Interconnection of Lots of Links)という技術を採用して、STPから脱却し、ネットワークの利用効率を高めることを考えたという。
TRILLとは、イーサネットスイッチ間の接続構成を自動化する技術だ。特に冗長接続の構成にメリットをもたらす。TRILLではスイッチ間で自動的にネットワークの冗長構成が設定される。予備の接続やスイッチという概念はなく、平常時にも全スイッチ、全接続が有効に使われる。こうした自動構成機能は、ネットワークの拡張や構成変更にも生かすことができ、手間の掛からないネットワークの構築と運用に大きく貢献する。
TRILLあるいはそれに類似した技術は、複数のネットワーク機器ベンダが提供している。そのなかで、楽天はシスコのTRILL実装であるFabricPathを選択した。
その理由の1つは拡張性にある。各社とも特に当初、こうした製品の最大スイッチ接続台数や扱えるMACアドレス数には大きな制限があった。しかし、シスコのFabricPathは当初から、他社に比べてより大規模なネットワークの構築に対応できるスペックを有しており、そのうえでさらに大規模な環境への対応を迅速に進めていたという。
とはいえ、楽天のような規模でFabricPathを使った前例は、国内にはまったくなかった。国外でも当時は手本がほとんどなかったといって過言ではない。そうしたなかで、実運用に耐え得るかどうかを見極めるのは容易ではなかった。だが、シスコは検証の段階から、米国本社のエンジニアが日常的に直接対応して強力にサポート。楽天のエンジニアも、これを受けて問題点を迅速に解決できた。その作業のなかで、2社の相互協力を通じ、適切な運用手法を見出すこともできたという。「こうした対応をしてくれるシスコと一緒にやっていくことが、当社にとって最適だと判断し、同社の製品を選択しました」と岩崎氏は振り返る。
それにしても、前例のない規模での新技術の導入に踏み切ったのはなぜなのか。岩崎氏は次のように説明する。
「当社は世界ナンバーワンのインターネット企業になるという目標を掲げています。他社の事例がなければやらないというのでは最先端のことができません。一方で、リスクが大きいことは認識していました。だからこそ検証作業が非常に重要でした。導入する環境において発生すると思われる問題を徹底的に洗い出し、確認してから実運用に移行することで、確認している範囲での問題には対応できるという自信が持てました」(岩崎氏)。
最先端のネットワーク技術を採用した新しいネットワークは、2012年に運用開始となり、それを拡大した新しいデータセンターは、2013年に運用開始となった。既存のデータセンターで1000台以上あったスイッチが、新しいデータセンターでは数十台に集約された。サーバ移行はまだ完了していないため、新しいデータセンター内のスイッチはまだ増える可能性がある。それでも、移行完了時で100台程度には落ち着くのではないかと、岩崎氏は考えている。運用開始から約1年が経過したが、ネットワークが停止するようなトラブルは1件も発生していないという。
楽天では今回、FabricPath機能を実現するため、「Cisco Nexus 5000シリーズ」と「Cisco Nexus 2000シリーズ」の組み合わせを採用した。小型スイッチを、ニーズに応じて相互接続により拡張していくことで、需要に応じたきめ細かなネットワーク増強ができる。また、Nexus 2000シリーズはNexus 5000シリーズから統合管理できるため、運用作業が大きく簡素化できたという。
「過去は、大型のコアスイッチやコアルータを使わざるを得ませんでした。その点Nexusでは1Uの製品でも、10Gbpsをワイヤレートで伝送できますし、レイヤ3でも160Gbpsの伝送容量があります。コンパクトなスイッチを活用していくことで、ラックのコストを含めた、製品調達コストの削減にも、大きく寄与していると考えています」(岩崎氏)。
今回、楽天が新しいデータセンターのネットワークを、フラットなレイヤ2の空間として構築することにこだわったのには、サーバやアプリケーションの移行の容易さという理由もある。
楽天市場の既存サーバ群の移行は、段階的に進められている。対象となるサーバ台数は膨大だ。インフラコストの削減が最大の目標であるため、移行におけるサーバやアプリケーションのエンジニアの負担は、最小限に抑えたい。できるだけ構成変更をせずに、サーバやアプリケーションを移行できるようにするため、広大なレイヤ2の空間を用意したかったのだという。
また、アプリケーション運用担当者とネットワーク運用担当者双方の運用負荷を軽減するため、アプリケーション運用担当者が、ネットワーク関連の設定を自ら変更できるようなWebツールも順次提供しているという。このWebツールを使って、アプリケーション担当者は、例えば負荷分散装置の対象となるサーバを即座に増やすなどができる。NexusのAPIを活用して、VLANの設定をアプリケーション側が実施できるようなツールも作成中という。
このように、サーバ担当者やアプリケーション担当者に対するさまざまな配慮を加えて実施した今回のデータセンター移行プロジェクトだが、うれしい誤算があったと岩崎氏は話す。
「IaaS環境への移行によってコストが劇的に下がることが分かった瞬間に、社内のアプリケーション運用担当者が積極的に移行を検討し始め、2012年中は予想をはるかに上回る需要への対応に追われました」(岩崎氏)。
これに伴い、ネットワークについても急速な増強を強いられた。しかし、大幅な拡張を想定して設計していたため、増強作業は実質的に、スイッチのポート数を増やす作業のみで済んでいるという。
では、今後楽天におけるデータセンターネットワーキングは、どのように進化していくのだろうか。
FabricPathは本来、単一データセンター内のネットワークに特化した技術だが、楽天では「複数データセンター間接続に使えるのではないか」と考え、実際に適用を開始したと、岩崎氏は話す。
楽天は世界各国への展開を進めている。国内のデータセンターも1カ所では済まない。このため、複数のデータセンターにまたがって単一のVLANを構成するなどのニーズはすでにあり、今後さらにこうしたニーズは高まっていくはずだという。これを実現するものとして、シスコはOTVなどの、別の技術も提供している。だが、楽天としては自社でノウハウを十分に蓄積し、安心して使えると考えるFabricPathの適用範囲を広げていきたかったのだという。
大規模事例としては日本初となった今回の楽天によるFabricPath導入。「社内のエンジニアによる努力も大きかったですが、実績など自分たちで作ればいいということを改めて感じました。自分たちできちんと確認して、納得するということが非常に大事です。それができたのも、シスコのサポートがあったからこそだと考えています」と岩崎氏は胸を張った。
TCO最大50%削減を実現する「データセンター特化型スイッチ」という選択
迅速なプロビジョニングとサービスの立ち上げ、グリーンオペレーションやディザスタディカバリの提供が求められる現在のデータセンター。総所有コスト(TCO)最大50%削減を実現したというデータセンター特化型スイッチの詳細を見ていこう。
※ダウンロードにはTechTargetジャパンへの会員登録が必要です
Copyright © ITmedia, Inc. All Rights Reserved.
提供:シスコシステムズ合同会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2013年7月25日
迅速なプロビジョニングとサービスの立ち上げ、グリーンオペレーションやディザスタディカバリの提供が求められる現在のデータセンター。総所有コスト(TCO)最大50%削減を実現したというデータセンター特化型スイッチの詳細を見ていこう。