ライス大学の研究チーム、データセンターで起こるスイッチの障害対策を改善：障害回復時間は0.73ミリ秒

米ライス大学のコンピュータ科学者ユージーン・イング氏の研究チームは、データセンター内のスイッチで障害が発生しても、共有バックアップスイッチが瞬時にネットワークトラフィックを引き継ぐ手法「ShareBackup」を開発した。

[＠IT] PC用表示関連情報

LINE

Hatena

　米ライス大学のコンピュータ科学、電気／コンピュータ工学教授ユージーン・イング（Eugene Ng）氏の研究チームは、データセンターのソフトウェアスイッチやハードウェアスイッチで障害が発生しても、共有バックアップスイッチが瞬時にネットワークトラフィックを引き継ぐソリューション「ShareBackup」を開発した。

米ライス大学のユージーン・イング教授（出典：Jeff Fitlow氏、ライス大学）

　データセンター内のスイッチで障害が発生すると、通常はそのスイッチを避けて、それまでとは異なる経路でトラフィックの伝送が続く。

　「だが、データセンターでは、データマイニングや機械学習など、データ集約型のアプリケーションが運用されており、こうしたアプリケーションの多くはパフォーマンス要件が厳しい。やみくもにトラフィックの経路を変更すると、ネットワークの混雑や速度低下を招き、こうしたアプリケーションにしわ寄せが及ぶ恐れがある」とイング氏は説明する。

　データセンターの障害調査によれば、障害発生時のトラフィック減少量は10％（中央値）だという。調査結果のうち、最悪の20％の事例では40％もトラフィックが減少していた。以上のデータをデータセンターのシミュレーションに当てはめると、42％のジョブが少なくとも3倍遅くなり、51％のジョブが期限切れとなった。障害の経路上になかった21.3％のジョブのフローも再ルーティングのため影響を受けるという。

　このような問題を避けようとして、ネットワーク全体に多数の冗長スイッチを設置すると、コストが高くつく。だが、イング氏のチームのソリューションでは、「高速なスイッチとソフトウェア」つまりShareBackupをデータセンター内の戦略的な位置に配置し、障害が発生したスイッチからトラフィックを直ちに引き継ぐ。問題が解決すると、専用のソフトウェアがバックアップスイッチを別の障害に対応できるように待機させる。

　試作したスイッチは高速で、障害回復時間が0.73ミリ秒（ハードウェアと制御システムに関わるレイテンシを含む）であるため、ほとんどのユーザーは、システムの一部で障害が発生したことに気付かない。

　データセンターでの実トラフィック情報と障害モデルを用いた大規模シミュレーションを行ったところ、ShareBackupを導入した場合、障害発生時に影響を受けたジョブフローの割合はわずか0.78％にすぎなかったという。既存の解決策では47.2％のジョブフローが影響を受けていた。

　「実のところ、（データセンター内の）障害は非常に小規模なことが多く、大抵は、機器の再起動によって解決する。われわれのソリューションはこうした特徴を利用することで、大量の機器を非常に少数の機器でバックアップできる」とイング氏は説明する。

　イング氏によると、ShareBackupによって、データセンターの運用にかかる時間と費用を節約できるという。なぜなら帯域幅を完全に維持するだけでなく、ネットワーク障害の一般的な原因である、構成ミスのような問題の分析も支援するからだ。

　「われわれのソリューションの機能には、ネットワーク上のどの部分に問題が生じたのかを、データセンター担当者が理解できるよう支援することも含まれる。バックアップが作動したら、障害が発生した機器を本番ネットワークから除去し、テストを行って、問題を引き起こしたコンポーネントを特定できる。われわれのソフトウェアは、機器の診断を半自動的に実行できるのだ」（イング氏）

ライス大学の研究チーム、データセンターで起こるスイッチの障害対策を改善：障害回復時間は0.73ミリ秒

関連記事

関連リンク

Master of IP Network 記事ランキング