2019年5月、データセンターのスイッチ障害によってかなり重大な障害が発生した。その障害の原因解析と対策を進める過程で学んだデータセンターの接続方式について解説する。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
2019年5月のある朝、筆者が運用する複数のネットワークを24時間365日監視している監視センターから電話がかかってきた。監視センターから私に連絡がくるのは大きな障害のときだけなので、ぼんやりしていた頭から一瞬で目覚めた。
ある企業のネットワークで特定のサービスのために使っているデータセンターから、「サービス不能」メッセージが大量に送られてきているという。不思議なことに監視センターが常時監視しているデータセンターのルーター、回線のどちらにも異常がない。サービス事業者がサービスの監視をしていて異常を発見したらしい。
監視センターとの電話が終わってすぐ、企業のネットワーク責任者に電話して状況を説明した。100以上ある拠点全てで使うサービスであり、影響は大きい。ネットワーク側に異常はないので障害の原因はデータセンター内にあるのは間違いなかった。
その後、責任分界点からサービス事業者側にあるスイッチで再起動が起こっていることが分かった。再起動後、データリンクは正常なのだがフレームの転送ができなくなっていた。
問題のネットワークとデータセンターの接続部分は図1のようになっている。
このネットワークで使用しているルーターには、ネットワークモニターという独自機能がある。拠点側のルーターからデータセンター側のルーターのスイッチと接続しているポートに対して周期的にpingを打って、経路の正常性を確認している。NGになると拠点側ルーターはこの経路を取り消して、拠点にある別のルーター向けのバックアップ経路に切り替える。
データセンター側のルーターはスイッチを接続しているポートのデータリンクが正常であればpingの応答を返す。ところが、今回の障害はデータリンクが正常なのにフレームの転送が停止しているという特殊なものだった。そのため経路が切り替わらなかったのだ。
暫定復旧策としてスイッチの該当ポートを閉塞(へいそく)した。結果、データリンクが落ちて経路が切り替わった。障害の発生から復旧まで約30分、時刻は朝9時を過ぎていた。決して速い復旧とはいえないが、データリンクが落ちていないことが障害の原因だと、短時間でよく気づいてくれたものだと思う。
ところで「データリンクが正常」とはどういう状態を言うのだろう。改めて考えてみると何も知らない。専門家に聞くと次の通りだと教えてくれた。
【データリンクが正常(リンクアップ)】
スイッチやルーターで「ポートを閉塞する」とよく言うが閉塞の意味は次の通りだ。
【閉塞】
Copyright © ITmedia, Inc. All Rights Reserved.