障害事例:ネットワークの理(1)
トラフィックの通らなかった道(上)
塩田紳二 (協力:NECフィールディング)
2003/11/8
|
SEの年に一度のヒマな日 |
僕は、都内にある某インテグレーターの社員。仕事はいわゆるSE。でも、最近は個々の案件にかかわるより、構築中やその後のトラブル対策に駆り出されることがほとんど。まあ、問題解決の腕を買われたってことなのかもしれないが、ご存じのようにトラブルはある日突然やって来る。しかも、わが社はこの不況の中、意外に受注がうまくいっている。もっとも、安く買いたたかれているのはいうまでもない。
今期の予算が達成できそうなので、 ノートPCを買い替えてもらった。前のものは、Mobile-Pentium IIだったし、だいたいバッテリで2時間ぐらいしか動かない。標準で付いているのは、モデムだけ。イーサーネットも無線LANもみんなPCカードだったし、バッテリ寿命が短いから、ACアダプタが手放せない。おかげで、都内のコンセントを貸してくれる喫茶店に詳しくなってしまった。
今度のマシンは、標準バッテリで5時間。無線LANもイーサーネットも付いている。液晶は見やすいし、キーボードも打ちやすい。大容量バッテリを買えば、9時間にはもつ。幸いバッテリは、消耗品扱いで、課長のハンコで買える。今度のトラブルがうまく解決して機嫌が良さそうなときにでもハンコを押させようと思っている。
トラブル対策が多くなってしまったので、特定のプロジェクトになかなか入れてもらえない。仕事を始めようかというところで、トラブルで呼ばれる。なので、最近は課長も、トラブルの合間に少しヒマになるのは許してくれるみたい。もっとも、それは半年に1回あるかどうかなんだけどね。
で、今日は、その珍しくヒマな日なのである。僕は、朝から新品のノートPCの環境設定に没頭していた。前の機種からデータを移したり、通信環境を整えたり、パソコンの環境構築って、本来創造的な仕事じゃないんだけど結構楽しい。新しいマシンだと、いままでのソフトがうそのように速く動いたり、いままで使えなかった機能があったりとそれらを触っているうちにあっという間に時間が過ぎた。
オンなのにオフ |
今度のマシンは、Windows XPが入っている。それで、レジュームが速いし、念願のオフラインフォルダも使える。サーバ関係は、早くからWindows 2000に切り替わっていたので、後から買った同僚のマシンでオフラインフォルダが使えるのがうらやましかったのである。Windows XPを入れたいが、あのCPUとメモリでは遅くなるのははっきりしている。便利な機能と速度どっちを取るか?
できるのは当たり前だけど、実際に一度ちゃんと試しておかないと、いざというとき痛い目に遭う。(松島) |
オフラインフォルダとは、サーバ側のファイルをネットワークにつながっていないときにもアクセスできるようになる仕組み。簡単にいえば、キャッシュとして保存してあったファイルをサーバ側にあるかのように利用するものだ。Internet Explorerのキャッシュとオフライン作業と同じである。
社内では、業務用の共有フォルダをネットワークドライブに割り当てて使う。サーバに置いた個人のファイルは各人の自由になっているんだけど、業務用のものは説明やトラブル対策の関係からGドライブに割り当てて使うことが推奨(事実上強制)されている。何でGかというと「業務」のGなんだそうだ。まあ、社内には、エンジニアでない経理の人とか、総務の人なんかもいるので、こうした強制は必要だとは思うが、何だかインテグレーターとしては情けない感じもする。
それで、サーバにある個人のフォルダを共有して、自分のデータはいつでもアクセスできるようにする。ついでに、こっちもネットワークドライブにしてみた。これは「自分」用だからJドライブかな。
早速ファイルを同期させて、ネットワークケーブルを抜いて再起動。オフラインファイルが使えるのを試してみた。マイクロソフトが使えるっていってるんだから、できるのは当たり前だけど、実際一度ちゃんと試しておかないと、いざというとき痛い目に遭う。これは、僕がいままでに学んだ経験の1つ。「できるはず」と「できた」は違うのである。
じゃ、今度は業務用のファイルを見てみようかと、ネットワークケーブルをつないでGドライブを開くことにした。こっちは、ユーザーが更新する必要はないので、オフラインフォルダに設定していないのである。
フォルダを開こうとすると「ネットワークパスが見つかりません」って出てくる。えっ、とケーブルを見るがちゃんとつながっている。おかしいなぁと、あちこち設定を触ってみた。
片方が落ちても、もう一方が動作するはず、だった |
熱中して小一時間ほどして、再びGドライブをアクセスすると今度はちゃんとファイルが見える。接続の認識に時間がかかったのかと思った。
と、そのとき「松島くーん」と課長の呼ぶ声。松島とは僕の名前である。課長が呼ぶときは、たいていトラブルである。それ以外の重要な用ならば、課長はわざわざ僕の席までやって来て話す。
課長が呼ぶときは、たいていトラブル。それ以外の重要な用ならば、課長はわざわざ僕の席までやって来て話す。(課長) |
課長:「K社なんだけど、どうもネットワークが完全に落ちたみたいなんだ」
K社とは、静岡に本社のある某企業で、その東京支社の社内ネットワークを構築した。これがうまくいけば、全国の支店も受注できる可能性があるため、力の入っていた案件でもある。
クライアントが心配性なのと、かなりトラフィックが多いので、レイヤ3スイッチを2つ入れてネットワークを冗長構成にしてある。なので、片方のネットワークが落ちたとしても、もう一方で動作できるはず……だったのだが、それがうまくいかなかったようである。
車でいえば、スペアタイヤがあるから安心といって売っておきながら、いざというときにスペアタイヤがなかったようなものである。
課長は、顔色が悪い。そりゃそうだろう。下手をすりゃ、補償問題にもなりかねない。今回は、わずかな時間だったので、取りあえず損害は出ていないようだが、クライアントはカンカンだとか。先方から怒られるのを考えただけで気がめいってくる。トラブル対策に行けば、必ず文句をいわれる。謝るのは、課長とか担当者の仕事のはずだが、同じ会社の社員。先方に行って、ニコニコと迎えてくれるはずがない。
課長:「山田君が現場に行ってるみたいなんだけど、君も現場に行って、何とかしてきてほしい」
松島:「課長は行かないんですか?」
課長:「いや、私は、部長とこれから静岡のKの本社に謝りにいくから……」
ああ、今夜も晩飯はコンビニか。でも、これから新幹線に乗って、謝りに行く部長と課長はつらいだろう。新幹線の中でビールも飲めず、どういうふうに怒られるのかと1時間想像しなきゃいけない。
何でもないように見える |
支社近くで、山田君に電話した。取りあえず状況説明をしたいけど、K社の会議室を借りるわけにはいかないので、近所の喫茶店で待ち合わせることにした。担当者にすぐ会わないだけでホッとした。
山田君にシステム構成図などのひとそろいの資料を持ってきてもらう。見る限り、問題はなさそうである。もっとも、図面を見て問題が分かるようなら大問題である。
障害の状況とはこうである。われわれが構築した社内ネットワークは、万一の場合に備えてバックボーンを2重化してある。レイヤ3スイッチを2つ使い、片方が普段はバックボーンとして動作している。片方がダメな場合でも、もう1つあるので何とかなるはず。また,それぞれのケーブルは、物理的な問題を考えビルの両端の配線スペースを通してある。
つまり、エラーは出てないけど、障害のあった時間に通信していたかどうかを確実に把握していた人がいないんです。(山田) |
で、片方のネットワークがダメになった原因は、ビルの管理会社。配線工事の際に間違って、落としてはいけない電源を落としちゃったのである。幸いなことにすぐに気が付いて、ブレーカーを元に戻したら簡単に復旧した。
しかしこの場合でも、もう1つのレイヤ3スイッチが生きているので、こっちを使って通信が可能なはずだが、それがうまくいかなかった。松島:「落ちなかった方のレイヤ3スイッチはチェックしたの?」
山田:「ええ、問題なく動いてました」
松島:「で、全部のクライアントがダメだったの?」
山田:「正確に確認してないんですが、通信ができていたPCもあったみたいです」
松島:「どれだかはっきり分かんないの?」
山田:「障害が短時間だったので、ダメだったマシンのユーザーは確実に覚えているんですが、そうでなかったのははっきりしないんです」
松島:「というと?」
山田:「つまり、エラーは出てないけど、障害のあった時間に通信していたかどうかを確実に把握していた人がいないんです」
松島:「ざっと見て、場所は関係なかった? 例えば、あるフロアが全部ダメとか」
山田:「そういう感じではなかったようです」
松島:「テストのときに何かなかった?」
山田:「いえ、テストのときには問題なく切り替わっていたんです」
松島:「うーん、症状としてはどんなことが起こったわけ?」
山田:「えっと、ほとんどのクライアントは3階にあるサーバか、4階のメインフレームのどちらかと通信しているんですが、それがエラーでつながらなくなっちゃったんです」
松島:「Windowsの再起動は?」
山田:「したけどダメだったそうです」
どうも分からない。ひょっとしてレイヤ3スイッチではなく、手前のスイッチングハブかもしれないし、サーバの接続点かもしれない。まずは、原因の切り分けである。
こういうときには、まず細かく記録を取っておくに限る。万一ほかの人の助けを借りるにしても、状況を説明できないのでは何にもならない。
「原因究明の原理」が適用できない場合 |
後は、確実なところから確認していって、問題のないところを切り捨てていけば最後に問題点が残るはず……である。あくまでも原理のうえでは。
いままでの経験からいうと、トラブルの原因は思いも寄らないところにある。絶対確実だと思ったところに何かが潜んでいる。
松島:「で、担当の人は?」
山田:「へ?」
松島:「だから、担当の人はどういう人で、どういう状態なわけ? 怒りまくり?」
山田:「ああ、いや、怒りまくりというより真っ青です。実は、クライアント側のほとんどは、先方が設置したんです。最初は全部こっちでやるってことだったんですけど、予算とか、組織変更とか、引っ越しとか向こうの都合があって、結局先方の各ユーザーがそれぞれ自分が使っていたマシンを持ってきて、それをつないだんです。なので、責任を半分持っちゃっているのが分かっているんです。どっちかというと、カンカンなのは本社の人のようです。予算は本社持ちってことになってるようなんです」
松島:「ふーん。で、こっちの担当の人は、真っ青なわけか」
山田:「ええ、本社の方も冗長構成になっているんです。それで、支店の方も同じにしたいって支社側でいい出したって経緯があるんです。そのときに予算枠でちょっと本社ともめたようなんですよ。そういう背景があるもんだから……」
松島:「つまり、こっちの担当の人は、その矢面に立たされているってわけだ」
ますます、怪しく……ない |
打ち合わせを済ませて、現地調査に入る。その前にK社の技術担当の方にごあいさつである。これはあまり気が進まないが、あいさつもしないで、うろつき回るわけにもいかない。お小言を30分ほど聞かされ、やっと解放された。仕事とはいえ、このストレスは胃にこたえる。うちに帰ってもシクシクと痛みそうである。
とにかく調査である。夜のうちに調べられるだけ調べないと、さすがに翌日の就業中には調査などできない。
まずは、設計上のシステムと実際のシステムとを付き合わせてみる。実機のチェックとか、ネットワークのチェックといった仕事は山田君たち担当チームが行うので、こちらはそれ以外のところを調べるわけだ。
一晩かかって、調べて回ったが、何もおかしなところはない。かくなる上は、また同じように障害を起こして、何が起こっているのかを見るしかない。
しかし、いまのご時世、夜だからといってコンピュータは休んでいるわけではない。なので、ネットワークの切断はそうそう簡単に行えるものではないのだ。
応急措置として、配電盤のスイッチをガムテープで固定して触らないように注意書きを書いておく。まったく、こういうところを処置しておかないから、間違って切っちゃうのである。
先方と打ち合わせて、切断試験は今度の日曜日に行うことにした。それまでは、機器のチェックなどちょっとしたことしかできない。
落ちていたと確実に分かるクライアントがつながっているスイッチングハブやケーブルを予備のものと取り換え、持ち帰ってチェックすることにして、今日のところは解散することにした。
終電ギリギリなので、走って地下鉄の駅まで行く。込んでいるので座ることもできない。つり革につかまってぼんやりと考えていても何だか胃がキリキリとした感じになっていく。
イラスト:土井ラブ平
※本連載に登場する人物や団体すべてフィクションですが、障害事象については、NECフィールディング株式会社にご協力いただき、実際に発生した内容を参考にしています。 |
関連記事 | |
あなたのLANは健康ですか? 現状改善から一歩進んだ構築術まで 特集:基礎から学ぶネットワーク構築 レスポンスの悪いネットワークシステム どう検証し、解決していくか? 特集:ネットワークトラブルを解決する 運用管理に必須のツール/コマンド群 連載:24×365の運用管理 |
「Master of IP Network総合インデックス」 |
- 完全HTTPS化のメリットと極意を大規模Webサービス――ピクシブ、クックパッド、ヤフーの事例から探る (2017/7/13)
2017年6月21日、ピクシブのオフィスで、同社主催の「大規模HTTPS導入Night」が開催された。大規模Webサービスで完全HTTPS化を行うに当たっての技術的、および非技術的な悩みや成果をテーマに、ヤフー、クックパッド、ピクシブの3社が、それぞれの事例について語り合った - ソラコムは、あなたの気が付かないうちに、少しずつ「次」へ進んでいる (2017/7/6)
ソラコムは、「トランスポート技術への非依存」度を高めている。当初はIoT用格安SIMというイメージもあったが、徐々に脱皮しようとしている。パブリッククラウドと同様、付加サービスでユーザーをつかんでいるからだ - Cisco SystemsのIntent-based Networkingは、どうネットワークエンジニアの仕事を変えるか (2017/7/4)
Cisco Systemsは2017年6月、同社イベントCisco Live 2017で、「THE NETWORK. INTUITIVE.」あるいは「Intent-based Networking」といった言葉を使い、ネットワークの構築・運用、そしてネットワークエンジニアの仕事を変えていくと説明した。これはどういうことなのだろうか - ifconfig 〜(IP)ネットワーク環境の確認/設定を行う (2017/7/3)
ifconfigは、LinuxやmacOSなど、主にUNIX系OSで用いるネットワーク環境の状態確認、設定のためのコマンドだ。IPアドレスやサブネットマスク、ブロードキャストアドレスなどの基本的な設定ができる他、イーサネットフレームの最大転送サイズ(MTU)の変更や、VLAN疑似デバイスの作成も可能だ。
|
|