障害事例:ネットワークの理(5)

エラーパターンの闇にひそむもの(上)

塩田紳二 (協力:NECフィールディング
2004/2/20

 この連載では以下の人物たちがトラブルにつまづき、障害の原因解明、解決に挑んでいます。
 読者の皆さんも登場人物とともに、問題の原因を考えてみてください。
過去の障害「トラフィックの通らなかった道」「信号強度100%の見えない線」 を読む
     主人公:松島
     上司: 課長
     部下: 山田
 終わった後の一杯

 
 「お疲れさまでした。カンパーイ」

 ここは、都内の居酒屋。Y社の無線トラブルで、部署全員が近所の聞き込みに奔走、混信している相手にチャンネルを変えてもらって、ようやく解決したので打ち上げをやることになったのである。

 「しかし、大変でしたねぇ」と吉田君。
 「でもさすがですねぇ。どうしてほかの無線LANだって気が付いたんです?」と山田君。

 「君、論理的な結論だよ。電波は見えないから、どうつながっているのかも分からないわけだ……」と、僕は、とくとくと説明した。もっとも、全部、師匠の受け売りなのだが。

吉田:「でも、こっちで周波数チャンネルを変更できなかったのが痛かったですね」
松島:「そうだねぇ。古い機種だったからねぇ。だから、みんなで手分けして、混信している相手を見つけなきゃならなかった。向こうも親切な人でよかったよ」

でもさすがですねぇ。どうしてほかの無線LANだって気が付いたんです?(山田)

山田:「僕なんか、受け持ち範囲にパチンコ屋があって、そこの人がとっても怖くて……。シクシク」

 どうも山田君は泣き上戸らしい。付き合っていると大変そうなので、無視して話を続ける。

山田:「いやー、でも先輩はさすがですよね」
佐藤:「そうそう、僕が担当してたファストフードのZ屋のときも助かりましたよ」

 というのは佐藤君である。昨年の秋に起こったZ屋のトラブルも僕が解決したのだ。

松島:「ああ、あれも分からなかったよねぇ」と僕は、秋のトラブルを思い出していた。

 短かった夏休み

 ファストフードのZ屋は、関東近辺に多数の店舗を展開している。ウチは、その各店舗に入るシステムを請け負った。POS端末を接続して売り上げなどを集計し、センターに転送するシステムである。こういうのを「ストア・コンピュータ」通称、「ストコン」という、どうも音の響きが「ストトン」と聞こえて、何だか簡単に落ちてしまいそうな感じである。

 だが、ウチにしては大きな仕事だった。何せ店舗が200店以上あるのだ。それに、いまでも店舗は増え続けていて、このままいくとセンターの方も来年ぐらいには増強の必要が出てきそうなので、当時のウチとしては重点顧客だったのである。

 都内のある店舗で起こった問題は、大問題となった。なぜなら、これが設計などにかかわる問題だとすると、全店舗で発生する可能性があるからだ。

 システムは、店舗内のPOS端末と接続しており、通常は集計や在庫管理などを行っている。また、スケジュールに従ってISDNを使ってセンターと接続、店舗の売り上げや在庫状況などを転送するようになっている。

 都内にある店舗の中でも来客数も多く、また最も古くからある店舗に設置したストコンで、ある日通信エラーが発生した。もっとも、どんな通信でもエラーは発生する。最初は、比較的簡単な問題と思われていた。しかし、どうにも原因が分からない。しかも、そこはZ屋にとっても重要な店舗であり、緊急に対策を求められた。

 そこで、僕のところに話が回ってきたというわけなのだが、そのとき、僕は夏に取れなかった「夏休み」を取っている最中だったのである。

 こういう仕事をしていると、世間が夏休みだからといって簡単に休みを取ることができない。特にシステム系だと、顧客が休みの間にシステムを更新・入れ替えるなんてことがあり、逆に世間が休みだと忙しい時期になってしまう。こうなると、友人関係とも疎遠になってしまう。

 で、今年は8月には休みが取れなかったものの、仕事の境目で9月に夏休みを取ることになったのである。

 ところがいざ夏休みとなると、することがまったく思い浮かばなかった。すでに海水浴のシーズンは終わり、もうプールなんかも寒くて楽しそうじゃない。それで、買い物したり、映画に行ったりとあまり有意義とはいえない夏休みを送っていたのである。それで、友達から久しぶりに電話があったときにはつい長電話してしまった。

 中学時代の同級生である神田は、僕と違って文系で某商社の営業をやっている。なんでも、最近ようやくインターネットを始めたそうだが、どうもうまくいかないという。いまごろインターネット接続なんかで悩むやつがいるのだろうか? とも思ったが、夏休みを持て余し気味だったので、遊びがてら日曜日に神田の家へインターネット接続を見に行くことにしたのである。

 いまどきモデム?

 もともと、コンピュータなんかに興味のない神田は、何年か前にパソコンだけは買っていた。年賀状の印刷をと思ったようだ。でも、どうもうまくいかなくてそのままホコリをかぶっていたのだが、会社で同僚からインターネットの話を聞き、俄然接続したくなったらしい(どうも不純な動機があるようなのだが、本人はそうはいわなかった)。

 マシンは、メーカー製のパソコンと本体組み込みのアナログモデム。基本的な設定は終わっているのだが、エラーでうまくつながらないことがあるというのだ。

 神田は、大学を卒業してすぐに結婚したので、すでに子供が3人。しかも、全員男の子で、一番上はもう小学校の4年生だという。こっちは、いまだに未婚。片やパパである。

 問題としては簡単、ダイヤルして接続先に電話はつながるものの、モデムがコネクトしないのである。以前、つながらないと大騒ぎして、実はプロバイダ契約が解除されていたという笑えない話もあったが、今回はそういうことはなさそうだ。見るからに通信エラーで、モデムがセンター側と接続できないようなのである。電話機からプロバイダのアクセスポイントに電話してみたが、ちゃんとキャリア音がする。電話番号を間違ったということでもないようだ。

ああ、松島君? 休暇中で悪いんだけど、至急対処してもらいたいことがあってね、で、悪いんだが、いまから来てくれないか?(課長)

 神田によれば、いつもつながらないのではなく、時々つながることもあるという。ただ、分からないのにあちこちいじったので、どういうときにつながって、どういうときにダメだったのかが全然分からないという。

 ざっと見た感じ、あまりダメそうなところはない、あるとすればモデムの不良ぐらいだが交換するモデムもないし、メーカー製とはいえ保証期間も過ぎており、修理するぐらいなら新しいモデムを買った方がかなり安いはず。というわけで、行ってはみたものの、何もすることがなさそうということになった。

 実は、僕は神田の奥さんの方もよく知っている。神田夫婦は、もともと中学校の同級生同士だったのである。パソコンを調べているときに奥さんがお茶を持ってきて、しばらく話し込むことになった。

 「乾燥機の音がうるさくてゴメンなさいね。うちは子供が多くて、土日はほとんど洗濯とかで忙しいのに、この人はちっとも手伝ってくれないの。だから、あんまり本気でやらなくていいのよ、インターネットなんか。忙しいのに自分の部屋に引っ込んじゃうんだから。パソコンなんか買わずに大きな洗濯機買えばよかったのよ」と意外に厳しいお言葉。

 神田は、「いや、インターネットははやっていて……」とか、「仕事でも必要なことが……」と、劣勢である。ここで夫婦の争いに巻き込まれては大変と、「はあ、そうですか」とお茶を濁した発言でごまかしておく。

 そんなときに鳴ったのが僕の携帯なのである。これは、非常にやばい。これは会社から支給されているやつで純粋な仕事用。つまり、会社からの電話なのである。僕も呼び出した経験があるから分かるが、休暇中の社員に電話をするのは、よっぽどのことである。なぜなら、休暇中に仕事するとその後の手続きがすごく大変で、課長なんかは「死んでもやるな」と厳命しているぐらいである(何でも上司は、すごく怒られるそうだ)。

松島:「はい、松島ですが」
課長:「ああ、松島君? 休暇中で悪いんだけど、至急対処してもらいたいことがあってね」

 と電話をかけてきたのは課長である。しかも、今日は日曜日。つまり、これはもうどうしようもなくすごい事態になったようだ。

課長:「で、悪いんだが、いまから来てくれないか?」

 と、僕の短い夏休みはこうして終わりを告げた。

 データが送れない

 指定された喫茶店に行くと,課長以下主要なメンバーがそろっていた。店舗には、システム担当者が常駐しているわけではなく、事情がよく分かっていない店長だけだった。なので、厳しい追及はなかったものの、忙しい時間なのと、システムを設置してある部屋が狭いので、作業をやるなら閉店後にしてほしいとのこと。というわけで、店が閉まるまでは、ここで待機なのである。その間に状況把握と対策会議をしようとみんなが集まったわけである。課長は、ここで状況を見た後、Z屋の本社へ行かねばならないという。道理で顔色が良くない。

ストコンのログだと、通信エラーなんです。どうも、通信中にTA側から回線異常のエラーが報告されているみたいです(松島)

 状況は、こうだ。ストコン(ストアコンピュータ)とセンター(センターコンピュータ)間の通信でエラーが発生して、データが送信できないのである。ただし、ずっと送信できないのではなく、送信できるときもある。

 ISDNを使った通信なので、基本的にはあまりエラーは出ないものの、皆無ではない。しかし、今月中ごろから頻度が急激に高くなった。

 ストコンとセンター間は、基本的には一定時間間隔で通信を行うようになっているが、店舗数も多く、センターもすべての接続を同時に受け付けることは不可能。このために、昼時や夕方のデータ数が増える時間は、店舗をグループ化して時間帯に分けて通信を行わせている。また、このとき、1つの店舗の通信が長時間回線を占有することがないように、1回の送信で送るデータ数に上限がある。もし、あまりにデータ数が多い場合には、閉店後にまとめて送信するようになっている。

 売り上げデータにはタイムスタンプが付けてあるので、通信自体はリアルタイムに行う必要はないが、当日分の集計処理のためと在庫管理側の要求で、すべての店舗のデータは10時までには送信を終了している必要がある。

 問題の店舗ではエラーが発生し、この10時までにすべてのデータを送れないという事態が発生していた。このため、センター側では集計処理の開始を遅らせ、在庫補充のために必要な店舗の在庫状況は店長が携帯電話で報告。センター側で、オペレータが端末から直接入力するという状態が続いていた。

課長:「エラーはどういうパターンで発生するの?」
松島:「えっと、午前中に起こることもあるんですが、夕方からは頻度が上がって、6時以降は、ほとんど通信ができないんです」
課長:「ほとんどというと、できるときもあるわけ?」
松島:「ええ、時々はエラーが出ないこともあるんです」
課長:「エラーはいつから?」
松島:「えっと、今月に入ってからなんです。以前もエラーは皆無ではなかったんですが、問題になるような頻度じゃありませんでした」
課長:「どういうエラーなの?」
松島:「ストコンのログだと、通信エラーなんです。どうも、通信中にTA(ターミナル・アダプタ)側から回線異常のエラーが報告されているみたいです」
課長:「回線の方は大丈夫なの?」
松島:「TAは交換してみたのと、夜中に行ったテストでは問題はなさそうです」
課長:「エラーログが間違っているって可能性は?」
松島:「その可能性も残ってます。テストだと、エラーを再現できてないので」
課長:「テストではOKなのか」
松島:「ええ、何回やってもエラーが起きないんです。ですが、エラーが起こる夕方は、店が開いているのでテストはできず、ログに頼るしかないんです」
課長:「どうにかしてエラーを再現させないと、発生条件が分かんないねぇ」
松島:「まずは、現場を調べるしかないですねぇ」

 と打ち合わせしているうちに店舗の閉店時間になった。取りあえず課長には、通信エラーが出るので、ストコン自体の問題ではないという線で先方に説明してもらうことに。

 テストでは問題なし

 電気がほとんど消えたファストフードの店というのは、何か寂しい感じがする。すでにメンテナンス業務が始まっていて、テーブルや椅子が端に寄せられ、アルバイトの子がモップがけをしている。

 店の奥にある小さな部屋にストコンは設置されていた。机1つに、椅子が数個。店は大きいが、社員やアルバイトが座ることができるのはここだけなのである。壁には店の運用マニュアルや本部からの集計データのバインダが並んだ棚。3人も入れば部屋はいっぱいである。

 担当の佐藤君と、

佐藤:「ほら、いまはエラーが出てないんです」
松島:「ああ、ほんとだ。取りあえず、9時からの通信頻度を上げることはできない?」
佐藤:「上げてもいいんですが、ほかの店もあるので、センターと接続できない可能性もあります。なので、頻度上げても状況は変わらないかもしれません」
佐藤:「あっ、エラーだ。こういうふうに通信中にエラーになって接続が切れちゃうんですよ」
松島:「なるほどねぇ。テストできる?」
佐藤:「いや、いまはまだ送信データが残っているので、テストできないんですよ。これが送り終われば、システムを止められるのでテストできるんですが」
松島:「いつでもテストできるように作っておいた方がいいねぇ。取りあえず、送り終わるまで待ちますか」

 ふと、フロアに目をやると、店長さんなど総出で机や椅子を拭いている。フロアに明かりがともって普段と同じだが、客が1人もいないのでやはり寂しい感じがする。しかし、毎日こんな掃除ばっかりなんて、自分の部屋の掃除もたまにしかしない僕なんかには向いてない仕事である。

 ストコンの方は相変わらずエラーでデータが送信できない。

松島:「こりゃ時間がかかりそうだねぇ。この間にあちこち調べときましょう」

 と僕は、ケーブル回りを調べ始めた。こういう環境だとケーブルが劣化することもあるし、湿気でコネクタがいかれることもある。

 あちこち、デジカメで写真を撮って、ソフトのバージョンなども調べてみた。

 ウチで作った設置マニュアルを基に配線もチェックしたが、ISDN回線のケーブルも別におかしなところはない。

 ISDNで店舗の電話も兼用しているというので、店長に断って電話を調べてみることにする。掃除はあらかた終わり、フロアは真っ暗。店長は、厨房で在庫のチェックを始めていた。

松島:「すいません。回線のテストするんで、電話かけていいですか?」
店長:「ああ、いいですよ。直りそう?」
松島:「いや、ちょっと原因が分からなくて……」
店長:「早くしてくれないと困るんだよね。在庫のチェックとか大変でさあ」
松島:「申し訳ありません。いまやってますので……」

 電話自体には問題はなく、ちゃんと通話も可能。ISDNなので、通話できるということは、通信がちゃんとできるということである。

松島:「終わったので、テスト始めてます」

 時計を見るとすでに10時40分、やはり今日もうまくいかなかった。

店長:「なんで、夜中になるとエラーが減るのかなぁ?」
松島:「でも、さっきまではエラー続いてましたよ。なんかパターンがあるようなないような感じです」
松島:「まあ、確率的にいえば、エラーは集中して起こるものだし、センター側とはなんか関係あるのかなぁ」
松島:「ログにある通信エラーというのが本当なら、TAからのレポートのはずなので、センターは関係ないんですが……」
店長:「でも、センターに通信が集中するような時間はエラーも多いんでしょ?」
松島:「そうなんです」

 テストでは問題はなく、センター側の接続テストもクリア。つまり、いまはどこもおかしくないのである。しかし、エラーが発生したのも事実。いったいどうすればいいのか? 何だか目が回ってきた……。

状況のまとめ
  • ストコンは、ほぼ一定時間間隔でセンターと通信している。
  • ストコンのログでは、通信エラー。これはTAからのレポートにより検出されるもの。
  • 回線異常により、通信が途絶。
  • エラーは午前中に発生することもあるが、夕方以降はほぼ確実に発生している。
  • ただし、閉店後しばらくするとエラーが起こらなくなる。夜中になるとエラーがなくなり、通信が可能になる。この時間は一定ではなく、だんだん頻度が減ってきて、12時以降は皆無のように見える。ただし、通常の通信はその前に終了しているので、確実なところは分からない。
  • エラーが起こるときには、ほとんど連続して起こる。
  • ただし、時々通信できることもある。
  • TAや配線、ストコン自体には問題はない。
  • 通常業務終了後にテストを行うとエラーは発生しない。

次月、トラブル解決編に続く)

イラスト:土井ラブ平

本連載に登場する人物や団体すべてフィクションですが、障害事象については、NECフィールディング株式会社にご協力いただき、実際に発生した内容を参考にしています。


関連記事
  あなたのLANは健康ですか? 現状改善から一歩進んだ構築術まで
特集:基礎から学ぶネットワーク構築

レスポンスの悪いネットワークシステム どう検証し、解決していくか?
特集:ネットワークトラブルを解決する
運用管理に必須のツール/コマンド群
連載:24×365の運用管理

「Master of IP Network総合インデックス」


Master of IP Network フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

注目のテーマ

Master of IP Network 記事ランキング

本日 月間