この連載では、オープンソースの運用監視ソフトウェア「ZABBIX」ではどんなことができるのかを、実際の使い方とともに紹介していきます(編集部)
最近ではきちんとした監視の下にあるシステムが増えていますが、中にはまだ、十分に監視し切れていないシステムもあるようです。今回はまず、しばしば見掛けられる不十分なシステム監視方法を取り上げ、その問題点を明らかにし、どのような対策が必要なのかを解説していきます。
現在システム運用をしている方の中には、以下のような状況にあり、思うように監視が行えていないというケースがあるのではないでしょうか。
このような状況は、特に、運用に十分なコストを掛けにくい小規模や中規模の環境で、専用の監視システムを用意できない場合に発生しやすいのではないかと思います。しかし、小規模、中規模の環境であっても障害は発生します。
自作スクリプトを利用した監視では、状況に応じたスクリプトメンテナンスをするために、技術スキルのある人材が必要になります。十分なスキルがない場合、スクリプトの記述ミスや誤検知により、監視自体ができない状態になってしまう可能性があります。また、監視対象となるマシンが少数のうちはいいのですが、運用を続け、システムが拡大するにつれてスクリプトが肥大し、見通しが悪くなり、どこで何を監視しているのかが分からない、という管理上の問題が発生することが考えられます。これは監視業務の引き継ぎをする際に、引き継ぎ漏れが発生する原因にもなります。
このように自作スクリプトでの監視の問題点は、技術スキルを必要とすることと、監視が複雑化することの2点にあります。
一方人手での監視は、手順書の作成コスト、作業者の作業コストを考えると、多くの項目について監視をすることが難しくなります。また、人手で記録した監視データは、入力ミスによりフォーマットが統一されていない場合もあり、過去の情報の統計的な分析も難しくなります。24時間監視する場合にはさらに作業コストが掛かり、管理者への連絡についてもあらかじめ連絡表を作成しておく必要があります。
人手での監視の問題点は、作業者の作業コストの増大と、人手で実施した場合の作業ミス発生の危険性にあります(図1)。
ほかにも、システム監視が不十分な状況では、次のような事態が発生する可能性があります。
実際に障害が発生した際には早期復旧が要求されますが、こうした状況下では、ある監視項目で障害が発生したことしか分かりません。全体の状況や詳細な障害内容を調べているうちに、対応が遅れてしまいます。より簡単な手順で詳細な障害内容を調べることができ、監視状況を俯瞰できるような環境を整えておくことは、ダウンタイムの短縮に必要になります。
障害から復旧した後も、原因調査のため、いつ発生したのか、事前にその兆候はあったのかを追いかけるため、時系列での状況変化を把握する必要があります。これについても、データをいったんCSVに出力してExcelでグラフを表示すれば時系列の状況変化は分かるかもしれませんが、早期の対応には不十分です。
これらの状況から考えると、システム監視は監視項目をただチェックするだけではなく、障害からの即時復旧、早期対応を行うために、以下を満たす必要があることが分かります。
では、適切な監視項目の分類とは、どのような視点から決めるべきでしょうか。監視項目の分類とその具体例について解説していきます。
Copyright © ITmedia, Inc. All Rights Reserved.