一般的な監視は、以下の2種類の方法に分類することができます。
稼働監視はサーバやOSの死活、プロセスやポートの稼働状況を監視します。稼働監視では異常終了したサーバやプロセスをリアルタイムに検知することができます。そのため、障害が発生した際に具体的な原因と対処方法を知るのに役立ち、素早い障害対応が可能になります。
リソース監視は、CPU、メモリ、ディスクの使用率などサーバやOSのリソース使用状況を監視します。稼働監視がすでに起きた障害を知るための手段であるのに対し、リソース監視は障害を予測し、計画的なサーバの増強などの対処を行い、障害を予防するのに有効です。
しかしながら、個々のプロセス稼働状況やリソース使用状況の監視と、ユーザーの視点からサービスが正常に利用できているかどうかを見るサービス稼働状況とは、視点が大きく異なります。本来、管理者が知りたいのは、プロセス単体の稼働状況や各種リソースごとの使用状況だけではなく、ユーザーに対してサービスが確実に提供できているかどうかではないでしょうか。
例えば、ユーザーがWebサーバにアクセスした際に、レスポンスに数分掛かるようでは正しくサービスが提供できているとはいえません。このような障害は、稼働監視やリソース監視では検知し切れず、障害の検知はユーザーからの報告に頼っている場合が多くあります。
このような問題は、サービス監視を行うことで解決することができます。
サービス監視は、例えばWebサーバならば正常なページが表示されているか、Webページのダウンロード時間が許容範囲内であるかなど、システムが提供しているサービスに対して実際のユーザーと同様のアクセスを行い、正常にサービスが動作しているかどうかを監視します(図2)。このような監視を行うことで、システム内部の個々のサーバを個々に監視していては知ることのできない、実際のユーザーから見たシステムの状況を把握することができます。
前述のとおり、稼働監視やリソース監視は実際のサービスの稼働状況を知ることはできません。それに対しサービス監視はシステムの健全性を判断することはできても、その原因や対策を把握することはできません。
レスポンスの遅延が発生したときに、同時間帯にどこかでリソース不足が発生していないか、停止しているサーバがないか、またロードバランサ配下のWebサーバが停止した際に、サービスにはどの程度の影響が出ているかなど、単純な監視のみではシステムの全体の影響度や、関連障害の予測などは困難です。
これらの情報はそれぞれ個別で見るよりも、統合的な監視を行い、その関係性を見ることで、システムの状態をより明確に知ることができるのです。また、取得した情報は長期間保存し、参照できるようにすることで、年間を通しての高負荷になりやすい時期や、問題となりやすい場所を特定することも可能です。
そして、複数の方法で監視をしていても、得られた情報を個別に見ていてはあまり意味がありません。複数の監視方法で得られた情報を一元的に管理し、比較、分析を行うことが重要となってきます。
本章では稼働監視、リソース監視、サービス監視の組み合わせの重要性を紹介しました。次章ではこれらを考慮したうえで、監視、情報の管理を助けるソフトウェアをご紹介します。
Copyright © ITmedia, Inc. All Rights Reserved.