そもそも監視では、どのようなことを行うのでしょうか。まずは監視の基礎知識について解説します。

監視とは

ある1つのシステムをとっても、サーバやアプリケーションだけでなく、ネットワーク機器やデータベースなどさまざまなコンポーネントが正常に動作することで稼働します。システム運用において管理者や運用担当者は、問題が起きないよう日々各コンポーネントから情報を収集し、稼働状況を把握します。また、現状の負荷に対応するため変更を加えたり、予測される負荷に対応したりします。そしてシステムがダウンする可能性がある時、もしくは万が一問題が発生した時にはシステム管理者や運用担当者はいち早く対処する必要があります。この各コンポーネントから情報を計測・収集し、問題が起こった場合にいち早く知ることが「監視」です。

監視で行うべきこと

システムの監視において行うべきことは、主に「監視ツールの導入」「メトリクスの監視」「アラート内容の確認・精査」の3つです。それぞれ順番に確認しましょう。

監視ツールの導入

監視を実装する場合、ログやメトリクスを収集する監視ツールが使用されます。監視ツールは通常、イチから作るのではなく監視ツールの製品を購入します。サーバを立ててインストールして利用する製品もありますが、監視ツール用のサーバの運用も必要となってしまうため、最近ではSaaSで提供される監視ツールがよく利用されます。AWSではCloudWatchというツールが提供されています。

メトリクスの監視

ログが「いつ」「誰が」「どういった操作を行ったのか」などの情報であるのに対して、メトリクスは、「いつ」「何が」「どういう状態・値であったのか」の情報です。「ログとは」ではスーパーやコンビニのレシートをログに例えましたが、メトリクスはある時点での客数や商品の在庫数といえます。

システム運用においては、「何」にあたるのはサービス名などの機能です。具体的には、サーバのCPU使用率やメモリ使用率、ネットワークのパフォーマンスなどのメトリクスを監視します。このようなメトリクスを監視することで、サーバの負荷を把握し問題が起きる前に適切なスペックのものに入れ替えたり、台数を増やしたりできます。また、問題発生前後のシステムの状態を確認・調査することも可能となります。

取得するメトリクスはサーバの用途によっても異なります。例えばCPU使用率やメモリ使用率はもちろん、外部に公開するWebアプリケーションであれば、各HTTPステータスコードのレスポンス数も監視対象となりえます。一方でデータベースであればクエリ数やデータベースの読み書き操作であるディスクIOなども監視対象となりえるでしょう。

メトリクスは監視ツールに収集します。監視ツールは収集だけでなく、メトリクスを可視化できるものも多いです。AWSでは、Amazon CloudWatch Metricsでメトリクスの収集・可視化ができます。

アラート内容の確認・精査

監視においてはログやメトリクスは収集するだけでなく、管理者や運用担当者に通知する場合があります。この通知をアラートもしくはアラームと呼びます。例えば、ログ監視はエラーや特定の文字列があればアラートを発報することが考えられます。メトリクス監視ではアラートを発報する条件を設けます。簡単なものであれば、メトリクスに対してしきい値を設けます。設定したしきい値以上もしくは以下・未満でアラートを発報することが考えられます。

システム運用において運用者にアラートを発報する目的は、俊敏な対応や状況把握のためです。例えば、業務にクリティカルなシステムにおいてpingでサーバと疎通ができないというアラートは、サービス停止を意味しており、すぐに復旧の対応が必要なため運用担当者に知らせなければならないでしょう。一方で、CPU使用率がしきい値を超えたというアラートは、負荷の高いプロセス・サーバ自体の再起動をするために知らせることも、単に状況把握のために知らせることもあります。アラートは、平常時のシステムの負荷を把握しサーバ台数を増やす・サーバのスペックを見直すなどのシステム構成の改善を検討する材料となります。

通知方法はいくつかあります。システム特性や監視項目によりますが、メールやチャットツールへのメッセージが利用されることが多くあります。クリティカルなアラートの場合はメール・メッセージでの通知だけでなく、担当者・関係者へ電話連絡することもあります。クリティカルでない場合、アラート自体をログとして残しておくケースもあります。前述したようにシステム構成の改善の検討材料となるため、いつ負荷が高まったかといった情報は重要です。

監視におけるアラート通知

アラートの条件の変更

アラートの条件は、後から変更することもあります。例えば、システムのリリース前に決めたしきい値が運用していく中で最適でなくなった場合です。アラートが頻繁に上がるもののシステムの稼働に問題がない場合には、しきい値を上げることがあります。アラートとして把握する必要が無い場合は、アラート自体をなくすこともありえます。逆に、より早く負荷が上がっていることを知るためにしきい値を下げることもあります。

しきい値のイメージ