なぜベテラン運用者は「しきい値超えのアラート」を静観できるのか ブロードリーフが考える“アラートへの向き合い方”:「Cloud Operator Days Tokyo 2022」セミナーレポート#5
Cloud Operator Days Tokyo 2022のセッション「効果的なアラートを再考する『メモリ使用率が80%になりました。』んで、どうすればいいん?」にてブロードリーフの左近充 裕樹氏は、監視の基礎である「アラート」に対する向き合い方や対処方法を解説した。
運用担当者の悩みの一つに「何のためか分からないアラート」がある。大量に発生しているが「しきい値を超えたこと」を知らせるだけで、緊急度や原因を知らせてくれるわけではない。放置できないので一つ一つ調べようとするが、ベテランの運用担当者は「それは放っておいてよい」と安心し切っている(そして実際、問題にはならない……)。「このアラートは本当に必要なのか?」、そんなもやもやを感じたことのある運用担当者は多いだろう。
ブロードリーフの左近充 裕樹氏(プロダクトインフラ課 インフラエンジニア)は、Cloud Operator Days Tokyo 2022のセッション「効果的なアラートを再考する『メモリ使用率が80%になりました。』んで、どうすればいいん?」にて運用管理者がアラートにどう向きあうべきかを紹介した。
アラートとは「システムを正常に動作させる対応を行うためのトリガー」である
ブロードリーフはモビリティ産業向けにSaaS「.Cシリーズ」(ドットシーシリーズ)を中心としたITソリューションを提供している。左近充氏はそこでインフラの運用を担当している。
左近充氏が常々疑問に思っているのが「メモリ使用率が80%になりました」とだけ伝えるアラートの存在だ。
「ベテランの運用担当者であれば『これはすぐに復旧する』と判断し、静観する。すると大体は狙い通り復旧し、復旧(正常範囲に戻った)を知らせる通知が届く。問題がないことはよいが、果たしてこのアラートに意味はあるのか」
アラートとは、システムが正常に動いているかどうか、ユーザーが満足して使えているかどうかをチェックために必要なものだ。だが、「メモリ使用率がしきい値を超えた」とだけ伝えられても運用担当者は何をすればいいのか分からない。もちろん、アラートが発生した原因も分からず、ユーザーやシステムに影響が出ているのかどうかも分からない。
「アラートはシステムの状態を監視し、正常な状態を維持するために必要な手段だ。言い換えればシステムが正常に動作しなくなることが明らかな場合に『システムを正常に動作させるためのトリガー』にしなければならない」
4大シグナルを監視せよ
アラートを、システムを正常に動作させるトリガーとするためには“何を監視させるか”が重要になる。左近充氏は監視対象について書籍『SRE サイトリライアビリティエンジニアリング ―Googleの信頼性を支えるエンジニアリングチーム』(オライリージャパン)を参照し、次のように解説している。
Copyright © ITmedia, Inc. All Rights Reserved.