前回の記事では、実際に管理するシステムを想定して、管理基準書作成の留意点について解説しました。そこで、今回はこの管理基準書に記載されている内容を基にして、システムの監視・運用チームが参照する障害対応マニュアルの作成方法を順を追って解説することにします。
何のために障害対応マニュアルを作成するのか?
管理基準書を基にして作成されるマニュアルには、「運用マニュアル」と「障害対応マニュアル」があります。もちろん、この2種類以外にも、ノウハウの蓄積した資料や教育用のマニュアルなどを作成する場合もあります。管理基準書を運用マニュアルとして利用することも多いのですが、やはり通常運用時のマニュアルは管理基準書とは別に明文化したものを作成しておく方がいいでしょう。ただし、障害対応マニュアルに関していえば、作成は必須だと考えてください。
障害対応マニュアルを作成する目的は“検知した障害に迅速に対処する”ことにあります。障害対応に重要なのは障害を素早く正確に把握して対処することですが、検知した障害に適切な対処をするためには、管理しているシステムの詳細な情報と技術的知識が必要になります。つまり、これらの情報と知識を記載しておいて、障害検知時にすぐに参照でるように用意された資料が障害対応マニュアルなのです。
障害対応マニュアル作成には分析が必要
ところが実際に障害対応マニュアルを作成しようと試みても、効果的なマニュアルを作成できないことがよく起こります。効果的なマニュアルが作成できない原因の多くは、参照する側の立場になって作成できないことにあります。マニュアルの作成は熟練した技術者が担当(執筆はしないまでも監修はしなければなりません)するため、スキルの低い技術者に対して何を伝えればいいのかが把握できていないことが多いようです。その結果として、マニュアルに記載しておかなければならない情報に過不足が発生することがよくあります。
障害対応マニュアルでカバーする内容
障害に適切に対処するには障害を切り分ける必要がありますが、原因がクリティカルであるほど切り分けるエンジニアに高いスキルが要求されます。そのため、現状の管理スタッフを把握して管理チームを作成し、管理ポリシーを確立する必要があります。管理ポリシーは管理基準書として明文化されていますので、その内容を基に障害対応マニュアル作成に必要な情報を洗い出します。
- どのような監視を設定するか
- 監視・運用スタッフの配置をどうするか
- 検知した障害をどのように通知するか
- 誰(どのチーム)が障害を切り分けるか
- 誰(どのチーム)が障害対応をするか
- 障害対応後の報告はどうするか
では管理基準書を基に、障害対応マニュアルの内容を検討してみましょう。
誰に向けてマニュアルを作成するのか
マニュアルの作成は参照する側の立場で考える必要があります。そこで、実際の管理・運用スタッフと障害発生時の対応のロールプレイしてみることをお勧めします。どのような監視を設定しているかは分かっているので、検知できるシステムの異常も明確になっています。そこで、監視システムのアラート通知から、チケットをクローズするまでの対応を順を追って1つ1つ確認していきます。
ロールプレイする場合は、次のようなことを注意して確認します。
- アラート通知後、障害内容確認に必要なオペレーション
- 判断に必要な情報
- エスカレートに必要な情報と報告手段
- チケットをクローズするまでに必要な情報と報告手段
これらを順を追って障害対応マニュアルとして作成します。また、実際にロールプレイすると、スキルの高い管理者が自然に実行するオペレーションが、1次ラインのスタッフには実行できなかったりするといった問題を発見することができます。ツールやOSへのオペレーションに不安がある場合には、これらのマニュアルや学習用資料を準備することを考えた方がいいでしょう。また、ロールプレイによって問題を把握することで、オペレーションスタッフの教育についても検討することができます。
マニュアルの分冊と閲覧方法
障害対応マニュアルは、すべての情報を1つにまとめる必要はありません。1次ラインスタッフと2次ラインスタッフとではオペレーションも異なることから、それぞれ個別のマニュアルを作成してもいいでしょう。また、監視項目が多い場合には、アラート種別(監視項目別)に別マニュアルにしてもいいかもしれません。今回想定したWebサーバの監視を例に挙げると、「Webページが正しく参照できない場合の対応マニュアル」「急激にエラーログが記録された場合の対応マニュアル」「ディスクやメモリの容量が閾(しきい)値を超えた場合の対応マニュアル」などに分冊することが考えられます。
次にマニュアルの媒体(オンライン、または紙)を検討します。検索性や閲覧の利便性を考慮するとオンラインマニュアル(特にWebブラウザで閲覧できる形式)を推奨したいところではありますが、紙に印刷されたマニュアルでも構いません。ただし、紙にマニュアルを印刷する場合、内容が更新された場合には、すべてのマニュアルを更新しなければなりません。また、データが膨大になった場合には、マニュアルの保管場所についても検討が必要になります。
障害対応マニュアルと付属情報の取り扱い
システム管理情報の中には、詳細なシステム構成図、各機器のIPアドレス、パスワードなど非常に機密性の高いものもあります。本来マニュアルは多くの読者に参照しやすいように作成されるものなのですが、障害対応マニュアルは取り扱いルールを規定する必要があります。マニュアルに記載されている情報に機密レベルを設定して、閲覧できる人間やマニュアルの閲覧(あるいは保管)場所などのポリシーを規定しておきましょう。
また、パスワードなど非常に機密度の高い情報は、多くの人間が閲覧できるマニュアルとは別に付属情報として管理して閲覧者を制限します。閲覧制限は、技術のスキルレベルによって規定されている対応ライン(1次ライン、2次ラインなど)で設定すると比較的楽です。ただし、閲覧制限を付ける場合に注意しなければならないのは、非常時に機密情報を閲覧可能な管理者が即対応できる体制を確立しておかなければならないということです。管理・運用スタッフのチーム編成やローテーションは、これらを考慮しなければならないことを忘れないでください。さらに、機密情報の保管ポリシーも併せて検討しておく必要があります。
閲覧者からのレビュー
作成したマニュアルは、必ず閲覧者である管理・運用スタッフにレビューしてもらってください。実際のスタッフがマニュアルを読むことによって、分からない用語、分かりにくいオペレーション、理解できない記述などを発見することができます。これらの過程を何度か繰り返すことで、より良い障害対応マニュアルを完成させることができます。
また、新たな人材が管理・運用チームに配属された場合には、必ずこのマニュアルを熟読して、分からないところなどをレビューしてもらうようにするといいでしょう。その際に、マニュアルの内容が全く理解できない、あるいはオペレーション方法が分からないなどの問題が発生した場合には、マニュアルの記述内容とともに、レビューしたスタッフの技術的な問題点を把握することもできます。
日々の積み重ねで財産に
常に技術が進歩するように、システムも日々変化します。新種のウイルスや未知のバグなどが原因で予測できない障害が発生することもあるかもしれません。どのように綿密に作成された障害対応マニュアルであっても、100%の情報を保管したマニュアルは存在しません。それは100%完ぺきなシステム管理があり得ないのと同じです。管理者は新しい問題に直面してその記録を残し、その経験を生かしてまた新たな障害対応マニュアルを作成し続けなければなりません。しかし、そのように日々の積み重ねで蓄積される情報こそが、システムを管理する側にとって最も貴重な財産であるといえるでしょう。
今回で連載が終了します。「情報を有用な形で残す」には、ドキュメントを作成しなければならい理由とその流れをご理解いただけ、皆さんの障害対応マニュアル作りの参考になると幸いです。
Copyright © ITmedia, Inc. All Rights Reserved.