運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」。NTT東日本のセッション「新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた」から、AWS初心者が運用監視の定型業務を自動化する際の流れ、苦労するポイントを学ぶ。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
日々、何げなくこなしている業務の多くは定型業務だ。自動化することで一気に効率を引き上げることができる――そんなミッションに取り組んだのは、Amazon Web Services(AWS)に触ったのが入社してから初めてという東日本電信電話(NTT東日本)の新入社員、坂齊史奈子氏。
「Cloud Operator Days Tokyo 2021」のセッション「新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた」で、クラウド運用監視の定型業務を自動化した際の流れ、苦労するポイントを講演した。
2020年にNTT東日本に入社した坂齊氏は、機械工学科出身。クラウドやプログラミングの経験が全くない中で配属された先は、クラウドの運用業務やDX(デジタルトランスフォーメーション)推進案件を実施する部門。そんな同氏が課せられたのは、繰り返し発生する定型業務の自動化だった。
コストメリットやデプロイの速さ、運用保守の簡素化といったメリットがあるクラウドサービスは、多くの企業で積極的に採用されている。NTT東日本も例に漏れず、「クラウドサービスの利用状況は増加傾向にある」と坂齊氏は言う。
しかし、それと併せてある問題が浮上した。それは、クラウドサービスの運用監視業務の逼迫(ひっぱく)だ。
同社では、クラウドサービスやサービス内のインスタンスのリソースでエラーが発生または回復した際に、アラート通知を出すように設定している。通知は運用組織が受け取り、アラートの内容を確認。「どのサービスで発生したのか」「アラートの種類は何か」を確認したら、フローに沿って運用組織などの該当先に通知すべきかどうかを判断する。通知が必要な場合は、通知先と文面を用意し、ミス防止でダブルチェックを行ってからメール送信。送信後は記録ソフトウェアを使って情報を記録していた。通知が不要な場合は、情報を記録して終了だ。
しかし、クラウドサービスの数が増え、年間2500件超のアラートが発生するようになった結果、運用業務の稼働が奪われていった。今後もクラウドサービスを利用するのは目に見えており、このままでは運用組織の疲弊は避けられない。
問題を解消すべく、坂齊氏たちはアラート発生〜記録という一連の業務フローの棚卸しを実施。かなりの部分で単純な定型業務が繰り返し発生していることが分かった。これを自動化すれば、業務逼迫の現状を解消できるかもしれない――坂齊氏たちは、早速自動化に取り掛かることにした。
Copyright © ITmedia, Inc. All Rights Reserved.