「海外21拠点を1人でサポートし3年間残業ゼロ」を実践したネットワーク監視の匠が語る「AIOps」の効果とビジョン:特集:AIOpsとは何か(3)(1/2 ページ)
システムの安定した稼働を守ることが求められる「IT運用」の現場において「AIOps」による業務の自動化、効率化への関心が高まっている。商社のインフラサポートエンジニアとしての職務経験の中で、自ら機械学習を応用した遠隔サポートシステムを開発した園山淳也氏に「AIOps」の有効性や未来像を聞いた。
さまざまな領域で注目を集める、機械学習やディープラーニングなどを応用した「AI」と総称される情報処理技術。これらが、最も早く適用され始めているのが、これまで「人間にしかできない」とされていたような判断や作業を、高速かつ高精度に行う「自動化」の領域だ。ビジネスとITとの関係が不可分なものになり、ITの重要性が高まり続ける中で、システムの安定した稼働を守ることが求められる「運用」の現場においても、AIを用いた「AIOps」による業務の自動化、効率化への関心が急速に高まっている。
園山淳也氏は、商社にエンジニアとして勤める中で、機械学習を応用した独自の遠隔サポートスキームを確立。現在は、遠隔サポートのために自ら開発したシステムを「Sonarman」と名付けてアプライアンスとして商品化し、ITシステムの開発や運用サポートを手掛ける会社「デベルアップジャパン」を経営している。自らの職務経験の中で「AIOps」を実践してきた園山氏に、その有効性や未来像を聞いた。
「海外21拠点を1人でサポート」するためにツールを開発
園山氏が、遠隔サポートツールの開発に着手した最初のきっかけは、新卒入社した商社で情報システム部門に配属されたことだった。ヘルプデスクからキャリアをスタートさせ、後にインフラ管理を担当。並行して、ネットワーク、データベースを中心とした技術を独学で学んだ。インフラ管理を任された園山氏は、当時、海外10カ国、21拠点に存在する海外法人のインフラ運用と、そのサポートを1人で担当することになったそうだ。
「時差があり、それぞれにインフラの事情も異なる拠点の全てに対して、現地のベンダーと連携しながらスムーズに運用を行っていくのは、かなり負荷の高い作業でした。それを1人でやれるようにするための方法が必要だったことが、自分でツールを作り始める動機付けになりました」(園山氏)
自分の業務を効率化することを目的に作り始めた管理ツールが、現在デベルアップジャパンの主要製品であり、遠隔サポートに特化したトラブルシューティングシステムであるSonarmanの原型になっている。
Sonarmanは、コンピュータネットワーク上に流れるパケットを取得する「パケットキャプチャー」を常時行い、その内容を解析して、何らかの「異常」が検知された場合に、遠隔のサポート担当者へ通知を行うシステムだ。園山氏はSonarmanを「ネットワークのドライブレコーダー」と表現する。アプライアンスだけではなく、ソフトウェア機能だけを提供する仮想アプライアンス版も無料で用意している。
ネットワークの「通常」と「異常」の識別に機械学習を活用
Sonarmanでは「ネットワークの異常」を検出する部分に、機械学習のテクノロジーを採用している。それぞれに、帯域幅や使われているアプリケーションなどが異なる、複数拠点のネットワーク事情を考慮に入れながら、その拠点に特化した「異常な状態」を検知するに当たって、機械学習の手法が有効だと考えたという。
園山氏は、独学を通じてパケットキャプチャーを読むことができるインフラエンジニアになっていた。スキルの向上に伴って、ユーザーのトラブル解決に当たり「Cisco NetFlow」や「SNMP」などの監視ツールは「情報の解像度が低過ぎて、追加の情報収集が必要となり、使いにくかった」と言う。
「現状、パケットキャプチャーツールは、簡単に解決できないトラブルが発生したとき、問題の詳細を探るために、一時的に使われるのが一般的です。その場合には問題を再現させる必要があり、どうしても対応が後手に回ります。一時的に使われる理由の一つは、パケットキャプチャーで取得できる情報が膨大なためです。しかし、容量を確保し、常時キャプチャーを取るようにしておけば、問題に対し先手を取ることで初動を早めることができます。同時に、情報量を生かして問題の原因を最後まで追い切ることができるため、より効率的に問題解決が可能になると考えていました」(園山氏)
異常検知への機械学習の応用も、常時のパケットキャプチャーで取得した「高解像度の情報」に基づき、自由度の高い特徴抽出が可能だったからこそ実現したという。
「パケットキャプチャーを軸に運用サポートを行う中で、各拠点での『普段の状態』のパケットログが蓄積されていたことに加え、障害が発生したときのログと障害内容についての組み合わせのデータが2000件ほど手元に集まっていました。そこで、機械学習に詳しい後輩にも相談しつつ、どのような指標でモデルを作れば具体的に異常を検知できそうかを考え、試行錯誤を経て、半年ほどかけて自分で実装しました」(園山氏)
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「AIOps」とは何か、どのように始めるべきなのか
ITサービスの停止やパフォーマンスの低下は、ビジネス上の損失に直結する。では、サービスの吐き出す膨大なログデータを、サービス品質の向上や維持にどうつなげればいいのか。ここで検討すべきなのがAIOps(Artificial intelligence for IT Operations)だ。 - 機械学習を活用して見えないインフラ障害を検知――九州のISPサービスを担う、QTnet運用エンジニアの挑戦
九州のISPサービスを担う、QTnet運用エンジニア木村氏は、ITインフラの監視に機械学習を活用し、これまで見えていなかった異常の検知や予測に取り組んでいる。「機械学習に関しては、ほぼど素人の取り組みだが、ソフトウェア開発に活用する際のヒントになれば」と謙遜しながら、その歩みを紹介した。 - はてなのMackerelが明かす、機械学習プロジェクトに潜む2つの「不確実性の山」を乗り越えるコツ
2019年8月29〜31日に開催された「builderscon tokyo 2019」のセッション「われわれはいかにして機械学習プロジェクトのマネージメントをすべきか」で、はてなの「Mackerel」のディレクターが機械学習技術の開発における「不確実性」のマネジメント術を説明した。