「海外21拠点を1人でサポートし3年間残業ゼロ」を実践したネットワーク監視の匠が語る「AIOps」の効果とビジョン:特集:AIOpsとは何か(3)(2/2 ページ)
システムの安定した稼働を守ることが求められる「IT運用」の現場において「AIOps」による業務の自動化、効率化への関心が高まっている。商社のインフラサポートエンジニアとしての職務経験の中で、自ら機械学習を応用した遠隔サポートシステムを開発した園山淳也氏に「AIOps」の有効性や未来像を聞いた。
パケットログ全体の傾向から「問題」の兆候を察知
パケットキャプチャーで取得されるログの中には、単体で明らかに「問題」となるものも存在する。例えば、ファイル共有ソフトのような、企業のITポリシーとして、一切の使用を禁止しているようなアプリケーションの通信や、「SMB I/Oタイムアウト」のような、ディスク故障の予兆となるようなエラーメッセージなどがそれに当たる。こうしたものは、一般的な「フィルタリング」で検知して対応することが可能だ。
しかし、ネットワーク上には「普通の状態」であっても発生するエラーメッセージがあり、そのエラーメッセージが「障害につながる異常」なのか、「放置しても問題ない」ものなのかというのは、メッセージ単体からは判別ができない。対応が必要かどうかの判断は、従来、組織のシステム状況に知識がある人間に委ねられていた。さらに、エラーメッセージが出ていない場合でも、ネットワーク上を流れるパケットの傾向が通常時と明らかに変わっている場合、マルウェアの侵入や障害の予兆など、何らかの問題が起こっていることを示唆している可能性が高くなる。
Sonarmanでは、そのネットワークの「通常時とは明らかに異なる異常な状態」を識別し、管理者にアクションを促す通知を出す。つまり、管理者は自ら全てのログを追う必要はなくなり、Sonarmanが「何か問題が起こっていそう(起こりそう)だ」と教えてくれたときにだけ、何が原因となっているかを探り、必要な対策を採ればいいというわけだ。
「事情の異なる複数拠点のインフラをサポートしていて感じたことなのですが、特に海外などでは、日本で仕事をしていると想像もつかないようなことが原因で、インフラに不調が起こることも多いのです。国や地域、ユーザーの規模、業種、使用機材や従業員のライフスタイルなどによっても、ネットワークの状態は大きく変わってきます。それを健全に維持していくに当たって、しきい値やフィルターのようなものだけで画一的な管理を行うのは難しく、無理にやろうとすれば、ユーザーのインフラに対する満足度も悪化してしまいます」(園山氏)
パケットキャプチャーによってネットワークで起こっていることを常時可視化すると同時に、「通常」と「異常」の識別を機械学習に委ねることによって、運用担当者の業務負荷を抑えつつ、提供するサポートの品質を高めていくというのがSonarmanの思想だ。この手法によるインフラ運用を実践することで、園山氏は在職中、海外10か国21拠点250ユーザーのインフラ(60サーバ、70ルーターを含む)を1人で運用し、3年間にわたって「残業ゼロ」を実現したという。
Sonarmanには、園山氏の経験に基づいた識別モデルや警告パラメーターが組み込まれており、さまざまな環境において「かなり良い精度で、管理者が問題に到達できるものになっていると自負している」と言う。
「想定外」に対処できるのは人間、AIは有能な助手に
園山氏が独立して立ち上げた「デベルアップジャパン」は、システム開発および運用サポートを事業として行う会社だ。前職在籍時からオープンソースソフトウェアとして開発し、自ら作り上げてきたSonarmanは、現在、事業展開の柱の一つになっている。
システム運用における機械学習の可能性について、園山氏は「エキスパートの有能なアシスタントとして、その業務の効率化や品質向上を支援していくものになる」と話す。
「運用に付きもののトラブルシューティングには、ミステリーを解き明かしていくような面白さがあります。一見奇妙に見える事象も、背後にあるメカニズムが分かれば驚きに満ちた発見がある。運用担当者は、その発見と対応を行う『名探偵』であり、Sonarmanは、その名探偵に情報を与える有能な『助手』のような役割を担えるようになると理想的ですね」(園山氏)
園山氏は、機械学習のような技術が運用の現場に活用されるようになっても、情報システム担当者が果たすべき本来の役割は、すぐには変わらないだろうとする。
「情報システム部門が本来やるべき仕事は、システムを通じた現場ユーザーへの『チェック』と『サポート』です。ビジネス現場がシステムを使って何をしたいのかというニーズを正しくくみ取り、整理して具現化する。そして、その環境の健全性や快適さを維持していく。翻って、現状の情報システム部門は、やらなければならないことが無限にあり、忙しくなり過ぎてしまっているようにも思います。テクノロジーの進歩が加速する中で、それに追い付くだけでも大変です。『やらなければならないこと』を可能な限り効率化し、本来やるべき仕事に、より多くのリソースを割けるような環境を取り戻したいという気持ちがあります」(園山氏)
同時に「トラブルシューティング」は、最後まで「人間」の技術者が携わっていく必要がある仕事として残っていくだろうと予想する。
「システムトラブルというのは、本質的に『想定外』の事象です。もし、全てのトラブルが『想定内』なら、既にソフトウェアで十分に対処が可能になっているはずですが、必ずしも、そうはなっていません。その意味で、現状では『想定外』に確実に対応できるAIは非常に作りづらい。では、どうすればいいかというと『想定外』には人間が対処すればいいのです。そして、対処する人間に適切な情報を素早く提供できるようなAIを持ったシステムを作っていくのが、目指すべき姿ではないかと思っています」(園山氏)
特集:AIOpsとは何か〜インフラ運用、AIで変わること、変わらないこと〜
ITがビジネスを加速させる昨今、多くの新規サービスが開発、リリースされ、運用管理者には安定したサービスの供給や、利用動向のログを解析することが求められている。だが、これに伴い解析すべきログや拾うべきアラートも増す一方となり、多大な負担が運用管理者の身に振り掛かっている。こうした中、AIを利用したIT運用「AIOps」が注目されている。では企業がAIOpsを取り入れる上で必要なこととは何か。運用管理者は、AIとどう向き合うべきなのか。本特集では、そのヒントをお届けする。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「AIOps」とは何か、どのように始めるべきなのか
ITサービスの停止やパフォーマンスの低下は、ビジネス上の損失に直結する。では、サービスの吐き出す膨大なログデータを、サービス品質の向上や維持にどうつなげればいいのか。ここで検討すべきなのがAIOps(Artificial intelligence for IT Operations)だ。 - 機械学習を活用して見えないインフラ障害を検知――九州のISPサービスを担う、QTnet運用エンジニアの挑戦
九州のISPサービスを担う、QTnet運用エンジニア木村氏は、ITインフラの監視に機械学習を活用し、これまで見えていなかった異常の検知や予測に取り組んでいる。「機械学習に関しては、ほぼど素人の取り組みだが、ソフトウェア開発に活用する際のヒントになれば」と謙遜しながら、その歩みを紹介した。 - はてなのMackerelが明かす、機械学習プロジェクトに潜む2つの「不確実性の山」を乗り越えるコツ
2019年8月29〜31日に開催された「builderscon tokyo 2019」のセッション「われわれはいかにして機械学習プロジェクトのマネージメントをすべきか」で、はてなの「Mackerel」のディレクターが機械学習技術の開発における「不確実性」のマネジメント術を説明した。