仮想化、クラウドでシステムインフラが複雑化する一方、ビジネスや開発サイドは運用管理に一層のスピード、柔軟性、安定性を求めている。「システムは変わらない」ことを前提としたこれまでの運用管理では対応が難しい中、一体どうすればビジネスの期待に応えられるのか? 日本HPの統合運用管理製品「HP Operations Bridge Version 10」の開発責任者に、運用管理の新要件を聞いた。
仮想化、クラウドによってインフラが複雑化する一方、運用管理には市場変化に迅速に対応できる、一層の俊敏性、柔軟性が求められている。特に昨今は、サーバー監視でも単なる死活監視ではなく、そのパフォーマンスがビジネスにどのような影響を与えているのか、ITのパフォーマンスをビジネスのパフォーマンスにひも付けて管理することが重視されている。
こうした中、包括的な運用管理ソリューションを持つ日本ヒューレット・パッカード(以下、日本HP)は2015年2月、ITイベント管理/自動監視ソフトウエアの最新版「HP Operations Bridge Version 10」(以下、HP Operations Bridge)を日本国内でリリースした。日本HPでは「ビジネスサービス管理」(Business Service Management/以下、BSM)と呼ぶ製品分野に多数の運用管理ツールを用意しているが、「HP Operations Bridge」は、そのBSMの中核をなす製品群となる。
システム運用の在り方が収益・ブランドを左右する状況の中で、日本HPは運用管理の何がポイントになると考えているのか?――HP Operations Bridgeの開発責任者である、米HP BSM担当Product ManagerのBattina Hellinga氏と、日本HP BSMビジネス推進担当部長の鉾木敦司氏に、HP Operations Bridgeの開発コンセプトを通じて、デジタルビジネス時代に不可欠な“運用管理の新要件”を聞いた。
「ほとんどのビジネスをITが支えている今、エンドユーザーに提供するITサービスの品質が低下すれば、即座に機会損失や信頼性の低下につながります。しかし市場変化が速い中では、サービスを迅速に展開し、トラフィックの増減などに耐えながら安定運用し、状況に応じて改善していかなければなりません。仮想化、クラウドでシステムが複雑化、大規模化している中で、コストを抑えながらこうした運用を実現するためには、運用管理にも新しいアプローチが必要です」
鉾木氏は「HP Operations Bridge」の開発背景について、まずこのように説明する。その“新しいアプローチ”を表すのが「センス、アナライズ、アダプト」というキーワードだ。
「“センス、アナライズ、アダプト”とは、“ビジネスとITをひも付けて正確に監視し、問題をいち早く予見し、問題解決に最適なプロセスをいち早く適用する”ことを意味しています。ビジネスの状況変化に対応しながらシステムを安定運用するためには、こうしたプロアクティブなアプローチが不可欠です。そしてソリューション名である『HP Operations Bridge』の『Bridge』とは、『艦橋――ITサービスとインフラを統合的に監視・管理するための場所』という意味。つまり、HP Operations Bridgeとは、システム全体を見渡して、問題をプロアクティブに解決していく“作戦司令室”というわけです」(鉾木氏)
このHP Operations Bridgeの軸となるのが、統合管理コンソール「HP Operations Manager i」(以下、HP OMi)だ。HP OMiによって各種監視製品から上がってくるデータをシングルビューで把握可能とし、“ビジネスとそれにひも付くシステム全体を見渡す”仕組みだ。問題があれば、監視データをドリルダウンして即座に問題原因を追求することができる。
HP Operations Bridgeは、このHP OMiを核に、他ベンダー製品やオープンソースソフトウエアも含め、多様な監視製品をつなぐためのコネクター「BSM Connector」や、インフラが動的に変化する環境でも最新のシステム構成情報を自動的に収集・可視化する「Monitoring Automation」、ApacheやSQL Server、Active Directory管理などのベストプラクティスを収めたテンプレート「Management Pack」、監視結果を分析する「Correlation」、分析結果を可視化する「ダッシュボード」などで構成している。
その他、障害を予兆検知する「Oprations Analytics」「Service Health Analyzer」、運用手順書を自動化するランブックオートメーション機能を提供する「HP Operations Orchestration」、アプリケーションパフォーマンス管理を行う「HP Application Performance Management」もHP Operations Bridgeの製品群としてラインアップ。マルチベンダー製品で構成されるヘテロジニアスな環境が一般的な中で、HP OMiは以上のツールからの情報を集約することで、まさしくITサービス運用の“艦橋”の役割を果たすというわけだ。
米HPのBattina Hellinga氏は、「センス、アナライズ、アダプト」について、同社運用管理製品が従来から実装してきた「モニター(状況監視)/コリレート(相関分析)/オートメーション(運用自動化)という機能をさらに発展させたもの」と解説する。
「システムが動的に変化し続ける中では、『未知の問題』にも迅速に対処することが安定運用のカギとなります。例えば仮想環境では、事前に設定した閾値に沿ってサーバーを監視するだけでは、安定稼働を担保することはできません。運用自動化にしても、あらかじめ設定した自動化プロセスが、そのとき起こった問題の解決に最適なプロセスでなければ、自動化の意義が半減してしまいます」
「そこで各種監視結果から、どのような問題が起こり得るのかを“予測”して、その解決に最適な自動実行プロセスを判断・選択し、プロアクティブに適用するアプローチが重要になります。BSM製品群のコンセプトとしている“センス、アナライズ、アダプト”とは、そうした機能を示すものです」(Hellinga氏)
では、この「センス、アナライズ、アダプト」とは、「モニター、コリレート、オートメーション」から、具体的にはどのような機能強化を遂げているのだろうか?
まず「センス」については、前述したBSM Connetcorにより、HP OMiに接続できる製品を大幅に拡大したという。具体的には、以下のような製品を監視対象としてサポートしている。
商用製品だけではなく、「Nagios」「Zabbix」といったOSS(オープンソースソフトウエア)の運用監視ツールや、「Hadoop」「MongoDB」など近年登場したデータベースシステムなど、多くのソフトウエアに対応している。
「NagiosもBSM Connectorを介してイベント情報や性能情報、トポロジー情報を取得し、HP OMiで統合管理できる」(Hellinga氏)というように、既存ユーザーが多い製品を幅広くカバーしている点は導入のハードルを下げる一つのポイントといえるだろう。また、監視対象が増えたということは、すなわち「システム構成の変化を自動的に発見し、自動的に運用監視対象に組み込むオートディスカバリ/オートモニタリングのカバー範囲が増えた」ということであり、動的な環境の中、状況把握の正確性がさらに向上したことも意味する。
情報収集には、これまでのエージェント型とエージェントレス型に加え、今回新たに「Sensor」と呼ばれる仕組みを加えた。これは容量5MBで、5秒でインストールできるごく軽量なプログラムだ。500の主要な性能メトリクスの収集にフォーカスしている点が特徴だという。
「今日の運用管理現場では、“正常ではないが壊れているわけでもない状況”に出会うことが多い。例えばパフォーマンスが問題になるときなどです。そうしたケースでは、大きなサイズのエージェントであらゆる情報を取るのではなく、エージェント型の良さを残した小さなプログラムで性能への影響を最小限にとどめながら、主要なメトリクスだけを取る方がよい。そこで開発したのがSensorです。自身に性能情報を蓄積せず、Managerに情報を投げることで身軽さを実現しています」(鉾木氏)
監視対象の拡大とともに、コストやスケーラビリティに配慮した点もHP OMiの特長だという。HP OMiが内部で利用するデータベースとしてPostgreSQL DBを公式サポート。比較的小規模な環境であればPostgreSQL DBを内部に組み込んだシングル構成で対応。大規模な管理対象の場合はPostgreSQL DBを外出しにすることも可能で、監視可能な対象を前バージョンの3倍にまで拡大した。具体的には1台のHP OMiで200万オブジェクトを管理することができるという。
「これは大規模なエンタープライズ環境でも、1台のOMiで管理できることを意味します。Managerの配下にManagerを置く構成も可能なので、キャリアグレードの環境にも対応可能です」(鉾木氏)
「アナライズ」については、予兆検知や相関分析に基づいた問題原因追及のための機能強化を図った。具体的には、「どのような振る舞いが正常なのか」を学習するベースラーニングを自動的に行う。これを基に、“管理スタッフが安定運用する上で、意味のある情報だけ”を取り出せるようになった。
「多数のアラートを時系列で羅列されると、安定運用の上でどれが優先的に対応すべき問題なのか分からなくなりがちですが、HP OMiは意味のある情報だけ表示します。加えて、そろそろ何か起こりそうだということを30分前に教えてくれるため、さまざまな問題にプロアクティブに対処できるのです。既に障害の予知に使っている海外事例もあります」(鉾木氏)
主に、運用管理のマネジャー層から多く寄せられてきた、「タブレットなどを使って、いまイベントがどうなっているかを外出先でも見たい」という要望に応え、HTML5に対応したこともポイントだ。Webインターフェースの画面をHTML5で作成することで、あらゆるデバイス、OSからの管理を可能とした。また、前述のSensorにはWebサーバーが備わっており、httpでアクセスすることでグラフィカルに性能情報を表示させることもできる。Sensorは物理サーバー、仮想サーバー、各種ハイパーバイザーに対応しているため、マルチプラットフォームのヘテロ環境の稼働状況を、いつでもどこからでも一元的に可視化・管理できる環境が整うわけだ。
さらに「アダプト」については、国内外で多くのユーザー企業が存在する運用自動化製品、HP Operations OrchestrationやMonitoring Automationとの連携により、そのときどきの状況に最適なプロセスの自動化が実現できる。
これにより、例えば「30分前に予兆検知したイベントを受けて、HP Operations Orchestrationが最適な修復プロセスを判断・実行し、未然に事故を防ぐことができる」という。
運用管理ツールというと、管理の効率化やサービスの可用性向上などが一義的な目的だ。ただHP Operations Bridgeの最終的な狙いは、それらに加え、トータルコストを下げ、収益を拡大することにある。Hellinga氏は、「最新版では、特にそれらを実現するための機能を強化した」と話す。
その意味で、ユニークなのはダッシュボードによるROI表示機能だ。これは「障害などのイベントに人手で対応する必要がなくなることで、どのくらいのコストが削減できたか」をHP OMiが自動的に可視化するもの。
HP OMiは、これを実現するために相関分析エンジンを活用している。具体的には、TBEC(Topology Based Event Correlation)、SBEC(Stream Based Event Correlation)、TBEA(Time Based Event Automation)という、各種イベントと「トポロジー情報」「ストリーム情報」「時間」との相関を分析する3つのエンジンを搭載しており、これらを使って「重複しているイベント」「対応の必要がないイベント」「機械的に対応できるイベント」を自動的にイベントから削除。“本当に対応が必要なイベント”だけを管理画面に表示する。以下はこうした機能によって「58件のイベントが、相関分析の結果17件にまで削減でき、その結果どのくらいのコスト削減につながったか」を示すものだ。
「コストのメトリクスは、『IT部門の評価』においても、『新たなIT投資のための予算確保』の点でも重要。運用管理のROIを把握することなしにビジネスの安定運用は図れません」(Hellinga氏)
この他、HP OMi自体のインストール作業を従来の35ステップから2ステップに簡略化(最小構成の場合)した他、運用管理スタッフのスキルレベルを問わずHP OMiを使いこなせるようナビゲーション機能なども強化。スキルの属人化が課題になりがちな運用現場の現状に応えた。
Hellinga氏は、「HP Operations Bridgeには一般的な中小規模の企業からキャリアレベルの大規模企業まで、リーズナブルに導入・運用できるよう配慮した他、インストールやセットアップ、各種操作の負荷も下げるなど、一貫して“ビジネスに寄与する運用管理”に集中できるよう機能強化を施しました」と解説。
市場環境変化が速い中では、いち早くビジネスを展開し、品質を担保しながらスピーディにニーズに応えていくことが不可欠とされているが、「こうした中で、自分たちのオペレーションの成熟度をいかに上げ、運用管理部門のバリューを創出していくのか――“センス、アナライズ、アダプト”を実現する各機能が、その方向性を示していると確信しています」と締めくくった。
Copyright © ITmedia, Inc. All Rights Reserved.