迅速・確実なインシデント対応に必要な機能要件、非機能要件とは?〜サイバーエージェントと日本HPが語る大規模環境、安定運用の鉄則〜@IT勉強会リポート「これまでの統合管理ツールでは解決できない悩みとは?」

@IT編集部は2015年4月23日、勉強会「サーバー100台からの悩みを解決! これまでの統合管理コンソールでは決して対応できない課題とは?」を開催した。大規模化・複雑化したインフラ安定運用の“要件”とは何か? サイバーエージェント 須藤涼介氏がその実装方法を語るとともに、そうした高度なスキルが求められる要件実装をパッケージで実現する方法を、日本HP 鉾木敦司氏が詳しく解説した。

» 2015年05月19日 10時00分 公開
[PR/@IT]
PR

 仮想化、クラウドでシステムが複雑化する今、「障害時の原因追求が難しくなった」「インシデント対応に時間がかかる」といった運用管理の課題が多くの企業で噴出している。こうした課題を解決し、ビジネス展開のスピードと柔軟性を担保するためにはインフラ運用にどのような要件が求められるのだろうか?

 @IT編集部は2015年4月23日、勉強会「サーバー100台からの悩みを解決! これまでの統合管理コンソールでは決して対応できない課題とは?」を開催。サイバーエージェントでインフラ&コアテク本部を務める須藤涼介氏と、日本ヒューレット・パッカード(以下、日本HP)でBSMビジネス推進担当部長を務める鉾木敦司氏を招き、大規模かつ複雑な環境における運用管理の要件を議論した。

 須藤氏の講演では、サーバー構築自動化ツール「Chef」、運用監視ツール「Zabbix」「Sensu」といったオープンソースソフトウエア(以下、OSS)も使いこなして課題解決を図るなど、エンジニア魂をもって“自分たちのスキルと力で解決する”一貫したスタンスが大きな聞きどころに。一方、鉾木氏は、課題解決の要件をあらためて整理・普遍化。その上で、要件を実装したパッケージを使うことで、多くの企業が抱えるスキル、コストなどの問題を解消しながら大規模インフラを安定運用する方策を示した。

 ビジネスにスピードと品質が求められている中で、講演ではこのようにOSS主体、パッケージ活用という二つの方針が示されたわけだが、これからの運用管理システムの設計者は、こうした大枠の方針をあらかじめ定めておく必要があるのではないだろうか。例えば「たとえ時間を要してでも、試行錯誤によってエンジニアを鍛え、スキルを蓄積すべき場合」はOSSを主体に、「スピードに重きを置き、一定の完成形を手早く導入した上でPDCAを回し、熟成させていく場合」は商用パッケージを主体に、といった具合だ。

 そうした大方針を踏まえた上で、ビジネスの状況、またインフラとIT部門の状況に応じて、さらに「OSSによるインフラ監視+商用パッケージによる統合コンソールのハイブリッドモデル」といった“いいとこ取り”をも模索するような、したたかさも必要なのではないだろうか?――ここでは講演のダイジェストをお伝えする。ぜひ参考にしてほしい。

巨大インフラの安定稼働を実現したサイバーエージェント

 サイバーエージェントの須藤氏は、「会員数200万人突破の学園恋愛ゲーム『ボーイフレンド(仮)』をはじめとする、巨大インフラ安定稼働の実現」と題して基調講演に登壇。コードを使ってインフラを構築・管理する「Infrastructure as Code」の考え方の下、サーバー1000台規模のインフラ運用をプロビジョニングツールで自動化した事例を紹介した。

※参考リンク:「ボーイフレンド(仮)」

ALT サイバーエージェントの須藤涼介氏

 須藤氏はAmebaソーシャルゲーム専任のインフラエンジニアで、チーム4人で約30サービスの運用を担当。「ボーイフレンド(仮)」は約70台のサーバーで構築したプライベートクラウドとオンプレミスのハイブリッド構成で運用している。

 約半数を締めるアプリケーションサーバーはプライベートクラウド上に構築されており、データベースはPCIe型フラッシュストレージでパフォーマンスを向上させるためオンプレミス環境に配置、「MHA for MySQL」で冗長化しつつ参照クエリをスレーブで受けている。

 「ソーシャルゲームでは日々さまざまなイベント(ゲーム中のイベント)を運用しているため、負荷の状態も日々変化します。サービス停止時間はそのまま機会損失につながること、流行り廃りがはげしいこと、ネイティブ化/リッチ化によってリアルタイム性が重要になってきていることが特徴として挙げられます」(同氏)

 従って、インフラの運用管理では日々のトラフィック変化や突発的な障害に、素早く対応することがシビアに求められている。そこで、この要件をクリアするために、オープンソースソフトウエア(以下、OSS)のサーバー構築自動化ツール「Chef」と構成管理ツール「Ansible」を採用して、自動化や作業自体の効率化、作業の再現性を高めることに取り組んだ。

 サーバー構築以外についても、構成管理ツール「Terraform」「Packer」「Roadworker」を導入し、Amazon VPCのネットワーク設定やインフラ初期構築をコード化。さらにサーバー増設時などに発生していた監視漏れに対応するために、OSSの運用監視ツール「Zabbix」「Sensu」「Mackerel」を使って、プロビジョニングツールで構築した時点で監視対象になるようにした。

 「Infrastructure as Codeの考え方の下、サーバーの構成・設定を標準化し、再現性を高めた結果、サーバー構築が圧倒的に楽になり、サーバーごとに設定が異なるといったことも減りました。コードを共有して学ぶという文化も生まれました。監視については、監視漏れ、設定漏れがなくなるなど、いいことづくめでした」(同氏)

 この他、須藤氏はアラートを精査する際のポイントや「属人性を減らすための情報共有の工夫」などを解説。今後の課題として、負荷やレイテンシへの継続的な対策、オートスケーリングへの対応、各種作業のスピードアップなどを挙げた。

 最後に、「開発スピードと安定運用は鶏と卵の関係だと思います。合理的に開発スピードを上げれば安定運用につながるし、安定運用しようと思えば開発スピード向上につながります。これからも問題意識を持って地道にできることを増やしていきたい」と締めくくった。

迅速なインシデント対応に必要な「お膳立て」とは

ALT 日本HPの鉾木敦司氏

 続いて日本HPの鉾木氏が登壇し、「迅速なインシデント対応に求められる視点と手段」と題して講演を行った。鉾木氏は、「インシデント対応を迅速に行うために必要な機能要件と非機能要件」を挙げ、運用管理においてイベント管理を高度化することの重要性を説いた。

 鉾木氏は、日本HPで「BSM(Business Service Management)」と呼ばれる運用監視ソフトウェア製品群の市場開拓責任者を務めている。日ごろから顧客の声やさまざまな調査に接する中で、ユーザーが既存の運用管理システムに限界を感じ、対応に困るシーンを多く目にするようになったという。

※参考リンク:日本HP、「動的に変化するインフラには、動的な運用管理アプローチが不可欠」(@IT)

 中でも講演テーマである「迅速なインシデント対応」は、運用管理の根幹といえるものだが、近年の複雑化したシステムにおいては、「インシデントの発生にいち早く気付き、何が起こっているかを診断し、迅速に修復することが一層難しくなっている」という。

 鉾木氏はまずそうした状況について、「インシデント対応が迅速にならない根本原因は、動的なITシステムに静的な運用管理システムが対応できなくなっているため」と指摘。事前に適切な「お膳立て」を行っておくことで、“動的なITシステムを動的に運用管理する”ことができるようになると主張した。

 この「お膳立て」とは、インシデントに効率よく対応するための“準備”のこと。具体的には、準備内容を実施するための直接的な要件である「機能要件」と、準備内容の陳腐化を防ぎ、鮮度を保つための間接的な要件である「非機能要件」に分かれるという。鉾木氏は「動的なシステムに対応するためには、今それらを“再定義”することが求められています」と強調する。

 「現場が困っている課題は、大きく二つに整理できます。一つは『情報の可視化』です。障害の根本原因を特定し、システム全体を可視化すること、ビジネスへの影響範囲やユーザーのサービス体験状況を把握することなどです。もう一つの課題は『自動化の採用』。運用管理プロセスを自動化するために、自動実行機能付きシステムを採用したり、システムの統一を行ったりする必要があります」――このうち「情報の可視化」は機能要件に、「自動化の採用」は非機能要件に相当する。

動的な運用管理に求められる4つの要件

 では「情報の可視化」の具体的な機能要件とは何なのだろうか? 鉾木氏は「実装すべき機能要件」として、「ITサービスの監視」「集約化」「フィルタリング」「トポロジー(構成依存情報)管理とのマッピング」「可視化(ダッシュボード)」を挙げ、それを実現する同社BSM製品群の管理画面を見せながら、4つのポイントを解説した。

ALT 情報の可視化に必要な機能要件《クリックで拡大》

 1つ目のポイントは、ユーザーに提供されているサービス状況の可視化だ。「サービスの状況はインフラの稼働状況だけを見ていても分かりません。サービスのことは直接サービスに聞くことが大事です」――鉾木氏はこのように述べ、監視画面を提示しながら、「プローブやサービス仮想化などを使って、サービスの実トランザクションや疑似トランザクションを収集し、ダッシュボードに分かりやすく表示する」仕組みの重要性を説いた。

 2つ目はトポロジー管理だ。階層化されたトポロジー情報に、監視システムからのステータスをマッピングし、“システム全体の状態を概観”することを可能にする。ツールによって構成の依存関係のビジュアルな表示や、表形式への切り替え、履歴の表示などを行うことで、“システムの今”を正確に把握することができる。

 3つ目はイベント管理だ。ポイントは「個別単体のイベント管理から1カ所に集約するイベント管理への転換」と「イベント同士の相関を分析し、根本原因をあぶり出すことができるイベント管理への進化」だという。これにより、人が見落としやすいイベントを確実に検知したり、トポロジー情報など複数のルールを組み合わせた相関分析処理を行うことで、人では迅速に検知しにくい根本原因をスピーディに把握することが可能となる。

 そして4つ目は定形作業の自動化。「必ず行うことになっている定型作業を自動化することが、インシデント対応を迅速化し、安定運用を大きく支える」。これらのうち、「トポロジーベースのイベント相関分析処理」は、「イベント管理を高度化するために、特に注目しておきたい技術だ」という。

 「トポロジーベースのイベント相関分析処理では、対象環境におけるインフラ、アプリケーション、サービス間の関連性をモデル化します。このモデルをベースに、発生したイベントをモデル上にマッピングすることで、根本原因の特定を迅速に実現することができるようになる仕組みです」

非機能要件を含めて標準化、プラットフォーム化を

 一方、非機能要件についても、BSM製品群のツール画面を提示しながら解説。「統合コンソール」「自動監視設定」「ITサービスの自動構成把握」の3つのポイントを紹介した。

 1つ目の統合コンソールでは、まず、システムを統合監視するための“艦橋(Operation Bridge)”が必要だという。これは各種監視ツールからの情報を一元的に集約し、外部システムや上部システムと連携するHUBとしての役割を担うものだ。また、そうした艦橋を実現するためには、ネットワークを構成するさまざまな機器からイベント情報を収集したり、既存の監視製品と連携できたりするコネクターも欠かせない。「製品選択の際は、連携できる機器の豊富さや大規模環境に耐えられる拡張性を考慮すべきだ」という。

ALT システム全体の状況を一元的に監視する“艦橋(Operation Bridge)”の概念図《クリックで拡大》

 2つ目の自動監視設定では、「監視対象の種別に応じて、監視テンプレートを自動アサインする機能」が重要になる。特に、「トポロジー情報を自動更新して、イベントとの相関を分析処理する機能」があれば、インフラを導入してその監視を行うまでがメンテナンスフリーになるため、運用管理の仕組みの維持が容易になるメリットが得られるという。

 3つ目はITサービスの自動構成把握。これは文字通り、ITサービスのシステム構成を自動的にモデル化して把握できるようにする機能。例えばITサービスのURLを入力するだけで、自動でログイン条件やそれを支えるインスタンスを把握しモデルを作成する。これを使うことでメンテナンス負荷を大幅に削減できるという。

 「ビジネスの需要予測が困難になる中、アジャイル開発やクラウド化によってビジネスに俊敏性を担保することが重要になっています。それを実現するためには、ITシステムの運用管理も俊敏であることが欠かせません。そのためには機能要件、非機能要件ともに、標準化/プラットフォーム化を施し、効率化を進めることが大きなポイントなるのです」

ALT 複雑化・大規模化したシステムを安定運用するために実現すべきポイント《クリックで拡大》

 最後に鉾木氏は、講演テーマである「迅速なインシデント対応に求められる視点と手段」のまとめとして、「ボトルネックをなくす」「動的には動的を」「機能要件と非機能要件」という視点と、その実現手段となる「ITサービスの可視化」「イベント管理の成熟化」「運用管理のプラットフォーム化」というキーワードを提示。「ビジネスに貢献できるような運用管理の仕組みを実現していってほしい」とアドバイスした。

本音で議論! 仮想化・クラウド・マルチクラウド環境の課題

 パネルディスカッションでは、@IT編集長の内野宏信がモデレーターを務め、須藤氏と鉾木氏が今日のインシデント対応の課題と解決策を議論。

ALT パネルディスカッションでは受講者から事前に募った質問にも回答した

 参加者から寄せられた「今現在のシステム構成を把握するのが難しいがどうすればよいか?」「従来のサーバー監視ツールでは安定運用が難しいがどうすればよいか?」「大規模システムを構築する上での製品の選定基準は?」「ROI算出はどうすればよいか?」「運用管理ツール、自動化が進行する中でのエンジニアの教育はどうあるべきか」などの質問に対し、それぞれの見地からアドバイスを送った。

 システムが複雑化する中、効率的で迅速な運用管理に対するニーズはますます高くなっている。今回紹介されたサイバーエージェントや日本HPの取り組みは、運用管理に悩む多くの企業担当者の参考になったようで、参加者は終始熱心に聞き入っていた。

 なお、本記事で紹介したサイバーエージェント須藤氏と日本ヒューレット・パッカード鉾木氏の講演資料は、アンケートに回答していただくとダウンロード出来る。是非、実際の講演資料も確認し、理解を深めて欲しい。

講演資料をダウンロードする

本記事で紹介したセミナーの資料をダウンロードしていただけます。ダウンロードしていただいた方の中から抽選で3名様にAmazonギフト券5000円分をプレゼントいたします。

※ダウンロードの際に、簡単なアンケートのご協力をお願いしております。


Copyright © ITmedia, Inc. All Rights Reserved.


提供:日本ヒューレット・パッカード株式会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2015年7月31日

講演資料ダウンロード

本記事内の講演資料はこちらからダウンロードできます。




サイバーエージェント須藤氏と日本ヒューレット・パッカード鉾木氏の講演資料はこちらからダウンロード出来ます。また、ダウンロードしていただいた方のなかから抽選で3名様にAmazonギフト券5000円分をプレゼントいたします。
※ダウンロードの際に、簡単なアンケートのご協力をお願いしております。

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。