リクルートの“4万5000台VDIプロジェクト”の運用監視基盤でなぜ「Zabbix」が選ばれたのか?Zabbix Conference Japan 2017レポート

Zabbixのユーザーやパートナーが集う毎年恒例のイベント「Zabbix Conference Japan 2017」が11月17日に開催された。本稿では、当日の模様をレポートする。

» 2017年12月13日 10時00分 公開
[PR/@IT]
PR

 オープンソースソフトウェア(OSS)の統合監視ツール「Zabbix」のユーザーやパートナーが集う毎年恒例のイベント「Zabbix Conference Japan 2017」が11月17日、東京・品川で開催された。Zabbixの創設者兼CEOをはじめ、ユーザーやパートナーからさまざまなソリューションや事例が紹介された。当日の模様をレポートする。

「3.4は過去最高のリリース、4.0ではさらに機能を強化」

Zabbixの創設者兼CEOのAlexei Vladishev氏

 オープニングを飾ったのは、Zabbixの創設者兼CEOのAlexei Vladishev氏だ。Zabbixの生みの親としてZabbix開発をリードするVladishev氏は「Zabbix: what to expect in the future」と題し、Zabbixの最新動向を解説するとともに、次期バージョン4.0の展望を示した。

 Zabbixは、Fortune 500企業のうち50社以上で利用され、大規模環境で多く使われているのが特長だ。パッケージリポジトリへのアクセス数は毎月100万に達し、売り上げは毎年50%増で成長を続けている。最新版のバージョン3.4では、ダッシュボードやマップの強化、設定管理の効率化などが施された。

 「バージョン3.4は過去最高のリリースです。しかしコミュニティーからは少なくともあと2000の機能が欲しいという声が聞かれます。そこでバージョン4.0や4.2では、さらなる機能強化と改善に取り組みます」(Vladishev氏)

 具体的には、下記の機能強化と改善を考えているという。

  • 統合的な可視化を実現する統合ダッシュボードの提供
  • 根本原因の解析と究明を行うための障害間の関連性可視化や、より複雑なイベント処理(重複の排除、フィルタリング)
  • サービスを中心とした可視化
  • パフォーマンス向上
  • セットアップや配布の簡素化

 最後にVladishev氏は「今後も、Zabbixをより効率的にユーザーが自由にカスタマイズでき、より使いやすいものにしていくことを目指していきます」と述べ、講演を締めくくった。

すぐ始められて、働き方を変革できる運用管理のクラウドサービス

サイバー・ソリューションの坂本慶氏

 続いて、サイバー・ソリューションの坂本慶氏が登壇し、「NOCaaS System Management Platform with Zabbix」(以下、NOCaaS、読み「ノーカーズ」)を紹介する講演を行った。NOCaaS は、IT運用管理に必要な監視機能や情報管理機能を提供するサービスプラットフォームだ。監視基盤にZabbixを採用し、クラウドサービスとして提供される。

 「NOCaaSには大きく3つの特長あります。1つ目は、システム運用管理がすぐに始められること。難しい専門知識は必要なく、初期費用もほとんどかかりません。2つ目は、運用現場の働き方を変革できること。より短い時間で効率的に運用でき、場所に縛られないワークスタイルを実現できます。3つ目は、複数の事業者での協調や協働が可能なこと。関係会社と協力しながら、サービスのインテグレーションやマネジメントを実現できます」(坂本氏)

 システム運用の現場は、人手に頼った非効率な現場にとどまっていることが少なくない。外部のアウトソース会社やサービスベンダーとの協業も難しく、常駐や自社運用になりやすかった。NOCaaSは、Zabbixとクラウドを活用することでこれらの課題に対応する。

 坂本氏は「NOCaaSは、クラウド環境でもオンプレミス環境でもサービスの利用が可能です。専用のWebコンソールを使うことでZabbixの豊富な機能を分かりやすく利用できます」とアピールした。

約4万5000台のVDIシステムをZabbixで統合監視するリクルートグループ

リクルートテクノロジーズ ITソリューション統括部インフラソリューション1部 社内インフラ3グループの石光直樹氏

 注目の事例講演となったのが、リクルートテクノロジーズ ITソリューション統括部インフラソリューション1部 社内インフラ3グループの石光直樹氏が行った、リクルートの大規模VDI(Virtual Desktop Infrastructure:仮想デスクトップ基盤)システムの監視事例だ。

 リクルートテクノロジーズは、リクルートグループのIT、ネットマーケティング領域のテクノロジー開発を担う会社だ。近年の大きな取り組みは、リクルートグループの働き方変革に向けた、リモートワークやセキュリティ、PC管理コスト削減の推進だ。リクルートグループでは全国700拠点3万台のPCが稼働しており、年3000〜5000台というペースで増加している。そんな中、社内外を問わず安全に働く手段として導入したのがVDIだった。

 「安全性を確保したセキュアVDIを約1万5000台、利便性を確保した標準VDIを約3万台、のように2つのVDIを用意することでセキュリティと利便性の両立を図りました。トライアルから2年以上がたち、VDIプロジェクトは現在も進行中です。2018年度からはVDI基盤上でのWindows 10移行に取り組む予定です」(石光氏)

 こうした大規模VDIシステムの運用監視基盤として採用されたのがZabbixだ。石光氏によるとVDIは「まだ技術として枯れていない部分がある」と言う。実際、同社ではプロジェクタにつなぐとPCが固まったり、直接関係ないネットワーク機器の試験時にVDIが全てつながらなくなったりといったトラブルに遭遇した。

 「VDI運用ではいろいろなトラブルが起こります。ユーザーに影響が出る前にトラブルを見つけて、影響を極小化することが極めて重要です」(石光氏)

 監視基盤でZabbixが採用された理由は、OSSとして入手しやすく検証に早く取り組めたこと、既に社内ネットワークや社内クラウドで監視実績があったこと、Zabbixを触ったことがあるエンジニアが多かったことなどがある。

 構成としては、監視サーバ、監視プロキシサーバを分割し、1970台のサーバやネットワーク機器、ストレージを監視する。プロキシサーバの設置やマスター/スレーブのActive-Active構成によって高可用性と負荷分散を実現している。またプロキシ構成にすることで、システム全体の統合監視を行いながら、2つのVDIの環境分離も同時に実現している。

リクルートテクノロジーズが行ったZabbixの構成

 「初期構築時のアイテムは約2万3000件、トリガーは約2万5000件ありましたが、2人×2人月で構築、試験を完遂できました。設計時に行った工夫としては、『オートディスカバリやローレベルディスカバリの活用』『エージェント導入やテンプレート、グループ設定のスクリプトによる自動化』『監視パラメーターの一括インポート』などがあります」(石光氏)

 また、監視時にもさまざまな工夫を凝らした。まず、負荷分散装置のトラブルでVDIが不安定になることに対処するため、Zabbixとスクリプトを組み合わて、特定メモリの使用率高騰を検知して、事象を回避する仕組みを構築した。また、特定メモリのクラッシュでは、メーカーの仕様で「SNMP」(Simple Network Management Protocol)が利用できなかったため、「Syslog」転送で検知からフェイルオーバーまでを実現した。

 運用面では、アラート頻発による対応コストの増加に対応するため、ZabbixとVMware PowerCLIと組み合わせて、正常性の確認を含めて全て自動化し、効率化した。

 石光氏は、Zabbixについて「技術者もナレッジも多く、社内に知っている人も多いので話が早く進みます。またコンサルティングサービスが素晴らしい。レスポンスが早く回答の質が高いので大変助かりました」と高く評価した。

Zabbixのフロントエンドを使いやすく

SRA OSS日本支社 マーケティング部OSS技術グループの赤松俊弘氏

 Zabbixのフロントエンドを使いやすくという視点から講演を行ったのが、SRA OSS日本支社 マーケティング部 OSS技術グループの赤松俊弘氏だ。

 SRA OSSでは、PostgreSQLを中心としたOSSの技術サポート、構築、コンサルティングを行っている。赤松氏はその中でも、ZabbixやHinemosなどを担当している。

 赤松氏はまず、Zabbixのフロントエンドに寄せられるユーザーの声として「障害の影響範囲をフロントエンドで確認しやすくしたい」「画面の切り替えなしでいろいろな情報を確認したい」などの課題があることを紹介。そこでSRA OSSが開発したのが「Premija Viewer for Zabbix」(Premija Viewer)だ。

 「Premija Viewerは、複数のZabbix Serverを統合監視します。柔軟なイベント検索や監視対象の可視化、障害対応状況の分かりやすい管理、把握が可能です。操作も直感的でドリルダウンを行ったり、詳細なイベント/ホスト情報を表示できたりします。導入もシンブルです」(赤松氏)

 ユーザーのニーズをくみ取りながら、さらに機能を改善していく予定だ。最後に赤松氏は「Premija Viewer for Zabbixで、Zabbixのフロントエンドをより使いやすいものにしたい」と述べた。

「Interop Tokyo 2017」におけるShowNetの運用監視事例

ニュータニックス・ジャパンの鈴木孝規氏

 2つ目の事例講演で登壇したのは、ニュータニックス・ジャパンの鈴木孝規氏。「Interop Tokyo 2017におけるShowNet運用監視について」と題し、ZabbixによるShowNet運用監視の舞台裏を明かした。鈴木氏は、2015年からShowNet NOCチームメンバーとして、モニタリングや無線LANを担当してきた。

 「最新鋭の技術、機器を使ってネットワークのデモンストレーションを行うShowNetの特色は、やることが短期間で大きく変わることです。物理構築から機器の設定、障害試験、負荷試験、引っ越しまでを次々とこなし、会期中はシステム、ネットワーク、セキュリティの運用も行います」(鈴木氏)

 ShowNetでは、ログの欲しい機器が大量にあるのに、ルーターに設定できるログの宛先は限界があるといったことも少なくないため、ログを集約して、受信し、他の監視ツールにログを分配する技術を使っている点が特色だ。ShowNetモニタリングチームは、「可能な限り全ての機器から全てのログを集めること」「チームごとの稼働状況を見ること」「人と機器のログを突き合わせて現状を把握すること」を方針として掲げて取り組んだ。

 「ログ監視と通知は、ノイズとの闘いです。運用監視インタフェース(UI)はZabbixからのSlack通知。『alert』チャンネルから通知が来ると該当箇所を確認します。通知内容は、毎日変わります。日々、変化する環境ではフィルターの精査が重要で、失敗するとスマートフォンが鳴りやまなくなります」(鈴木氏)

 2017年のShowNetモニタリングのテーマは大きく3つあった。

ShowNetモニタリングの3つテーマ

 1つ目は、効率的なログ分析と機械学習による異常検知だ。最大Syslog数は1日当たり1億7619万件、最大TCPコネクション数は1日当たり6372万件に達する。問題が予測できる箇所で従来技術を適用する一方、ログを全て見ることが不可能なところでは機械学習を活用した。

 「機械学習によるアノマリ検知は、見つけにくいものを見つけるという点では有効でした。ただ機械学習によるアラートが正しかったかの検証は必須で、特に変化の多いShowNetでは最終判断は人間が行っていました」(鈴木氏)

 2つ目は、統合監視と個別監視/環境監視による広範囲のモニタリング機構だ。1つのツールでは、システム全体をカバーできないので、統合管理ツールなどによってSyslogからSNMP、「SNMP Trap」「xFlow」までをトータルで管理し、把握。機器の設定を1時間ごとにバックアップし、差分の状態を統合監視ツールで確認することで、設定の保存漏れによるトラブルを防止した。

 また、不正端末の検出ツールや電力監視、気圧/温湿度センサーを統合管理ツールに集約。通知をSlackで行ったが、フェーズ別に通知ポリシーを見直したり、必要なときに必要なログがすぐに見られる環境を整備したりした。

 3つ目は、リアルタイムネットワークテレメトリーによる可視化だ。従来技術だけで可視化を実現しようとすると、リアルタイムな情報が取れなかったり、xFlowはサンプリングしないと全フローを出せなかったり、既存管理手法では仮想スイッチやサービスチェイニングが見えにくかったり、とさまざまな課題があった。

 そこで、APIを使ったリアルタイムデータ取得や、エンドユーザーのレスポンス監視、ネットワークタップからの全パケットをキャプチャーすることによるサービスチェイニング状況の可視化といった工夫を施した。大規模化したシステムにおいてミリ秒単位でログを収集すると、順番が分からなくなる可能性がある。マイクロ秒単位での時刻同期が重要になるため、PTP(Precision Time Protocol)の実証実験もShowNetで取り組んでいた。

 Zabbixは、xFlow、生パケット、L1情報以外の全ての機器から出てくるSyslog、SNMP、SNMP Trapを管理対象にした。統合監視や温湿度管理、Slack通知、ルーティングテープルの状態監視などで大きな役割を果たすことになった。

 最後に鈴木氏は「幕張メッセの何もない会場にラックを立てて、常時100人を超えるエンジニアが集まり、毎日、朝と夕方にミーティングを行い、意識を合わせた上でシステムを構築しています。会期中は設計構築の中心であるトポロジー図の変更回数が、数十回あります。修羅場に見えますが、多くのエンジニアが楽しんで参加しています。興味がある人はコントリビューターやShowNetチームメンバーとしてご参加ください」と述べ、講演を締めくくった。

5周年を迎えたZabbix Japan、ビジネスが順調に伸びている理由とは

Zabbix Japan代表の寺島広大氏

 続いて、Zabbix Japan代表の寺島広大氏が登壇。「Zabbixから見たオープンソースの開発とビジネスの裏側 #2」と題して、Zabbix Japanの活動の振り返りと、今後の取り組みを展望した。

 5周年を迎えたZabbix Japanだが、サポートやトレーニング、開発サービスを主力とするビジネスは順調に増加している。2012年当時、社員数は2人、国内パートナー10社だったが、2017年は社員8人、パートナーは49社まで拡大した。

 「ビジネスと言うと、売り上げや利益、成長率を重視しがちです。ただ、Zabbix Japanでは、ビジネスを開発やサポートを継続していくための活動と捉えています。急な成長よりは継続的な成長を目指しています」(寺島氏)

 素晴らしいソフトウェアがあっても何もせずに広まっていくわけではない。そこで重要になるのがマーケティングだ。Zabbix Japanでは、ソフトウェア自体を宣伝広告と捉え、利用ユーザーを増やしたり、認知度向上に向けたイベント出展やセミナー開催に取り組んだりしている。

 寺島氏は「ゆっくりでも確実に改善を積み重ねること、まずは周囲の人がハッピーであることを心掛けています。そのために、サポートエンジニアやパートナーアライアンスも募集しています。また、バージョン4.0に向けて国内からのリクエストも受け付けています」と今後の継続的な成長に向けて協力を呼び掛けた。

マルチクラウドのシステム運用を自動化、ポイントはZabbix

インターネットイニシアティブの柳井浩平氏

 運用サービスの自動化の視点からソリューションの紹介を行ったのは、インターネットイニシアティブの柳井浩平氏。

 柳井氏はまず、マルチクラウドが普及する中、システム運用がサイロ化し、対応オペレーターが不足している現状に触れながら、「人に依存した運用からますます抜け出せなくなっている」と指摘した。こうした課題を解決するのが自動化ソリューションだ。

 「アラート処理から原因調査、対処方法、復旧作業までのオペレーションの流れを自動化することで、属人運用からの脱却を図ります。そこでポイントになるのがZabbixです」(柳井氏)

 まずアラートの集約では、オンプレ環境のシステムだけでなく、Amazon Web ServicesやMicrosoft Azure、IIJ GIOなどのマルチクラウド環境で、Zabbixを使って取り組んでいる。その際、本当に必要なアラートかどうかを判定し、不要なものや重複したものを排除しながら、自動でチケットを起票するところがポイントだ。

アラートの要否を判定して、重複排除し、自動処理を行う

 また原因調査では、監視アラートだけでは、アプリケーションの挙動が分からないため、エラーログを取得して、問題が合った箇所の前10行、後60行を表示し、どこにどんな問題があるかを簡単に確認できるようした。

 その上で、対処と復旧の自動化に取り組んだ。単なる自動処理だけではなく、「プロセスを確認した上でApache Tomcatを再起動する」といった、プロセス状況に合わせた再起動の可否を決められる柔軟な仕組みがポイントである。「Ansible」などのツールを使った自動化も可能だ。

 柳井氏は「2012年からSaaSとしてソリューションを提供し、これまで80件の機能改善や機能拡充を実施しました。システム運用者の毎日をもっと楽にするため、これからも革新的な機能の提供に努めていきます」と語った。

外部ネットワークとの通信に「Zabbix proxy」を使いLGWANに対応

HARP プロジェクト推進部IT基盤グループの外崎幸大氏

 3つ目の事例講演には、北海道自治体向けクラウドサービスにおいてZabbixを採用したHARPが登壇した。

 HARPは札幌市に本社を置く、自治体と民間が第三セクター方式で共同設立したシステム会社だ。共同アウトソーシングの取り組みを通じて電子自治体の実現を目指す「HARP」(Harmonized Applications Relational Platform)構想の実現を目指している。

 講演を行ったHARP プロジェクト推進部IT基盤グループの外崎幸大氏は、Zabbix導入以前の運用課題について「サービスごとに監視ツールが導入され、管理が煩雑になっていた」「有人監視オペレーターの監視レベルにばらつきがあった」「一元的な監視ができずに障害特定に時間がかかっていた」ことを挙げた。そこで、監視ツールと監視水準の統一、監視運用の効率化を図るためにZabbixを導入した。

 「Zabbixを採用した理由は、OSSを積極的に活用することによるコスト削減や、特定のベンダーに依存しない自治体主導の電子自治体の提供が可能なことでした。北海道の自治体は、179市町村と全国の市町村数の10分の1を占めます。数は多いものの予算は限られています。そうした環境にZabbixは適していました。また、当時はトライ&エラーが許容されていたことや、Zabbixコミュニティーの活発さも大きな魅力でした」(外崎氏)

 導入後は幾つか課題を感じることもあった。例えば、監視マップの作り込みや、監視ホストの手動登録は手間だった。また、監視登録直後にWindowsのイベントログアラートが大量に通知されたり、トラップやログ監視で短期間に複数の障害を検知すると誤検知があったりした。クライアント証明書対応のWebページが監視できないという課題もあった。

 「こうした課題は運用でカバーしていましたが、バージョン2.0から2.4へのバージョンアップとともに自然に解決されました。アイコン自動マッピングや、ホストグループ内ホスト登録、アクティブエージェントの自動登録、監視値の取得精度のナノ秒対応、クライアント証明書対応などが追加されたためです」(外崎氏)

 北海道自治体向けクラウドサービスは、「LGWAN」(総合行政ネットワーク)を使って提供されるサービスだ。LGWANを採用する際にはネットワークが所定の条件を満たす必要があり、Zabbixの構成もその条件に沿うかたちで導入されている。

 例えば、LGWANは外部ネットワークと直接接続できない決まりがある。そのため外部ネットワークと通信する際は「Zabbix proxy」を活用した。また複数の基盤を管理するために統合管理基盤を作って管理しているが、基盤ごとのIPが重複する課題もあった。そこでもZabbix proxyを活用して対処した。

 また他のOSSとの連携性が高いこともZabbixの魅力の1つだ。現在は、ログ収集と解析を「Fluentd」で行い、情報の整理に「Kibana」と「Elasticsearch」を利用。その解析結果をZabbixに送信している。ログ解析が得意なFluentdと連携することで高度な監視が可能になる。

北海道自治体クラウドサービスとZabbix運用環境

 「ZabbixはOSSであり、他システムとの連携に関する情報が広く普及しています。また、ユーザーのニーズに遅れることなくリリース対応があるので将来的な安心感があります。サポートが充実していることも魅力です。質の高い活発なコミュニティーがあり、実装レベルで解決につながる有用な情報が豊富です。監視ツールは一般的に多機能でノウハウの習得が大変ですが、Zabbixは監視テンプレートとしてノウハウを残せたり、アップグレードしても操作方法が変わらなかったりする点が気に入っています」(外崎氏)

 外崎氏は最後に「Zabbixはテンプレートで追加された監視アイテムの変更が難しい点や、Windows OSコマンドの実行結果のエンコード、Web監視のSSLピア検証でのメモリリークなど幾つか気になるところもあります。ただ、これは新バージョンで改善していくと思っています」と今後への期待を寄せ、講演を締めくくった。


 この他にもイベントではさまざまなパートナーがソリューションや事例を披露した。セッション終了後は懇親会も開催され、トレーニングなど豪華景品が当たる抽選会やライトニングトークも行われた。毎年300人近くの参加者が集結するZabbix Conference Japan。2017年は、例年にも増して熱気あふれる開催となった。

本稿でレポートしたZabbix Conference Japan 2017の講演資料やカタログは下記のWebページからダウンロードできます。


Zabbix Conference Japan 2017の様子

Copyright © ITmedia, Inc. All Rights Reserved.


提供:Zabbix Japan合同会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2017年12月26日

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。