13年運用した大規模インフラのリプレースを決断したZOZOTOWN、SREとデータがビジネスと開発のコミュニケーションハブになれた理由:ハイブリッドクラウドへの移行で生じる組織課題とは
Splunk Services Japanは2023年7月11日、都内で「Splunk Experience Day 2023 〜DXを阻害するリスクへの対応力 デジタルレジリエンスが変革するシンIT戦略」を開催した。基調講演と、事例講演「ZOZOTOWNにおけるIT運用とSplunkの活用について」の模様をレポートする。
より安全でレジリエントなデジタル世界を作ることを目指すSplunk
デジタルトランスフォーメーション(DX)は、デジタル技術を活用してビジネスや組織を変革する取り組みだ。変革そのものが難しいことに加え、ビジネス状況に合わせて変革し続けなければならない難しさもある。そのような中「ビジネスのレジリエンスを高める上で、デジタルレジリエンスがますます重要になっている」と主張するのがSplunkだ。
Splunk Services Japanは2023年7月11日に都内で「Splunk Experience Day 2023 〜DXを阻害するリスクへの対応力 デジタルレジリエンスが変革するシンIT戦略」を開催した。
基調講演に登壇した、同社 社長 執行役員 野村健氏と、執行役員 技術統括本部長 瀬島一海氏が、Splunkが目指すビジョンや企業がDXで抱える課題、セキュリティとオブザーバビリティ(可観測性)を高めるアプローチなどを解説した。
野村氏はSplunkのビジョンやアプローチをこう説明する。
「Splunkが目指すのは、より安全でレジリエントなデジタル世界を作ることだ。組織のDXが進むにつれて、ビジネスのレジリエンスを高める上で、基盤のひとつとなるデジタルレジリエンスがますます重要性を増している。レジリエンスの構築を阻むのは、環境の複雑化、ツールやチームのサイロ化と人材不足、コンプライアンスの統一や規制強化への対応などだ。Splunkは、セキュリティとオブザーバビリティの統合プラットフォームを提供することで、データ、ツール、ガバナンスの統合、人員の有効利用を支援する」(野村氏)
多くの企業が、システムの複雑化やスキルの獲得、増加するツール、チーム間の連携などに悩んでいる。これに対し、Splunkは、4つの方向性で機能を強化しているという。瀬島氏は製品の戦略や方向性をこう説明する。
「エッジ機能、データストア、サーチ機能、クラウド&オンプレミスという4つの領域で製品の開発と強化を進めている。オンプレミスのSplunkによる各種データの取り込み、各種データストアと連携したサーチ言語SPL(Search Processing Language)によるフェデレーテッドサーチ、SaaSとして提供する『Splunk Cloud』と連携したハイブリッドクラウドでのサービス提供などデジタルレジリエンスの向上を支援する」(瀬島氏)
「組織のサイロ化などの課題をどう解消していくか」について、具体的な事例を講演したのが、ZOZO 技術本部 SRE部・ディレクター 渡邉宣彦氏だ。渡邉氏は「ZOZOTOWNにおけるIT運用とSplunkの活用について」と題して、ZOZOTOWNが取り組んでいるシステムリプレースと、その中でSplunkが果たしている役割や活用方法を紹介した。
アーキテクチャ刷新を伴うシステムリプレースを決断したZOZOTOWN
ファッションECのパイオニアとして2004年にサービスを開始し、現在、1500以上のショップ、8400以上のブランドを取り扱うZOZOTOWN。幅広いジャンルを取り扱い、商品アイテム数は常時95万点以上、新着商品は毎日2900点以上を掲載する。その他、ファッションコーディネートアプリ「WEAR」や、「ZOZOSUIT」などの計測テクノロジーの開発も行っている。
ZOZOTOWNは国内有数規模のECサービスだ。そのシステムは大規模で、長い歴史を持つ。サービス開始時、システムは当時のベストプラクティスにのっとったWindows Serverベースのアーキテクチャで構成されていた。具体的には、「Microsoft Internet Information Services」(IIS)でアプリケーションサーバを、「Microsoft SQL Server」でデータベース(DB)サーバを構成。データに近い場所でビジネスロジックを処理することで高速性を実現していた。
「つい最近までアーキテクチャに手を入れずに規模を拡大してきた。それには、ビジネスのスピードを落とさないためにリリースを優先し、リファクタリングが必要になるようなアーキテクチャの刷新を検討してこなかったという事情に加えて、性能面で大きな問題が起きなかったという理由がある。当時はセールに合わせてWebサーバや参照系DBをスケールアウトする運用で、ピークを予測してハードウェアを調達していた。ただ、ハードウェアの調達はリードタイムがかかり、正確なピークを予測できない。年間で見ると余剰のリソースになり、投資が非効率になっていた」(渡邉氏)
加えてサービスが拡大する中で、スケールしづらい、古い技術要素、開発効率の低下、難航する人材採用といった課題を抱えるようになった。
そこで決断したのがアーキテクチャの刷新を伴うシステムのリプレースだ。2017年4月から取り組みを開始し、当時直面していた課題を解消するために、セールに合わせてスケール可能な「柔軟なシステム」、汎用(はんよう)的なミドルウェアやSaaSを利用する「技術のモダン化」、並行開発やリリースの自動化による「開発生産性向上」、技術情報をアウトプットすることによる「採用強化」を目標にした。
リプレースプロジェクトは2018年からスタートし、最初に着手したのが参照系ワークロードのクラウド移行だ。リプレースを進める専門チームを発足させ、オンプレミス〜パブリッククラウド間を専用線で接続して、ハイブリッドクラウドを構成した。
Splunk Cloudでハイブリッドクラウド環境での統合的な監視の仕組みを構築
ところが、今度は監視や運用の面で新たな課題に直面することになる。
「背景には、クラウドとオンプレミスの併用で複雑性が増したことがある。初期の移行計画は成功したものの、トレーサビリティーが低く、当時の監視や運用に改善すべき課題が大きく3つ生じた。1つ目は既存のアプリケーション構成による課題、2つ目は組織構造と監視のサイロ化、3つ目は従来の監視手法による課題だ」(渡邉氏)
1つ目の課題は、事業成長に追随するために従来の古い仕組みで開発を継続したことで、APM(Application Performance Management)がZOZOTOWNで採用していた開発言語をサポートしていなかったことだ。APMが使えないためにリプレースの難易度が高くなったという。
2つ目の課題は、旧環境の運用チームとリプレースを進める専門チームに分け、効率良くプロジェクトを進めたことが背景にある。初期のプロジェクトは順調に進んだものの、監視する製品のサイロ化が生じ、お互い見える範囲が異なるようになった。
「環境と運用チームを分けたことで責任分界点も明確になった。ただ運用組織が分かれたことで問題が起こったときに『オンプレミス側でエラーを吐いてない?』『クラウド側の問題では?』といったコミュニケーションをとるようになってしまった」(渡邉氏)
3つ目の課題は、CPU、メモリ、ネットワークといったメトリクスのデータを1枚の画面に並べて確認していたために、問題特定に時間がかかるという課題だ。
「従来のモノリシックなシステムからマイクロサービスへの移行によって運用する組織が分かれるのは必然だった。一方で、プロダクトに関連するマイクロサービスをできる限り網羅できるように可視化を進めることで、運用面の改善だけでなく組織面の改善にも寄与できると考えていた」(渡邉氏)
こうした中、導入を決めたのがSplunkのサービスだ。クラウド移行を前提としたことや運用負担を考慮し、クラウド版のSplunk Cloudを選定。2019年10月から5〜6人での利用を開始した。Webのログだけでなく、オンプレミスのIISのログとメトリクスを転送して可視化。サーバのパフォーマンス状況や、サーバからAPIへの内部通信の状況、DBのパフォーマンス状況などもSplunk上で可視化した。
「ハイブリッドクラウド環境での統合的な監視の仕組みを構築し、従来、確認しづらかった領域も含めて可視化することで、データを基にコミュニケーションをとれるようになった」(渡邉氏)
Splunkは導入後、システム監視だけでなく、ビジネス状況の可視化を含めたさまざまなシーンで活用されている。2023年7月時点で、ユーザー数は40人強に増え、取り込むデータ量も日次400GBから、日次4500GBに増加した。
SRE部の組織力向上だけではなく、開発組織のコミュニケーションの改善にも寄与
Splunkの活用シーンとしては、ZOZOTOWNへのアクセス状況が分かるダッシュボードがある。
「現在のアクセス状況やリクエストのステータスなどが分かる。従来はさまざまなツールを駆使して、CPUの負荷状況やアクセス状況を可視化していた。現在はSplunkでメトリクスとレスポンス、アクセス数とレスポンスなどを同じグラフに描画して生成することで状況をより把握しやすくなり、因果関係を調べるために画面を遷移する必要がなくなった」(渡邉氏)
より簡潔に状況を把握しやすい画面を作る場合もSplunkを活用している。
「これまでのようにメトリクスのデータを1枚の画面に並べて確認する仕組みでは、問題が起きているサーバと起きていないサーバの切り分けが難しくなる。そこで、より簡潔に情報を把握するダッシュボードを作成している。例えば、CPUの負荷状況をレンジで色分けし、一目で把握できるようにパネルを表示している。ダッシュボード間の連携を組むことで、別のダッシュボードに遷移させてから情報を深掘りできるようにもなった」(渡邉氏)
また、「特定のサーバや特定URIだけがエラーを発生していないかどうか」といったエラー状況についても、ダッシュボードにすることで簡単に分析できるようにした。さらに、月次で確認するSLO(Service Level Objective)ダッシュボードもSplunkで作成している。
「問題があったらパネルの色が変わる上に、『なぜSLOの基準に達成しなかったのか』を深掘りする仕組みも用意している。SLOを月次で追い掛けると、何らかのリリースがあった際に、ポジティブにもネガティブにも反映される。レスポンスタイムなど過去数カ月の推移を追い続け、『いつ何が起きたのか』を確認することが容易になった」(渡邉氏)
その上で、渡邉氏は、Splunkで実現できた点とZOZOに起こった変化について次のようにまとめた。
「ZOZOTOWNの可観測性が大きく向上し、データを用いてコミュニケーションをとることが基本になった。SREだけでなく開発者もSplunkでサービスの稼働状況を把握できている。SRE部の組織力向上だけでなく、社内組織間のコミュニケーション改善にも寄与したと考えている」(渡邉氏)
Copyright © ITmedia, Inc. All Rights Reserved.
関連リンク
提供:Splunk Services Japan合同会社
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2023年9月20日