バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズといった、データを武器にしていかなければならない企業は、データ分析基盤をどのように進化させているか。Google Cloudが2020年3月31日に開催したGoogle Cloud Data Platform Dayで3社が語った、それぞれのデータ基盤改革をお伝えする。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Google Cloudが2020年3月31日にオンライン開催したGoogle Cloud Data Platform Dayでは、バンダイナムコエンターテインメント、DeNA、リクルートテクノロジーズが、それぞれのデータ基盤改革について語った。3社共通に、新データ基盤ではクラウドを採用し、コストを重視しながら拡張性と性能を確保する一方、機動性と柔軟性の向上を指向している。
バンダイナムコエンターテインメントでは、タイトル、キャラクター、コンテンツなど多数に上るIP(知的財産)の「出口、地域、タイミングを最適化して価値を最大化する」取り組みを全社的に進めている。だが、従来はデータがサイロ化しており、情報の蓄積、閲覧、分析はサービスごとに行われていた。これを顧客起点で統合分析できるようにする必要があった。
そこで、Google Cloud Platform(GCP)のデータウェアハウスサービス「Google BigQuery」に、アプリ、Web、アンケート、ECサイト、ソーシャルネットワーク、問い合わせなどのデータを「顧客データベース」として一元化し、統合利用を図っている。以前は、一部でデータ分析のために「Amazon RedShift」を使っていたが、ストレージコストと性能の点で課題があり、BigQueryが標準SQLに対応した時点でこちらを選んだという。
BigQueryは高性能、低コストで、使いやすいという。性能は数秒で数十億レコードをフルスキャンできるレベルであり、「あまりにも速いので、パフォーマンスを気にしながら抽出するのではなく、データに集中できる。データ取得までの時間が短いため、データを基に仮説検証をしていくのではなく、事実から(直接)検証していける」(バンダイナムコエンターテインメント NE事業部 ビジネス企画部の田中大樹氏)。BigQueryのコストについては、利用分だけの課金であるため、クエリの工夫によって抑えることができる、またキャッシュが効く、with句による中間生成データが結果算出に使われない場合は課金されないといったメリットもあると、田中氏は説明した。
使いやすさに関しては、パフォーマンスチューニングを気にしなくてよいという点が大きいという。BigQueryでは、テーブルインデックス、ソートキー、データの保存場所などの指定が不要。「インデックスが不要だと、とりあえず貯めてから分析に取り掛かれる」(田中氏)。また、バンダイナムコエンターテインメントがBigQueryに格納しているデータは、現在2PB(ペタバイト)以上に達しているが、これまでにストレージ上限緩和申請をしたことはないという。さらに、こうした統合データ基盤では権限管理やコスト管理が課題になるが、GCPプロジェクト単位での権限制御と料金管理ができる一方で、プロジェクトをまたいだJoinを行えるのが便利だという。
DeNAでは、オンプレミスで主にHadoopおよびVerticaを用い、約10年前から同社サービスのデータ基盤を運用してきた。ゲームタイトルで15以上、他のサービスでは5以上をカバーし、BI(ビジネスインテリジェンス)ツールの月間アクティブユーザーはDeNAグループ全社員の4割に当たる1000人強に上っているという。アナリストはエンジニアに頼らず、自らバッチジョブ管理や、集計・分析スクリプトを作成・実行している。これまでの利用の広がりの経緯から、多様なサービスチームが、サービス単位の権限管理の下で、同一のクラスタ、サーバにログインしてデータを活用するようになっているという。
だが、同一のシステムリソースを多様な利用者が共用する手法では、「最新のPythonライブラリを使いたい、GPUを利用したいなどのニーズに対し、事業や案件ごとの要件に合わせた対応が複雑化し、機敏に行えなくなってきた」(ディー・エヌ・エー システム本部 分析推進部 データプラットフォームグループ 長谷川了示氏)。
そこでDeNAでは、「ポリモフ」と呼ぶ新データプラットフォームを構築し、移行を進めている(2020年度中に移行完了の予定)。サービスごとに環境を分離し、ワークロードごとにリソースを分離するため、パブリッククラウドに移行することにした。GCPを選択した理由は、BigQueryだったという。既存の分散データベース製品に比べ、桁が1つ少ないほどの低コストである一方、拡張性と性能が自動的に確保される点が魅力だったという。
データウェアハウスとしてBigQueryを選んだことで、アカウントや権限、コストが一元管理でき、システム間連携の鍵管理をGCPに任せられるメリットから、新プラットフォームを全体的にGCPで構築することにした。
DeNAでは、分析対象のサービスごとにGCPのプロジェクトを割り当て、権限やコストの管理を分離している。さらに、BigQueryへの集計クエリやデータ処理を行うワークロードを、「Google Kubernetes Engine」(GKE)上でそれぞれ別コンテナとして実行することで、分離している。
コンテナで稼働するワークロードとしては、オープンソースソフトウェア(OSS)のdigdag(バッチジョブ管理やBigQueryに対する集計SQLの発行、カスタムバッチ処理の実行を担う)、利用者が好きな言語で書くカスタムバッチ処理、事業や案件に特化した可視化ツールなどのWebアプリケーションがあるという。
カスタムバッチ処理とWebアプリケーションについては、利用者側が作成し、実行するようになっている。ユーザーにとっての自由度を高めながら、コンテナによる分離によって、個別のカスタマイズが他に悪影響を与えることを防いでいる。
事業や案件ごとに発生するGPUやメモリなどの多様なリソース要求については、異なる構成のノードプールを複数用意し、これにオートスケールを組み合わせることで、ユーザーが自ら必要な時に適切なノードを起動して使えるようになっている。
Copyright © ITmedia, Inc. All Rights Reserved.