“クラウドらしさ”をどう実現する?――「安く」「速く」「手間がかからない」データ分析基盤を構築する方法とはオンプレミスの考え方のままだと「高く」「遅く」「面倒」に

IoT、AI、FinTechといった取り組みが進む中、多くの企業がビッグデータの分析基盤の構築場所として、「クラウド」を採用し始めている一方で、クラウド上で分析基盤を構築、運用する際の課題や注意点も顕著になり、頭を悩ますインフラ担当者も増えてきたのではないだろうか。Google Cloud PlatformのBigQueryを使った分析基盤構築を手掛けるgrasysに、クラウド上に分析基盤をうまく作り、運用する際のポイントを聞く。

» 2018年02月13日 10時00分 公開
[PR/@IT]
PR

実は落とし穴が多いクラウド分析基盤

 IoT(Internet of Things)、AI(人工知能)、FinTechといった取り組みが進む中、ビッグデータをどう分析し、ビジネスに生かしていくかが重要になってきた。そのカギを握るインフラとして注目されているのがクラウド上に構築されたデータ分析基盤だ。

 注目されている理由は大きく2つある。

 IoTやFinTechなどにおけるデータ分析では、各所に分散したデバイスやサービスから収集される膨大なデータを統合的に管理することが求められる。そのため、どこからでもアクセスできるクラウドは分析基盤の構築場所として都合がいい。

 もう1つは、クラウドやオープンソースソフトウェア(OSS)を活用することで、少ない予算でも効率的に分析基盤を構築できるようになったことだ。クラウド上に分析基盤を作るソフトウェアやサービスには、さまざまなものが提供されており、最近では、OSSを中心にバッチ処理やリアルタイムのストーム処理などを行う「フレームワーク」や「ライブラリ」も充実してきた。クラウド上で分析基盤を構築するには、それらを組み合わせるのが一般的になっている。

 例えば、データの基になるログを収集する段階ではログ収集のエージェントソフトウェアやサービスを、ログの蓄積やデータ抽出処理の段階ではデータウェアハウス(DWH)用のサービスやETL(抽出/変換・加工/ロード)用のソフトウェアを、データ分析や可視化ではクラウドに対応したBIツールや全文検索システムなどを、といった具合に組み合わせていく。

 ただ実際に構築し、運用してみると、予想以上の困難に直面する。例えば、「コストをかけずに安く始められると思ったのに、大量のデータに大量のクエリを出したら、法外な料金請求がきた」「オンプレミスよりも早く処理が終わると思ったのに想定していたパフォーマンスが出なかった」「分析基盤の管理に予想以上の手間とコストがかかった」などだ。

 こうした事態に対し、「『簡単にできそうだ』と思い、取り組んでみたら、思わぬ落とし穴にはまるのが『クラウド上のデータ分析基盤』です。自社のリソースや、分析する対象に合わせて利用するツールをうまく使いこなすことが求められます」とアドバイスするのが、grasysのSRE(Site Reliability Engineering)を務める守永宏明氏と、エンジニアである樋口健二氏だ。

 ビッグデータ分析の重要性が高まる中、分析基盤をうまく作り、運用するコツは何か。grasysが実践している方法論やアプローチ、ツール選択のポイントなどを聞いた。

クラウド上のデータ分析基盤が「高く」「遅く」「面倒」になるワケ

grasys SREの守永宏明氏

 grasysは、「Google Cloud Platform」(GCP)を使って、オンラインゲームやソーシャルゲームのインフラ基盤を構築することに強みを持つシステム会社だ。ソーシャルゲーム企業のgloopsでインフラ構築やアプリ開発を手掛けていたメンバーが中心になって2014年11月に設立された。

 「オンラインゲームやソーシャルゲームは、扱うデータ容量やトランザクション量が一般的な企業情報システムに比べて桁違いに大きい。そのため、そこで培った方法論やアプローチは、エンタープライズ向けのデータ分析基盤に生かすことができる」と守永氏は言う。

 実際、これまでに多くの企業から「どうすればクラウド上のデータ分析基盤のパフォーマンスを上げられるか」という相談を受けてきた。それに対し、データ分析基盤を、GCPの「BigQuery」へ移行することを提案し実施したところ、大幅なパフォーマンス改善が実現できたという。

 そこでgrasysは、エンタープライズ向けにデータ分析基盤をBigQueryへ移行するサービスや、データ分析基盤を新規で構築するサービスの提供を開始。現在、さまざまな企業から依頼が相次いでいる状況だ。

 守永氏は、クラウド上の分析基盤が抱えがちな課題について次のように話す。

 「まずオンプレミスの考え方のまま、クラウド上にデータ分析基盤を構築しようとするとうまくいきません。オンプレミスよりも高く、遅くなることもあります。ポイントは、『クラウドらしさ』を引き出すこと。オートスケール機能やマネージドサービスを活用することで、高いパフォーマンスの分析基盤を少ないコストで構築し、手間をかけずに運用できるようになります」

 言い換えると、クラウド上の分析基盤であっても、クラウドらしさが引き出せないと「高く」「遅く」「面倒」なものになるわけだ。

 例えば、「コスト」については、転送量やクエリによって課金額が想定以上に増えていくことがある。データ分析に使用するログはオブジェクトストレージに格納されることが多い。容量の心配がなく、無制限に蓄積することはできるが、取り出す際には転送量がかかる。これが予想外のコストになってしまう。

 「パフォーマンス」の課題も大きい。負荷が高まったときにもスケールさせて対応できるのがクラウドのメリットだが、IaaS(Infrastructure as a Service)上にデータ分析基盤を構築すると、そもそもオートスケールできなかったり、オートスケールを実現するためにさまざまな設定が必要になったりすることがある。

「Google BigQuery」の強み

grasys エンジニアの樋口健二氏

 では、どうすればクラウドらしい分析基盤を構築、運用できるのか。そこで大きなポイントになるのがBigQueryだ。BigQueryは、GCPで提供されるDWHサービスで、他のクラウドDWHサービスにはない特徴があるという。

 「GCPは、Amazon Web Services(AWS)やMicrosoft Azureといったクラウドサービスにくらべてやや後発という印象を持たれるかもしれません。ただBigQueryは、Googleのインフラの処理能力を使用しており、『安く』『速く』『手間がかからない』サービスになっています」(樋口氏)

予想外のコストがかからない

 特徴としてはまず、予想外のコストがかからないことが挙げられる。

 BigQueryの料金は、ストレージの定額料金とクエリの使用料金に基づいて計算される。ストレージは毎月10GBまで無料で、データの読み込みとエクスポートは無料だ。また、クエリは毎月1TBまで無料で、より多くの容量を使用する場合は定額料金でも利用できる。

 このため、オブジェクトストレージからデータを転送して思わぬコストが発生したり、大量のクエリを発行して法外な料金が発生したりといったことは、基本的に発生しにくい。

 「オブジェクトストレージへの保存コストと同じくらいのコストで、DWHが利用できます」(樋口氏)

サービスを利用するのにインフラ管理のリソースが不要

 またサービスを利用するのにインフラ管理のリソースが不要であることも大きな特徴だ。

 一般的なIaaS上にDWHを構築すると、データ移行や運用管理が大きな負担になる。クラウド事業者側がこれらをマネージドサービスとして提供するケースもあるが、基本的にはIaaSの制約に縛られる。例えば、オートスケールさせるためには、IaaS上でDWHが稼働していることを考慮して実施しなければならない。

 これに対しBigQueryは、サービスを利用する以外のインフラ管理は全てGoogleに任せることができる。

 「基盤をどう作るかはもちろん、どうスケールさせるかを考えなくてもよくなります。また負荷が高まってもスケールが気にならなくなります。実際、こうした仕組みのおかげで、grasysは高いパフォーマンスのサービスを安定して提供し続けています。利用していてクエリが遅くなったと感じたことはありません」(守永氏)

BigQueryで実行時間を約5倍高速化した事例も

 grasysが手掛けた、あるコンテンツのDWH移行事例がある。この事例では、DWH上の200を超えるテーブルに約265億レコードが格納されており、コストとスピードが課題になっていた。そこで、BigQueryへの移行を実施し、パフォーマンスを劇的に改善させたという。

 BigQueryへの移行で成果を挙げるためには、幾つかのポイントがある。1つは、データのインポート時の工夫だ。パーティショニング後にデータをインポートしたり、クエリの見直しを行ったりすることで、期間を指定した検索などでパフォーマンスを大幅に向上させることができる。例えば、55億レコードのテーブルをBigQueryに移行したことで、実行時間を約5倍高速化できたという。

顧客ニーズに細かく応えられる分析基盤を提供

 データ分析基盤の運用では、データをどう投入するのかもポイントとなる。BigQueryには、「Streaming Insert」「Scheduling Jobs Insert」「Cloud Storage Bulk Load」といったさまざまなデータ投入方法が用意されている。これらを環境や要件に応じて使い分けることで、効率が良く、失敗の少ない移行が実現できる。

 また、データ分析基盤はDWHだけではない。ビッグデータ分析の成功には、BIツールが力を発揮することも不可欠だ。この点、GCPには、「Google Data Studio」という無償のBIツールが用意されている。Google Data Studioは、BigQueryに格納したデータはもちろん、他の環境のデータベースや「Google アナリティクス」「Google スプレッドシート」などのデータを使って、グラフィカルな図表を素早く作成し、分析に役立てることができる。

 こうしたさまざまなGCPのミドルウェアを組み合わせて、分析基盤の構築やデータ移行をソリューションとして提供できることがgrasysの強みだ。

 「『クラウドは決まったパターンのサービスにしか、使えない』というイメージがあるかもしれません。しかし、分析基盤は顧客ごとにニーズも課題も異なります。顧客の課題をヒアリングし、最終的に目指すアウトプットを実現するまでサポートする。クラウドサービスでありながら、そうしたきめ細かなカスタマイズを提供することで、さまざまな事業課題を解決します」(守永氏)

 grasysは設立して4年目の若い会社ながら、GCPのサービスパートナーとして多くの実績を持つ。GoogleではGCPに習熟した技術を持つエンジニアを「Google Certified Professional」(認定プロフェッショナル)として認定している。守永氏は「クラウド アーキテクト」と「データ エンジニア」を、樋口氏はデータ エンジニアの認定資格を取得しており、grasysのメンバーの多くが、これらの認定資格者だ。

 2012年に登場した「Amazon Redshift」は、データ分析の在り方を変えるものとして大きな衝撃を与えた。ただ、それから5年がたち、DWHを含む、他のクラウド上のデータ分析基盤も大きな躍進を遂げた。現在は、単に「クラウドに分析基盤を移行すればいい」というのではなく、「クラウド上の分析基盤でいかにビジネスの成果を出すか」が問われる時代だ。その意味からも、BigQueryをはじめとしたGCPのミドルウェアを組み合わせて分析基盤サービスとして提供するgrasysに注目しておきたい。

Google Cloud PlatformおよびGCPは、Google LLCの登録商標または商標です。



Copyright © ITmedia, Inc. All Rights Reserved.


提供:株式会社grasys
アイティメディア営業企画/制作:@IT 編集部/掲載内容有効期限:2018年3月12日

関連リンク

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。