「Google Cloud Dataproc」が正式リリース:分単位でHadoop/Sparkが利用できるマネージドサービス
グーグルは、「Apache Hadoop」や「Apache Spark」を簡単に利用できるクラウドサービス「Google Cloud Dataproc」を正式にリリースした。
米グーグルは2016年2月22日(米国時間)、「Apache Hadoop(Hadoop)」および「Apache Spark(Spark)」のマネージドサービス「Google Cloud Dataproc(Cloud Dataproc) 1.0.0」を正式にリリースした。Cloud Dataproc 1.0.0はHadoop 2.7.2、Spark 1.6.0および「Hive 1.2.1」「Pig 0.15.0」に対応する。
この他、「BigQuery」「Cloud Storage」「Cloud Bigtable」「Google Cloud Logging」といったグーグルのクラウドサービス「Google Cloud Platform」と統合されており、Spark/Hadoopクラスタにとどまらず、包括的なデータ処理プラットフォームとして利用できるという。
Cloud DataprocはGoogle Cloud Platformを構成するサービスの1つで、2015年9月からβ版が提供されていた。Hadoop/Sparkクラスタの構築/立ち上げ、スケーリング、停止といった一連の作業を自動化できる。
Cloud Dataprocの料金単価は、仮想CPU当たり0.01ドル/時間(併用するGoogle Cloud Platformのリソースは別)。最低利用時間は10分で、分単位の課金となっている。
マネージドサービスであることから、管理・運用工数が掛からず、テスト済みで最新安定版のSparkとHadoopを利用できる他、下位互換性も維持するという。オペレーションの開始、停止にかかる時間は平均90秒以下で、他のオンプレミスおよびIaaSソリューションと比べて2〜10倍高速だとしている。
Cloud Dataprocクラスタの作成/監視/削除は、Google Cloud PlatformのコンソールとCloud SDKから行える。高度なユースケースの場合には「Cloud Dataproc REST API」と「Python」などのプログラミング言語を使って操作できるという。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 米グーグルがHadoop/Spark運用サービス「Cloud Dataproc」のベータ提供を開始
米グーグルは2015年9月23日(米国時間)、同社のクラウドサービス「Google Clooud Platform」で、Hadoop/Sparkクラスタ運用サービス、「Cloud Dataproc」のベータ提供を開始した。平均90秒というクラスタの迅速な展開と、1仮想インスタンス当たり1セント(あるいはそれ以下)という低料金が特徴。 - Hadoop用リアルタイムクエリエンジン Impalaのポテンシャルをレビューした
2012年10月24日に発表されたばかりのHadoop用リアルタイムクエリエンジンをいち早くレビュー。次期CDHに組み込まれる予定の新機能をどう使いこなす? - Hadoop+Hive検証環境を構築してみる
Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。 - グーグルがビッグデータ分析基盤をサービスとして提供へ――「Cloud Dataflow」をデモ
Google I/Oでは、多様なデバイスに注力する発表が相次いだ一方で、データ分析基盤サービスの発表もあった。ストリーム処理もバッチ処理もシンプルな実装で実現する。