Google CloudはGoogle Cloud Next '21で、「BigQuery Omni」「Dataplex」「Spark on Google Cloud」「Vertex AI Workbench」「Cloud Spanner」など、データ関連の発表を多数行った。最大のテーマはマルチクラウドや社内に分散するデータの統合利用。
Google Cloudは、2021年10月第3週に開催した年次カンファレンス Google Cloud Next '21において、「BigQuery Omni」「Dataplex」「Spark on Google Cloud」「Cloud Spanner」「Vertex AI Workbench」など、データ関連の発表を多数行った。最大のテーマは統合。
Google CloudはデータウェアハウスサービスのBigQueryで、BigQuery Omniを2021年10月中に一般提供(GA)する。 BigQuery Omniは、外部クラウドに存在するデータを動かすことなく分析できるサービス、現在のところAmazon Web Services(AWS)のAmazon S3、Microsoft AzureのAzure Blob Storagaに対応している。
BigQuery Omniでは、Google CloudがAWS、AzureにKubernetesサービスの「Anthos」を展開し、BigQueryのクエリエンジンである「Dremel」をマネージドサービスとして動かす。その上で、Google Cloud Platform(GCP)上のBigQueryユーザーインタフェース(UI)を通じたユーザーによるクエリを受け、Dremelがターゲットクラウドのデータストレージ上のデータに対して直接クエリを行い、結果をGCPのBigQuery UIに返す、またはターゲットクラウドのデータストレージに戻すことができる。
BigQueryでは外部関数への対応が発表となった。 従来のSQL、JavaScriptによる関数に加え、Node.js、PHP、.Net、Go、Python、Java、Ruby、PHPで書かれた外部関数に対応する。 上記の言語で書かれた関数の移行にも役立つ。
また、BigQueryの検索インデックスがプレビューとなった。これはマネージド型のテキストインデックスサービス。構造化/非構造化データのインデックスを自動生成する。これにに対し、SQL関数でデータポイントを検索して位置を確定可能。データウェアハウス、データレイク、ログ解析ソフトなどの間の分断を解消できるとしている。
オープンソースのデータ分散処理フレームワークであるApache Sparkは、高速性、使いやすさなどからビッグデータ分析ではよく使われている。 Google Cloudは「Spark on Google Cloud」として、Sparkサービスのプレビュー版を提供開始すると発表した。
Spark on Google Cloudは業界初のサーバレスSparkだという。ユーザーは手動でのプロビジョニングやスケーリング、インフラのチューニングをすることなくSparkを利用できる。料金についても、実行中に使用されているリソース分だけが請求される。
Spark on Google CloudはBigQuery、Vertex AI、Dataplexからクリック2回で利用できるという。これにより、データエンジニア、データサイエンティスト、データアナリストなど多様な立場の人々が、データ複製や統合作業なしに好みのインタフェースで利用できるとする。
Dataplexの一般提供が始まる。Dataplexでは、データレイク、データ ウェアハウス、データベース、データマートなどを分散したままで、一元管理、モニタリング、統制ができる。そしてこのデータに、多様なツールから統合的にアクセス可能。
Dataplexでは、構造化/非構造化データのメタデータを自動収集し。統合メタストアに登録する。これが検索に利用できる。メタデータはBigQuery、Dataproc Metastore、Data Catalog にも公開され、様々なツール間で一貫したデータアクセスができるという。
Google Cloudは2021年5月、機械学習/AIの統合基盤「Vertex AI」の一般提供を開始した、これに続き今回は、統合Notebook環境「Vertex AI Workbench」のプレビュー版を発表した。
データアナリストやデータサイエンティストがJupyper Notebookという単一のインタフェースを通じ、BigQuery、Dataproc、Spark、Looker、Vertex AIからのデータにアクセスし、データ探索、実験、トレーニングなどの、分析・機械学習に関するプロセスを実行できる。
Cloud Spannerは、高い可用性を特徴とした分散型のリレーショナルデータベース。 世界規模のOLTPシステムを構築できるといい、ゲームや金融をはじめとした業界で実際に使われている。
このデータベースサービスでPostgreSQL互換インタフェースが使えるようになる。 PostgreSQLの操作に慣れたユーザーが、これまでのスキーマやクエリを持ち込める。 関連ツールも活かせる。
Google Cloudは、PostgreSQL人材の活用で、Cloud Spannerの採用につなげたい考え。
Copyright © ITmedia, Inc. All Rights Reserved.