米Amazon Web Servicesは、Amazon S3内のデータに対して直接SQLクエリを実行できる「Amazon Redshift Spectrum」の提供を開始した。
米Amazon Web Services(以下、AWS)は2017年4月19日、Amazon Redshiftの利用者に向けた新機能「Amazon Redshift Spectrum(以下、Redshift Spectrum)」の提供を開始すると発表した。
Redshift Spectrumは、Amazon Simple Storage Service(Amazon S3)内のデータに対して、直接SQLクエリを実行できるようにする機能。分析のためにデータを他所へロードしたり、転送したりせず、データフォーマットも変換なしに、Amazon S3内のデータに対してそのままクエリを実行できることを大きな特長とする。
対応データフォーマットは、CSV、TSV、Parquet、Sequence、RCFileなど。GzipまたはSnappyによる圧縮ファイルにも対応する。この他のフォーマットや圧縮形式にも順次対応する予定という。
使用するSQL構文はAmazon Redshiftと同じで、ユーザーが現在使用しているBI(Business Intelligence)ツールでクエリの実行が可能だ。ユーザーは、データベースに接続してから、クエリをRedshiftへ投げるだけで済む。Redshift Spectrumでは数千台規模までスケールアウトするインスタンスを用意しており、検索対象となるデータ量に基づいてクエリ演算性能を自動的に拡張する機能を備えることから、テラバイト(TB)規模から、ペタバイト(PB=約1000TB)、エクサバイト(EB=約100万TB)規模にまで、処理するデータ量に関わらず、Amazon S3内のデータに対してクエリを実行できるとしている。
AWSでデータベース、分析、AI担当副社長を務めるラジュ・グラバニ(Raju Gulabani)氏は、「Redshiftは、AWSのスケールメリットを活用することで、旧来のデータウェアハウスに比べてペタバイト規模のデータを10倍の性能、かつ10分の1のコストで分析できるようにする。さらに、これまで多くの顧客から、RedshiftでAmazon S3内に保存した自社データも分析したいという要望を受けてきた。Redshift Spectrumはこのニーズを満たすものだ」と述べている。
Copyright © ITmedia, Inc. All Rights Reserved.