2012年末に発表されたAmazon Redshift。ついにデータウェアハウスも格安のWebサービスの1つとして選択できるようになった。今月はRedshiftをウォッチ!
2012年11月、アマゾンは初のユーザーカンファレンスとなる「re:Invent」にて、AWSの新しいサービスを発表しました。その名も「Amazon Redshift」。データ分析用のデータウェアハウスサービスです。現在は限定プレビューとなっており、正式なサービス提供開始は2013年中に北米東部からとされています。
Redshiftは分析用途なので、カラム型データベースで超並列演算を行います。想定されるデータ容量の規模は数百GB〜数PB。データへのアクセスはPostgreSQL JDBC/ODBCドライバを使ったSQLクライアントやBIツールがサポートされる予定です。現状ではMicroStrategyやJaspersoftを正式にサポートしています。
クライアントはまずリーダーノードに接続してクエリを実行し、リーダーノードがC++のコードを生成して、利用可能なコンピュータノードにクエリを分配し、結果がリーダーノードに帰ってくるという流れです。
クラウドでデータウェアハウスを使えるすごい時代がいよいよ現実のものになってきました。しかし、ここで素朴な疑問が……。分析対象となる膨大なデータをどのようにAWSにアップロードすればいいのでしょうか? さっそくそのまま、アマゾン・ジャパンの担当者にぶつけてみました。
いわく、方法はいくつかあるとのこと。有力なのがAWSの他のサービスと連携する使い方。アマゾンのストレージサービスAmazon Simple Storage Service(S3)、あるいはデータベースサービスAmazon DynamoDBからインポートして使います。将来的にはAmazon Elastic MapReduce(EMR)やAmazon Relational Database Service(RDS)からのデータインポートにも対応する予定もあるとのことです。
つまり、現在何らかのシステムでデータをS3やデータベースサービスに蓄積しているなら、それらをすぐにRedshiftに落とし込んで活用できます。逆にバックアップをS3に蓄積するということも可能です。AWSはサービスが豊富なのでいろんな使い方ができそうですね。
これからアップロードするという場合はどうでしょう。現実的なのはAWSに専用線で接続するサービス(AWS Direct Connect)を利用する方法です。常に大量のデータをアップロードするなら必須でしょう。配送に多少時間はかかりそうですが、HDDを物理的にアマゾンに送付することも可能です。
Amazon Redshiftといえば、発表時の価格も話題になりました。従量課金ならTB当たりの時間単価は0.425米ドル、TB当たりの年単価は3723米ドルです。3年リザーブドにするとTB当たりの年単価は999米ドル。典型的なオンプレミス型のデータウェアハウスに比べるとまさに「けた違い」です。
こうした価格設定もまたアマゾンが重視する安さの追求の1つといえるでしょう。AWSの運営規模や長年の継続的な技術革新がここまでの安さで提供できるのではないかと推測します。
アマゾンはAWSのシステム構成などを公開していませんが、アマゾンが開催しているセミナーで面白いことを聞きました。「AWSでは2003年にamazon.comが保有していた全データ容量と同等のストレージをほぼ毎日のように追加している」というのです。現在AWSにサーバが何台あるかは分かりませんが、非常に速いペースでサーバが増えているのは確かです。
AWSの利用料金については大きく分けて3つの体系があります。オンデマンドインスタンスは従量課金型で1時間単位での課金です。究極的には1時間だけ使うことも可能ですから、リリース前の検証で瞬間的に使う用途にも適しています。リザーブドインスタンスは一定期間予約して契約するもので、雑誌の定期購読のようなものです。さらにスポットインスタンスというのもあります。アマゾンのサーバの余力に応じて提供される、いわば「バーゲン」のようなもので、お値段は時価。AWSを使うサイトはこれらの料金体系をうまく組み合わせているのだとか。Redshiftも同様となりそうです。
次にあらためてAWSの既存のデータベースサービスについて概観してみましょう。
IaaSを提供するクラウドサービスは今やすっかり提供者も増えて普及していますが、アマゾンがAWSを開始したのは2006年なので、クラウドサービスの老舗といえるかもしれません。
実は、アマゾンは2000年代初めごろには既に社内向けにストレージをサービスとして提供していました。そのときに、サービス化することで迅速に提供できるだけではなく、一般的に「難しい」とされる開発者とインフラ管理者とのコミュニケーションが円滑に進むというメリットもあるということを、アマゾンは理解したのです。その後、AWSという社外向けITインフラのサービス提供へと結実したといいます。
アマゾン データ サービス ジャパン ソリューションアーキテクチャ本部 技術統括部長であり、エバンジェリストの玉川憲氏(写真)によると、AWSでアマゾンが重視しているのは「素早い技術革新、多様性や柔軟性、コスト削減」の3点だといいます。
Copyright © ITmedia, Inc. All Rights Reserved.