6月5日から2日間、「AWS Summit Tokyo 2013」が開催されました。会場内はもちろん、Twitterやインターネット上でも大いに盛り上がりました。中でもAmazon Redshiftの紹介セッションでは多数の立ち見が出るほどで、注目度の高さをあらためて実感しました。
Redshiftの概要については本記事2013年1月版で取り上げた通りです。その時点ではまだサービスの正式開始前でしたが、後に米国で正式リリースとなり、さらに6月5日には日本での提供も始まりました(関連記事)。
簡単におさらいすると、Redshiftはサービスとして提供されるデータウェアハウスです。データの規模は数TBから数PBまで。技術的には集計処理に有利なカラムナ型データベースや、高速化実現のための超並列演算が特徴です。
PostgreSQL JDBC/ODBCドライバなどを使ってアクセスします。Amazon S3やAmazon DynamoDBから並列ロードできるなど、AWSの他のサービスとの連携が可能です。
今回のセッションでは、野村総合研究所(NRI)の情報技術本部先端ITイノベーション部で上級テクニカルエンジニアを務める杉田豊氏が登壇し、先行評価で得られた知見を発表しました。
なおNRIは、日本初のAPN(AWSパートナーネットワーク)プレミアコンサルティングパートナーとして認定されるなど、AWSへの取り組みに力を入れている企業の1つです。
NRIの検証結果によると、例えば500億件あるテーブル(約1.5TB)に対して検索したときにかかった時間は、Amazon Redshiftが用意している2種類のデータウェアハウスノードのうち「ハイストレージエイトエクストララージノード(8XLノード:Intel Xeon E5 16コア、メモリ120GB)」を2ノード利用したときに43.5秒、同8ノードを利用した場合は19.8秒でした。
500億件に対するJOINと集計処理を行うバッチを、Amazon EMR(Hadoopを利用したデータ処理サービス)と比較したところ、CPUコア数はEMRとRedshiftともに128コアながら、処理時間は2分の1〜12分の1に短縮できたということです。
この結果に杉田氏は「Good!」と高く評価しています。どの結果もほぼきれいにスケールするところもいいですね。
さらに、性能を上げるコツもあるそうです。
Redshiftでは、RDBMSでいうところのインデックスはなく、代わりに「Distribution Key」「Sort Key」を持っています。これを調整することで性能向上が期待できるそうです。逆に、この部分の調整次第で、データのロードが遅くなることもあり得るので、注意が必要です。
Redshiftの利用料金について杉田氏は「破壊的」と評価しています。
NRIの試算によると、8XLノードを8台利用した場合(128仮想コア、メモリ960GB、ストレージ128TB)、5年間のRedshift利用料の総額は従量課金で2億円、1年リザーブにすれば1億1490万円となります。
杉田氏は、この数値を基に、5年分のデータウェアハウスを新規に構築し、管理・運用を行った場合のコストと比較して破格である、という評価を下しています。構築費がほぼ不要で維持管理の人員とデータセンターの運営費用などが必要のないAWSサービスの大きな利点と言えるでしょう。
ただし、杉田氏は企業におけるAWS利用全般の課題として「簡単に利用できてしまうため、社内で統制のとれていないシステムが乱立することにもなりかねない」との警告も示しています。これについては、利用側がしっかりとガバナンスを取っていく必要があります。
さらにRedshiftを利用する際の強い味方も増えてきました。今回紹介されたのは、インフォテリア、Pentaho、Jaspersoftの3社の製品です。
インフォテリアにはデータ連携のためのミドルウェア「ASTERIA WARP」があり、5月22日からRedshiftにも対応しました。例えば社内システムにあるデータとRedshiftを組み合わせた分析も行えそうです。
PontahoとJaspersoftはともにオープンソースのBI(Business Intelligence)です。前者はKSKアナリティクス、後者はワークブレイン・ジャパンが日本での窓口となり、導入や構築の支援を行います。
「AWS Summit Tokyo 2013」では、AWSのエコシステムが着々と広がっている様子をじかに感じられるイベントとなっていました。
Copyright © ITmedia, Inc. All Rights Reserved.