最近注目を集める列指向データベースを標榜するVectorwiseとは? Oracle 12cが目指すプラガブルなデータベースにはどんな利点がある? 注目情報をまとめてウォッチ!
10月17日から3日間、インサイトテクノロジーは「db tech showcase」を開催しました。国内外のさまざまなデータベース製品の専門家が登壇し、それぞれの技術を熱く解説しました。主催者がスピーカーに徹底したのは「ノー・セールス・トーク」(宣伝禁止)。あくまでも「エンジニアを対象とした技術解説に専念するように」というルールだったそうです。
db tech showcaseのセッション内容は盛りだくさんでしたが、本稿ではActianのVectorwiseに絞って紹介しましょう。
Vectorwiseは分析の速さが特徴です。TPC-HのNon-Clusteredで結果を見ると確かに(1TB以下では)性能的にもコストパフォーマンスでもダントツのように見えます。どうしてこのような結果が出せるのか。まずは概要をインサイトテクノロジーの新久保浩二氏(写真)が解説してくれました。
ポイントとしてはデータ構造とCPU能力のフル活用です。前者はデータをカラムごとに格納して圧縮しており、いわゆるカラムナ(列指向)データベースという点です。後者は1つの命令で複数のデータを処理できる技術「SIMD(single instruction multiple data)命令」を活用していること、またCPUキャッシュを効率的に利用できるように設計てしいることで、高いパフォーマンスを実現していることが挙げられます。
新久保氏はVectorwiseのデモで、直近1カ月のツイート約8000万件を形態素解析し、どのようなキーワードが流行したのかを分析しました。対象期間に注目を集めたキーワードにはノーベル賞を受賞した山中伸弥氏が研究を続けている「iPS細胞」や「台風」などの結果がすぐ出てきます。このテクノロジはさまざまな業務オペレーションの常識を変える可能性を秘めています。つまり、処理が早いのでデータ分析が非常に手軽に実行できるのです。新久保氏は「Time is moneyです。そしてひらめきはpriceless。ひらめきを価値に」と、思い付いたらすぐアジャイルで分析できることの重要性を強調しました。
ちなみに、同じデモでイベント前日までのツイートからデータベースの製品名が出てくるものを抽出し、製品名別の割合を見ると、Vectorwiseが占める割合は全体のわずか0.4%。まだまだ知名度は低いようですが、今後の展開には注目しておきたいですね。
Vectorwiseの「中の人」も登場しました。Actianのマーク・ヴァン・デ・ウィール氏(写真)が、Vectorwiseの速さの理由を一般的なRDBMSと比較しながら解説しました。
先述した通り、Vectorwiseのポイントは、カラムナデータベースであることと、CPUによるデータ処理にあります。
まずはカラムナデータベースの側面を見ていきましょう。一般的なRDBMSは行ごとにデータを格納しています。データを見つけるには、目的のデータがある行を見つけ出し、その行を読み込みます。こうした処理は、バッチではなく、例えば企業の会計システムなど、比較的軽い処理を大量にこなす場合などの、オンライントランザクション処理(OLTP)に適しています。
しかし、この仕組みは、大量データの分析では非効率です。なぜなら分析に不要なカラムまで読み取ることになるためです。データベースを分析で使うなら、データをカラムごとに格納する方が有利です。カラムナデータベースは、従来型のRDBMSが苦手とするビッグデータ分析に適したデータベースといえます。加えて、Vectorwiseの場合はカラムごとにデータを圧縮しており、データ格納領域が少なくて済みます。
もう1つ、CPU処理における効率化です。先述した通り、VectorwiseはSIMD命令を活用することで、一度に複数のデータ処理が可能となります。この技術はベクトル処理とも呼ばれています。SIMD命令は特別なCPUしか使えないものではなく、昨今の多くのCPUに備わる機能です。Vectorwiseは、これに加えて、処理がCPUキャッシュに収まるように設計されている点でも効率の高い処理が期待できるのです。
同氏は「一般的なRDBMSではコアあたりの処理能力(データ量)は200MB/s以下にとどまるが、Vectorwiseの場合は1.5GB/s以上となる(同社ラボでの検証結果)」と話していました。これだけでも突出していますが、さらに今後も効率を高めるための改良を予定しているそうです。データ分析の強力な切り札になるかもしれませんね。
イベント冒頭には「エンジニアよ、ロックに生きろ」と冒頭にインサイトテクノロジーの代表取締役 小幡一郎氏(写真)が登壇。イベント開催の背景として「もはやエンジニアは1つのデータベースだけ知ればいいという時代ではなくなった。多様な技術を知ってほしい」という思いがこめられていました。
主催者側は実践的な技術情報を提供することにこだわり、昨年(2011年)の開催時にはあえて「ビッグデータ」というキーワードは省きました。1年前の段階ではパフォーマンスや具体的な手法などで現実味に欠けていたからです。しかし状況は着実に変化し、今年はついにビッグデータ解禁。
小幡氏にとってビッグデータとは「でっかいマグロ」のイメージだそうです。これをどうさばくか。巨大な生魚が最終的には舟盛りやスシという形で提供されるように、ビッグデータは大きなデータをシステムで集約し、クレンジングし、分析してユーザーに見える形で提供されます。最近ではシカゴ警察がビッグデータ分析を防犯対策に活用するという事例も話題になりました。これまで解析されなかった細かなデータ、雑多なデータが日常に浸透しつつあります。
小幡氏はあいさつの最後に「スピーカーはみんな厚意で来てくれている。だから感想を寄せるという形で恩返しをしてほしい」と聴衆に呼びかけていました。
Copyright © ITmedia, Inc. All Rights Reserved.