ビッグデータ解析基盤製品群「HAVEn」の一製品に位置付けられる「HP Vertica」、SAP HANAをデータ基盤と位置付けて生まれ変わった「SAP Business Suite」をウオッチする。
毎月データベース、データプラットフォームにまつわる技術トピックを取材する連載「Database Watch」。今月はヒューレット・パッカード(HP)のビッグデータ解析基盤製品群「HAVEn」の一製品に位置付けられる「HP Vertica(Vertica)」におけるデータベースの仕組みに注目してみましょう。
HPでは、ビッグデータ解析基盤製品群「HAVEn」を、HP自身が提供する製品と、オープンソースソフトウエアを組み合わせて提供しています。HAVEnの名称は主要な構成要素の頭文字を並べたものです。
「H」はオープンソースで提供されている分散データ処理ソフトウエア「Apache Hadoop/HDFS」に由来します。同様に、「A」は多様な形式のコンテンツからコンテクストを抽出するソフトウエア「Autonomy IDOL(Intelligent Data Operating Layer)」、そして「V」が、大容量データのリアルタイム分析を得意とするソフトウエア「Vertica」です。「E」はデータの収集と統合を行う「Enterprise Security」、「n」は「Apps」――複数の各種アプリケーションを表すのだとか。
HPは、HAVEnについて、ビッグデータ基盤たり得るスピードや拡張性を備えていること、自社製品とオープンソースソフトウエアで全てをカバーできていることを強みとした製品群だとしています。
今回はこのHAVEnのポートフォリオに含まれるデータベースVerticaについて詳しく見ていきます。日本ヒューレット・パッカード テクノロジーコンサルティング事業統括 インフラストラクチャソリューション部 コンサルタントの諸橋渉氏(写真)が解説してくれました。
意外かもしれませんが、Verticaとビッグデータとの関係は由緒正しい歴史があります。
もともとの歴史をひも解くと、分析用データベースソフトウエアベンダーとして2005年に設立した「Vertica Systems」がVerticaのルーツです。Vertica Systemsの主力製品が列指向データベース「C-store」を基にした「Vertica」だったのです。
基となったC-storeの生みの親にはデータベース研究開発で知られたマイケル・ストーンブレーカー博士も名を連ねています。HPがこのVertica Systemsを買収したのが、同社が注目ベンチャーとして頭角を現した2011年のことでした。現在、旧Vertica Systemsの製品は「HP Vertica Analytics Platform」と呼ばれています(そういえば今年は最初にC-storeが生まれてから10周年に当たります)。
Verticaの大規模事例として挙げられるのが2012年アメリカ大統領選挙で、民主党バラク・オバマ氏を支援する陣営が選挙活動用に公開したWebサイト「Obama for America」です。実はこのWebサイトでデータ分析に用いられたのがVerticaでした。
「Obama for America」については別の記事で、米アマゾンが提供するクラウドサービス「Amazon Web Services」(AWS)上に構築したというエピソードを紹介しています。ですから多くの読者の方は、「AWS上で使うのだからデータ分析基盤は同じく米アマゾンが提供する『Amazon Redshift』だったのではないか」と考えたかもしれません。しかし、Redshiftの発表は、大統領選挙が決着した後、2012年の末のことですから、選挙活動期間中はまだRedshiftは世に出ていません*。
* Obama for Americaのプロジェクト全体では、多様な開発者が参加したことから、Verticaだけでなく、Amazon DynamoDBやOSSのRDBMS、Amazon RDSも採用されています。関連記事参照。
また2009年、まだ「ビッグデータ」という言葉が出たばかりのころ、Hadoopディストリビューターの一社であるクラウデラとVerticaがビッグデータ管理をテーマにホワイトペーパーを発表しました。
この時点でビッグデータ管理のソリューションとしてHadoopと列指向データベース(カラムナーデータベースとも呼びます)の組み合わせを提案していたのですから、今から考えるとその先見性の高さに驚かされます。
Copyright © ITmedia, Inc. All Rights Reserved.