「Hiveの10倍速い」クエリエンジンが一般公開に。最新の列指向データフォーマットなどにも対応している。
Apache Hadoopディストリビューションプロバイダである米Clouderaは、2013年5月1日、HDFS(Hadoop Distributed File System)、HBase向けのデータクエリエンジンである「Cloudela Impala 1.0」の一般公開版をリリースした(ダウンロードサイト)。Impala 1.0の公開と併せて、Impalaの自動管理や技術サポートを提供する「Cloudera Enterprise Real-Time Query(RTQ)」も間もなくリリースするとしている。
Cloudera Impalaは、DremelおよびF1に触発されて開発されたとされるデータクエリエンジン。一般的なデータ形式のほとんどをカバーするほか、列指向のデータフォーマットである「Parquet」もサポートする。ParquetはClouderaとTwitterの開発者らが手掛けたファイルフォーマット。列指向データフォーマットにはこの他、Facebookのデータインフラストラクチャチームなどが開発したRCFileや、Hortonworksが手掛けたORCFileなどもある。
Clouderaは2012年10月にImpalaのβ版を公開していた(β版の評価記事「Hadoop用リアルタイムクエリエンジン Impalaのポテンシャルをレビューした」参照)。Clouderaでは、同社既存ユーザ企業約40社とともにこのβ版の評価・機能拡張を進めてきたという。同社プレスリリースでは「業界初となる本番環境向けSQL-on-Hadoopソリューション」であると表明している。
Copyright © ITmedia, Inc. All Rights Reserved.