Hadoop普及のキモは既存「言語」の取り込みにある:Database Expertイベントレポート(1/2 ページ)
Hadoopを使ったビッグデータ分析はエンタープライズ領域に本当に浸透する? Clouderaはエンタープライズ市場の開拓に向けて着実に開発を進めているようだ
2012年11月7日『Cloudera World Tokyo』の開催に合わせ、米国Clouderaの共同創設者でCEOのAmr Awadallah氏が来日した。直近では、Impalaをリリースしたばかりのタイミングであったこともあり、Impalaを含む同社の次期Hadoopディストリビューション「Cloudera’s Distribution including Apache Hadoop(CDH)」バージョン5の情報やエンタープライズ市場でのHadoop活用の可能性を聞いた。
ClouderaとHadoopディストリビューション「CDH」
Clouderaは、Apache Hadoopとそれに関連するプロダクトによるディストリビューションCDHの開発と提供、トレーニングを実施している。また、Apacheの開発コミュニティにも深くコミットしている。直近でリリースしたCloudera ImpalaもライセンスはApacheライセンスを採用している。
Clouderaが企業としてHadoopシステムのサポートを行うのは、OSSプロダクトであってもエンタープライズでの利用に耐える製品品質を担保するためでもある。
現行のCDH4は、エンタープライズ向けの機能拡張を強く推し進めている印象だ。高可用性やパフォーマンスの高速化、さらなる拡張性といったポイントだ。
下の図を見ると分かるように、既に既存アプリケーションとの連携もサポートされており、具体的なBIツールとも接続可能になっている。
MapReduceの改良についても言及があった。例えばいままでのHadoopプロダクトでは、ノードがダウンすると、そのノードが回復するまで応答待ちになってしまうという問題があった。ノードのダウンを回避し、処理を続行させるために、現行のCDH4ではname node HAという機能を取り入れ、ノードの応答そのものに信頼性を持たせるように改善を施している。また、MapReduceが展開できるノード数は1000が上限とされていたが、これを改善して、理論上無制限にスケールできるようにしている。今後、同一クラスタを別々の処理に振り分ける機能も持たせていく予定だ。この他にも、ジョブトラッカの改良についても言及があった。各ノードのリソース管理を考慮したものになるようで、Facebookが公開したジョブスケジューリングツール「Corona」(関連記事)に類似したコンセプトでスケールさせることを目指しているようだ。
低レイテンシクエリの要「Impala」
直近でのClouderaのニュースといえば、リリースされたばかりのImpalaが挙げられるだろう。Impalaは、Googleが2010年に発表したDremel論文(Dremel: Interactive Analysis of Web-Scale Datasets)に影響を受けて開発されたプロダクトだ。
「Dremel論文の影響を受けて立ち上がったプロジェクトは他にもあるが、こうして具体的にリリースしているものはImpalaだけだろう」(Awadallar氏)
ImpalaプロジェクトはGoogleのエンジニアであったMarcel Kornacker氏がけん引している。ImpalaはMapReduceに対するSQLクエリ言語「Hive」の多くの機能を上位互換としてカバーしていくというが、現段階では、Hiveを置き換えていくものではないようだ。
HiveがバッチでMapReduceに対して深くクエリを投げ込むのに対して、ImpalaはHBaseを使い、インタラクティブ性を重視したプロダクトであるからだ。
「実は、障害が起きた際の対処に現在のImpalaは弱い。しかし、応答速度が速いことが特徴であるから、ユーザは繰り返しクエリすれば済むはずだ」(Awadallar氏)
将来的には低レイテンシ性が必要であるか、あるいは確実性とバッチが適しているか、を自動的に判定できるような機能を追加することも検討できるという。
Copyright © ITmedia, Inc. All Rights Reserved.