ClouderaとHortonworksの合併が2019年1月に完了し、新生Clouderaが誕生して約半年が経過した。現在開発中の統合製品は、具体的にどのようなものになるのか。2社製品の既存ユーザーにはどのような影響があるのか。Cloudera創始者の一人で、グローバルCTOのアマー・アワダラ氏に聞いた。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
ClouderaとHortonworksの合併が2019年1月に完了し、新生Clouderaが誕生して、約半年が経過した。現在開発中の統合製品は、具体的にどのようなものになるのか。2社製品の既存ユーザーにはどのような影響があるのか。Cloudera創始者の一人で、グローバルCTO(最高技術責任者)であるアマー・アワダラ(Amr Awadallah)氏に聞いた。
Clouderaは、Clouderaの「CDH(Cloudera Distribution Including Apache Hadoop)」とHortonworksの「HDP(Hortonworks Data Platform)」を統合した製品を、2019年の夏から冬にかけてのリリースに向けて開発中だ。アワダラ氏はこの製品を「CDP」と呼ぶ。
「統合に要する作業は大量だ。それならば(統合するだけではなく)、これまでよりもはるかに進化した製品を生み出すべきだということで意見が一致した。私たちは、製品を一から書き直している」(アワダラ氏、以下同)
では、どのように書き直しているのか。全てをコンテナ化してKubernetesでオーケストレーションできるようにし、プライベート/パブリック/ハイブリッド/マルチクラウドでの柔軟な運用を実現するという。また、コンテナ化をベースに、性能や機能の拡張がしやすくなるという。
「Kubernetesはサービスをデプロイする手法として事実上の標準になったといえる。Google、Amazon Web Services(AWS)、Microsoft AzureはこぞってKubernetesをサポートしているし、企業・組織の多くも、オンプレミスにおけるKubernetesへの移行を進めている。そこで全てのコンポーネントがコンテナで動くようにしている。これが新製品における最も重要な変更点だ」
アワダラ氏は、Kubernetesへの対応により、多くのメリットが生まれると話す。
第1は、リソース利用の分離による、安定的な性能の確保だ。
「Clouderaを長年使ってくれている顧客では、単一のClouderaクラスターで、50〜60のユースケースを動かしている例がある。すると起こりがちなのが、『ノイジーネイバー(騒々しい隣人:ある処理がITリソースを大量に消費し、他の処理の性能に悪影響を与えること)問題』だ。Kubernetesでクラスターを分けることにより、リソースを高度に分離し、相互の性能への悪影響を防ぐことができる」
第2に、アップグレードがこれまでと比較にならないほど容易になると、アワダラ氏は言う。
「私たちの製品はこれまでモノリシックな(一枚岩的な)アーキテクチャであるため、例えばHiveだけをアップグレードしたいのに、Spark、Kafka、Impala、Flumeなど、全てをアップグレードしなければならなかった。一方、新製品では、各コンポーネントがそれぞれコンテナ化されているため、別々にアップグレードができる。さらに、例えば複数バージョンのSparkを動かすことができる。違うバージョンのSparkを使うアプリケーションを共存できることになる」
第3に、HDFSのストレージクラスターとコンピュートクラスターを別に運用する形態に移行できる。
「これまで、演算処理とストレージが、同一コンピューター上で共に動いていた。これは性能面などでメリットもあるが、スケーリングは複雑化する。例えばストレージだけ増やしたくても、CPUを増やさなければならない。そこで、パフォーマンスが多少犠牲にはなっても、ストレージと演算処理を別にスケールできるようにする」
また、マイクロサービスアーキテクチャに移行することで、セルフサービス、SQLアクセス、機械学習、データエンジニアリングなど、ユーザーの目的や用途に合わせて最適なワークフローの構成ができるようになるという。
「私たちは、『Data Warehouse Experience』『Machine Learning Experience』『Data Engineering Experience』『Data Flow Experience』『Operational Data Experience』などと呼ばれるようなワークフローを提供していくつもりだ」
さらにコンテナ化とも絡む重要な進化ポイントとして、ハイブリッドクラウド構成での利用をやりやすくすると、アワダラ氏は述べた。これは、パブリッククラウドへのプラットフォーム導入をしやすくするというだけではない。例えばプライベートクラウドにおける処理能力不足をパブリッククラウドで補う、「バースト」などと呼ばれていることが容易に行えるようになるという。
「例えばオンプレミスのHadoopクラスタにおけるジョブ処理が非常に遅く、5、6日かかっているとする。この場合、あなたはClouderaの管理コンソールでボタンを1つ押すだけで(実際にはもう少し設定が必要)、このワークロードをパブリッククラウドにバーストできる。自動的にデータおよびメタデータ、スキーマ、セキュリティをクラウドへコピーし、合わせてSparkジョブなどのロジックも移行して、例えば2000ノードを使って処理を5分で終わらせるといったことができる。処理が終わったら、全てのリソースの利用は自動的に停止する。ClouderaあるいはHortonworksの既存ユーザーがクラウドを使い始めたいというときに、アプリケーションを書き直したり、データフローを再設計したりする必要がない。しかも、セキュリティポリシーを確実に適用した上で、こうしたことができる」
Copyright © ITmedia, Inc. All Rights Reserved.