「Hadoop 2」データ処理とサービスの同時実行が可能な安定版が公開:Hadoopも2.0時代に突入
StormもHBaseも並行実行できる新しいジョブスケジューラ、リソースマネージャを追加したApache Hadoop 2系の安定版がリリース。バッチ混合、双方向でのリアルタイムワークロード実行など、強力な機能を持つ。
Apache Software Foundationは2013年10月16日、大規模分散処理フレームワークのメジャーアップデート「Apache Hadoop 2」の安定版リリースを発表した。「Hadoop 2.2.0」が2.x系で初の安定版となる。
Hadoop 2は開発に4年以上をかけ、HDFSの上にYARN(Yet Another Resource Negotiator)が追加されたことが最大の特徴。YARNはジョブスケジューリングと分散処理におけるリソース管理を担うフレームワークで、ビッグデータアプリケーション用の大規模分散型OSのようにふるまう。これにより、データ処理アプリケーション(Hadoop MapReduce、Apache Stormなど)とサービス(Apache HBaseなど)が同時に実行できるようになり、ライフサイクル全体を通じてデータスループットの効率化を図っている。
この他、HDFSについては高可用性、フェデレーション、データスナップショット、NFS-v3プロトコルによるデータアクセスなどの新機能が加わっているという。
なお、Hadoop 2系では、1系向けに開発された既存のMapReduceアプリケーションとバイナリ互換性を持たせている。また、今回のリリースから、Windows環境でも動作させられるようになった。
開発に携わったClouderaのアーロン・マイヤーズ氏は、「Hadoop 2とYARNの発表により、ベーシックなマルチテナントを超えたバッチ混合、双方向のリアルタムワークロードを実現し、Hadoopエコシステムの安定した基盤の中でそれができるようになった」とコメントしている。
HadoopはJavaプログラマのためのスケーラブルなバッチ処理システムとしてスタートしたプロジェクト。今ではビッグデータ用ソリューションの中心的存在となり、Amazon Web ServicesやFacebook、HPなどの世界大手が採用しているほか、主要なソフトウェア/はーどうぇあベンダがHadoopを取り入れた製品を提供している。オープンソースソフトウェアとしてApache License v2.0の下で公開されている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Databaseテクノロジレポート:Hadoop用リアルタイムクエリエンジン Impalaのポテンシャルをレビューした
2012年10月24日に発表されたばかりのHadoop用リアルタイムクエリエンジンをいち早くレビュー。次期CDHに組み込まれる予定の新機能をどう使いこなす? - Databaseテクノロジレポート:IBMのCTO自らが語る「データ活用時代に必要なDBアーキテクチャ」とは?
生活の半分は技術ディスカッション、残りはラボ。IBMの技術フェローがデザインした「データ活用時代」のDBアーキテクチャと技術を深掘りしてみた。