ログ収集、大量データ操作の要、Fluentd、CDHの最新バージョンを知る:イベントリポート ログ、アクセス解析、インフラ運用
2014年1月23日、アイティメディアにて@ITが新たに企画した「@特勉」(@IT 特集連動勉強会)が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」。濃厚なセッションをかいつまんで紹介する。
2014年1月23日、アイティメディアにて@ITが新たに企画した「@特勉」(@IT 特集連動勉強会)が開催された。第1回のテーマは「ログ、データ解析、インフラ技術」として、ログ収集が行える「Fluentd」やオープンソースのHadoopディストリビューション「CDH」の最新情報や、ソーシャルゲームやWebアクセスにおけるデータ解析手法など、@ITならではの濃いセッションが多数行われた。その様子を2回に分けて紹介しよう。
セッション1:Fluentdの次期バージョンはどうなる?
@特勉のオープニングは、トレジャーデータのシニアソフトエンジニア、中川真宏氏による「次期バージョンのFluentd v11について」と題したセッションが行われた。
Fluentdはログ収集、ログ処理のためのツールだ。さまざまな形式のログをインプットし、アウトプットするというものだが、通常この処理を行おうとすると、インプットプラグインの数とアウトプットプラグインの数を乗算し、設計を行うことがほとんどである。Fluentdはインプットとアウトプットの設定をプラグイン同士の掛け算ではなく、足し算にするという設計が行われている。
中川氏によると、現バージョンはパフォーマンスは十分で、すでにDeNAやグリーなどの企業でも活用されているという。日本での運用事例も多く、プラグインも順調に増えている。課題はむしろ、Fluentdを“想定以上の使い方”をしている人のために、互換性を壊さず内部構造を刷新することにあるという。ログのフォワーダーとしてだけでなく、新たな処理を行うために設計を一新する、これがFluentd V11の課題だ。
Fluentd V11の新機能は下記の通りだ。
- サーバーエンジンベースのアーキテクチャ
- ダウンタイムなしでの再起動
- フィルター/ラベルの実装
- 設定ファイル文法の改善
- プラグイン開発の改善
サーバーエンジンベースによるアーキテクチャの刷新は、スーパーバイザーを組み込み、マルチプロセッサを利用したときにスケールするように内部構造を変えるものだ。またフィルターやラベルの実装は、いままでアウトプットプラグインにおいて独特の処理実装を使いこなした形で実行しているものを、標準化し分かりやすい形で実行できるように改良している。その他、設定ファイルをより分かりやすく簡単に書けるようにする、プラグイン開発でルーチン処理をより簡単に導入できるようにするなど、開発者向けに改良した部分が多数ある。
現時点ではまだアルファバージョンレベルであり、機能は付いたり消えたりするという。バージョン11のリリース日も未定だ。中川氏は「互換性を少し壊してまでの大きなアップデートなので、手探りの状態。そこまでするのだからなるべく新しい人がFluentdを使ってくれるよう、魅力的な機能を入れたい」と述べた。
セッション2:「CDH」の未来は
次に登壇したのは、クラウデラの嶋内翔氏だ。「次期バージョンのCDH5はどうなる?」というセッションでは、Hadoopのディストリビューションの1つ、CDH(Cloudera’s Distribution Including Apache Hadoop)の将来が語られた。
Hadoopといえば、分散ストレージと分散処理プラットフォームとしてさまざまな活用事例のあるオープンソースだ。CDHはエンタープライズ向けに開発されたオープンなディストリビューションとして、2009年にバージョン1がリリースされ、現在バージョン5を2014年にリリースしようとしている。
バージョン5での新機能は下記の通りだ。
- YARN完全対応
- HDFSスナップショット、NFS対応、高速化
- 追加コンポーネント対応:Impala、Search(Solr)、Sentry、Accumulo、Spark
YARN(Yet-Another Resource Negotiator)は任意の分散処理フレームワークやアプリケーションの作成を容易にする新しいフレームワークで、JobTrackerによるリソース管理やジョブスケジューリング、監視の機能を分離することができる。バージョン5におけるYARN対応にて、MapReduceもYARNアプリケーションの1つとして分離し、動作するようになるという。
また、バージョン5のHDFSスナップショット機能では、指定したディレクトリのスナップショットを取ることができるようになる。スナップショットはブロック情報とファイルサイズのみを保存するため、ストレージを圧迫することはない。スナップショットを取得した状態にいつでも復元可能なので、より耐障害性が高くなるのが特徴だ。
クラウデラではCDHの運用ツールであるCloudera Manager5をリリースしており、運用管理・監視面でもHadoop導入のハードルは低くなっている。嶋内氏は「CDHを使えば、1個所にデータを集めることができる。あらゆるデータをHadoopに蓄積し、分散処理、検索を行うシステムがあればいい。CDH5をビッグデータの基盤として利用してほしい」と述べた。
Copyright © ITmedia, Inc. All Rights Reserved.