連載
» 2017年01月24日 05時00分 公開

「Hadoopの処理の流れ」を理解し、実践するきょうから試せる Hadoop“スモールスタート”ガイド(2)(3/3 ページ)

[佐々木達也,著]
前のページへ 1|2|3       

Reduceフェーズ

 最後にReduceフェーズにデータが渡されます。Reduceフェーズでは渡ってくる同じkeyのデータがReducerを使って処理されます。Reducerでは主にデータの集計などが行われます。

 Hadoopの処理の流れについて見てきましたがいかがだったでしょうか。MapperもReducerも思っていたより普通のスクリプトで拍子抜けしたのではないでしょうか。実際、もっと複雑な処理になってくると気を付けておくべき点が幾つか出てくるのですが、基本的にはとてもシンプルな処理となっています。

 Hadoopは最低限の挙動を理解して(特にShuffleフェーズの挙動)、MapperとReducerを指定するだけで分散処理を行うことができるのです。

Hadoopファーストガイド

Hadoopファーストガイド

佐々木達也著
秀和システム 2400円(税別)
「ビッグデータ(=従来のコンピュータシステムでは、しまったり、探し出したり、調査したり、人間にわかりやすく加工したりが難しい、とても大きなデータ)なんて自分には関係ない」そう思っているエンジニアに贈る「Hadoop」の体験型入門書です。数億のユーザを抱えるSNSの利用データのように「雲をつかむような話」ではなく、Webサイトエンジニアや普通のプログラマが親しみを感じられるような普通のデータと、Amazon EMRという手軽な実験環境を使い、実際にHadoopを動かしてみます。手軽に短い時間で分散処理のメリットを体験することで、手元の業務に眠っているかもしれないビッグデータの活用に可能性を見出せるかも知れません。

注文ページへ


前のページへ 1|2|3       

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。