最後にReduceフェーズにデータが渡されます。Reduceフェーズでは渡ってくる同じkeyのデータがReducerを使って処理されます。Reducerでは主にデータの集計などが行われます。
Hadoopの処理の流れについて見てきましたがいかがだったでしょうか。MapperもReducerも思っていたより普通のスクリプトで拍子抜けしたのではないでしょうか。実際、もっと複雑な処理になってくると気を付けておくべき点が幾つか出てくるのですが、基本的にはとてもシンプルな処理となっています。
Hadoopは最低限の挙動を理解して(特にShuffleフェーズの挙動)、MapperとReducerを指定するだけで分散処理を行うことができるのです。
佐々木達也著
秀和システム 2400円(税別)
「ビッグデータ(=従来のコンピュータシステムでは、しまったり、探し出したり、調査したり、人間にわかりやすく加工したりが難しい、とても大きなデータ)なんて自分には関係ない」そう思っているエンジニアに贈る「Hadoop」の体験型入門書です。数億のユーザを抱えるSNSの利用データのように「雲をつかむような話」ではなく、Webサイトエンジニアや普通のプログラマが親しみを感じられるような普通のデータと、Amazon EMRという手軽な実験環境を使い、実際にHadoopを動かしてみます。手軽に短い時間で分散処理のメリットを体験することで、手元の業務に眠っているかもしれないビッグデータの活用に可能性を見出せるかも知れません。
Copyright © ITmedia, Inc. All Rights Reserved.