New York Timesがログ解析向けで自社開発したものを公表
RubyでHadoopをラップ、分散処理ツールキットが登場
2009/05/12
米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。
デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも可能で、特にMapのほうは簡単に書けるという。
require 'mrtoolkit' class MainJob < JobBase def job mapper CopyMap reducer UniqueCountReduce indir "logs" outdir "ip" end end処理の記述例。あらかじめ提供されているMapperとReducerを使い、ログからIPアドレス別集計を作る処理を定義している
ニューヨーク・タイムズでは読者の閲覧履歴についてログ分析を行っていることから、これまでもAmazon EC2/S3上でHadoopを使っていたが、特別な知識や専門性が必要なことから、より簡単に使えるツールキットを実装したという。
これまで同社はAmazon EC2上で構築したHadoopクラスタで、約130年分の過去記事、1100万枚分のスキャン画像をPDFに変換する処理を24時間以下で行うなど、大規模分散処理の分野では独自の取り組みを続けている。
関連記事
情報をお寄せください:
- プログラムの実行はどのようにして行われるのか、Linuxカーネルのコードから探る (2017/7/20)
C言語の「Hello World!」プログラムで使われる、「printf()」「main()」関数の中身を、デバッガによる解析と逆アセンブル、ソースコード読解などのさまざまな側面から探る連載。最終回は、Linuxカーネルの中では、プログラムの起動時にはどのような処理が行われているのかを探る - エンジニアならC言語プログラムの終わりに呼び出されるexit()の中身分かってますよね? (2017/7/13)
C言語の「Hello World!」プログラムで使われる、「printf()」「main()」関数の中身を、デバッガによる解析と逆アセンブル、ソースコード読解などのさまざまな側面から探る連載。今回は、プログラムの終わりに呼び出されるexit()の中身を探る - VBAにおけるFileDialog操作の基本&ドライブの空き容量、ファイルのサイズやタイムスタンプの取得方法 (2017/7/10)
指定したドライブの空き容量、ファイルのタイムスタンプや属性を取得する方法、FileDialog/エクスプローラー操作の基本を紹介します - さらば残業! 面倒くさいエクセル業務を楽にする「Excel VBA」とは (2017/7/6)
日頃発生する“面倒くさい業務”。簡単なプログラミングで効率化できる可能性がある。本稿では、業務で使うことが多い「Microsoft Excel」で使えるVBAを紹介する。※ショートカットキー、アクセスキーの解説あり
|
|
キャリアアップ
- - PR -
転職/派遣情報を探す
「ITmedia マーケティング」新着記事
変わり続ける顧客、変わり続けるマーケティング 2024年に最も読まれた記事ランキング
マーケ×ITの最新潮流を伝えるITmedia マーケティング。2024年、読者はどんな記事に注目...
勘違いマーケター戦慄 消費者の約半数は「広告主に無視されている」と感じている件
「データに基づく顧客理解」「ハイパーパーソナライゼーション」などマーケティングかい...
AI・ARで「探索」 人より商品とつながるSNSの行く末――2025年のSNS大予測(Pinterest編)
ビジュアル探索プラットフォームとしての独自の道を進み続けるPinterestはもはやSNSでは...