New York Timesがログ解析向けで自社開発したものを公表

RubyでHadoopをラップ、分散処理ツールキットが登場

2009/05/12

 米新聞社大手のニューヨーク・タイムズは5月11日、Rubyによる大規模分散処理のツールキット「Map/Reduce Toolkit」(MRToolkit)をGPLv3の下にオープンソースで公開したと発表した。MRToolkitは、すでに稼働しているクラスタ上のHadoopと合わせて使うことでRubyで容易にMap/Reduce処理を記述することができる一種のラッパー。処理自体はHadoopが行う。すでにHadoopを使っているユーザーであれば、中小規模のプロジェクトに対して、すぐにMRToolkitを適用可能としている。

 デフォルトで有用なMap、Reduceの処理モジュールが含まれていて、数行のRubyスクリプトを書くだけで、例えば膨大なApacheのログからIPアドレス別の閲覧履歴をまとめるといった処理が可能という。独自にMapやReduceの処理を定義することも可能で、特にMapのほうは簡単に書けるという。

require 'mrtoolkit'
class MainJob < JobBase
  def job
    mapper CopyMap
    reducer UniqueCountReduce
    indir "logs"
    outdir "ip"
  end
end
処理の記述例。あらかじめ提供されているMapperとReducerを使い、ログからIPアドレス別集計を作る処理を定義している

 ニューヨーク・タイムズでは読者の閲覧履歴についてログ分析を行っていることから、これまでもAmazon EC2/S3上でHadoopを使っていたが、特別な知識や専門性が必要なことから、より簡単に使えるツールキットを実装したという。

 これまで同社はAmazon EC2上で構築したHadoopクラスタで、約130年分の過去記事、1100万枚分のスキャン画像をPDFに変換する処理を24時間以下で行うなど、大規模分散処理の分野では独自の取り組みを続けている。

(@IT 西村賢)

情報をお寄せください:

Coding Edge フォーラム 新着記事
@ITメールマガジン 新着情報やスタッフのコラムがメールで届きます(無料)

キャリアアップ

- PR -

注目のテーマ

ソリューションFLASH

「ITmedia マーケティング」新着記事

有料動画サービス 34歳以下では過半数が利用経験、4割は1日1回以上利用
「ニールセン・ビデオコンテンツ アンド アド レポート 2024」を基に、テレビ画面での動...

2024年のGW予算は横ばい 賃上げよりも物価高と円安の影響が勝る?――インテージ調査
インテージが全国の15歳から79歳の男女を対象に実施したゴールデンウイークに関する調査...

CNN幹部が語る、メディアビジネスにとってのAIのリスクと機会
生成AIがコンテンツを量産し、真偽の明らかでない情報があふれかえる中、メディアの価値...