Hadoop生みの親が、ゼロックスからアップルに転職した理由:Go AbekawaのGo Global!〜Doug Cutting編(2/3 ページ)
Apache、そしてHadoopを作ったDoug Cutting(ダグ・カッティング)氏が常に目指すゴールとは――。 ※「お子さんがエンジニアになりたいと言ったら、どうアドバイスしますか?」〜カッティング氏の動画付き
検索! 検索! 検索!
カッティング氏 最初に就職先したのはXerox(ゼロックス)のパロアルト研究所です。そこでテキストの検索やクラスタ化などを自動で行うシステムを研究していました。
インターネットが普及する前でしたが、当時からゼロックスは将来を見据えた技術開発を行っており、近い将来、人々が全てのドキュメントをスキャンできるような時代が来ると予測していました。
コピー機能はファイルシステムに進化し、ドキュメントをそこに入れておけばコピー機能が作動し、そこには複写されたドキュメントがファイルとして収納される。そのためにドキュメントを検索する技術が必要だと。私は初めてテキスト検索技術に出会い、検索エンジンの開発を学びました。5年ほど勤めて、Apple(アップル)に移りました。
阿部川 私もちょうどその時にアップルに在籍していたんですよ。クパティーノ(アップルの本社)のどこかですれ違っていたかもしれませんね。
カッティング氏 そうでしたか! ちょうど「Coopland」(当時のアップルの次期OSシステムのコード名)を開発中で、私はそのOSの中にどうやって検索機能を持たせるかを開発していました。
OS内の全てのテキストをインデックス化して検索機能を充実させる計画でしたが、ご存じの通りこのOSは開発が中止されてしまって……。とても残念な思いをしましたが、この時に研究していた検索技術が「Spotlight」(MacOS Xから登場した検索機能)として実を結んだので良かったです。
1996年にExcite(エキサイト)に移り、検索技術の主任エンジニアとしてエキサイトの市場拡大に腐心しました。
阿部川 当時はAltaVista(アルタビスタ)が検索エンジンの最大手でしたね。
カッティング氏 そうそう、まだ起業してはいませんでしたが、後のGoogle(グーグル)のメンバーとも協議したことがありますよ。「自分たちの検索技術の方がずっと優れている」といって売り込みに来たのです。当時は彼らの技術を信用できなかったので、断りましたが(笑)。
Lucene→Nutch→Apache→Hadoop
阿部川 「Lucene」を開発されたのはいつですか?
カッティング氏 エキサイトにいたころです。ITバブルがはじけた時に、「もしかしたら仕事がなくなることがあるかもしれない」と思い、当時持っていた新しい検索エンジンのアイデアを形にしたのです。
週のうち3日はエキサイトに勤め、残りの2日を自宅でLuceneの開発に費やしました。エキサイトが2000年に倒産したとき、本格的にLuceneをビジネス化することも考えましたが、そのとき「自分が熱中できるのは起業やビジネスではない」ということに気付きました。
「より多くの人々にこのテクノロジーを使ってもらうこと」が何よりも喜びであり、私の最終的なゴールだと。そこでこの技術をオープンソース化することにしたのです。その後、Luceneを基本のコンポーネントとした「Nutch」を開発します。
オープンソースであれば、その仕組みを誰でも見られます。それによって、製品が切磋琢磨され品質が向上する。
今でこそ検索技術の向上は重要事項と認識されていますが、2002年から2003年くらいまでは、関心を持つ人はいませんでした。誰もやっていなかったからより魅かれたともいえます。「すばらしい検索技術の中身を、皆が見られるようにしたい」と思いながら開発していました。
阿部川 Nutchは2006年に、Yahoo!(ヤフー)の手に渡りましたね。
カッティング氏 Nutchというか「Apache」ですね。当時のヤフーは一般的な目的でのプロセスフレームワークを求めており、私たちはそれについての新しいプロジェクトをスタートさせました。それが「Hadoop」です。
Hadoopの全ての仕事はApacheが基になっており、Apacheのコミュニティーは常にこの活動を支援してくれました。ヤフーも非常に大きな貢献をしてくれました。
阿部川 Hadoopという名前は、ダグさんのお子さんが命名なさったとか?
カッティング氏 ええ。息子の持っていた象のぬいぐるみの名前です。
阿部川 オープンソース関連のソフトウェアやシステムは、動物に関係する名前が多いですね。Linuxのペンギン、SUSEのゲッコーにMozillaの狐……。
カッティング氏 確かに(笑)。個人的な考えですが、ソフトウェアをより身近に感じてもらえるように、マスコットが必要なのだと思います。スポーツチームがシンボルやマスコットに動物を用いるように。動物はアイコンとして最適ですからね。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Hadoopの父に聞く、HadoopとClouderaの現在・未来
次世代Hadoopの特徴は、MapReduce 2とGiraph - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - Sparkは“誰”に例えられる?──多様化と進化を続ける「Hadoop」、人気急上昇「Spark」
先日、日本Hadoopユーザー会主催のイベントが開催されました。データベースと関係性が深いデータ分散処理プラットフォームである「Hadoop」と「Spark」の最近事情に迫ります - もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう