Hadoop生みの親が、ゼロックスからアップルに転職した理由:Go AbekawaのGo Global!〜Doug Cutting編(1/3 ページ)
Apache、そしてHadoopを作ったDoug Cutting(ダグ・カッティング)氏が常に目指すゴールとは――。 ※「お子さんがエンジニアになりたいと言ったら、どうアドバイスしますか?」〜カッティング氏の動画付き
アップルやディズニーなどの外資系企業でマーケティングを担当し、グローバルでのビジネス展開に深い知見を持つ阿部川“Go”久広が、グローバルを股に掛けたキャリアを築いてきたIT業界の先輩にお話を伺うインタビューシリーズ。第15回は「Hadoopの生みの親」Doug Cutting(ダグ・カッティング)氏に登場いただく。
Lucene、Nutch、Apache、そしてHadoopを作った男が考える、エンジニアの喜びとは――。
Doug Cutting(ダグ・カッティング)
Hadoopの生みの親、Apache財団のボードメンバー、「Cloudera(クラウデラ)」チーフアーキテクト。オープンソースの検索エンジン「Lucene」「Nutch」プロジェクトの創設者としても名高い。
「Excite(エキサイト)」「Apple(アップル)」「ゼロックスパロアルト研究所」などの勤務を経て、「Yahoo!(ヤフー)」に入社。ミッションクリティカル分析システムにおけるHadoopアプリケーション開発のキーメンバーとして3年間勤務の後、2009年にClouderaに入社。
スタンフォード大学卒(言語学)
スタンフォードでの専攻は「言語学」
阿部川“Go”久広(以降、阿部川) 最近のHadoopの活用事例を紹介してください。
Doug Cutting(ダグ・カッティング:以降、カッティング氏) 例えば、敗血症の患者を特定する分析用ツールを、米国の電子カルテ企業に提供しています。世界中の病院でHadoopが利用されており、既に何万人もの命を救いました。このようなプロジェクトに関われることを心から光栄に思いますね。
阿部川 テクノロジーが私たちの生活の質を向上させていく好例ですね。
カッティング氏 ええ。あるリサーチャーによると、これからはがん患者1人1人の症状に合わせた治療を効果的にできるようになるのではないか、とのことです。
多くの患者の症状、腫瘍の状態、突然変異の状態がビッグデータとして蓄積されていけば、それが可能になります。まさかデータシステムががん治療に役立つとは考えていませんでしたが、今では非常に有効な手段の1つになりました。
阿部川 「全てにデータあり」ですね。全てのものはスキャンし、データとして情報化が可能である。そこに世の中をより良くしていくためのヒントが隠されているように思います。
カッティング氏 データプロセッサーやセンサーなどの機能はどんどん進化し、しかも安価になったので、多くのデータの作成や集積が可能になりました。そのおかげで私たちは、常に何かしら新しいことを発見したり作り出したりできる。とても良い循環になっていると思います。
阿部川 ところでダグさんは、スタンフォード大学では言語学をご専攻されたとか。
カッティング氏 はい。私は、ワインで有名なカリフォルニア州ナパ郡の小さな町で育ちました。1980年代に地元のカレッジに通い、そこで初めてコンピュータに出会いました。
プログラミングができるようになり、もっとコンピュータのことを学びたいと思ったのですが、当時スタンフォード大学にはコンピュータサイエンスの学部がなく、代わりに哲学科や言語学科のコースの中に、コンピュータサイエンスを学ぶ講座がありました。応用言語学や計算言語学という分野で、言語の論理性や法則性などを研究する必要があるためです。
阿部川 プログラミングも言語の分野の1つではありますね(笑)。
カッティング氏 その通りです。その後大学院で、言語学に関連するコンピュータシステムの構築を専攻しました。音声認識やテキストの検索や細分化、クラスタ化などですね。
どのようにすれば言葉や単語をテキストの中から探し出せるのか、そのための標準的な方法にはどのようなものがあるか、あるいは言語の形態論などについて研究しました。言語学はどちらかというと数学に近く、コンピュータを用いて研究することは理にかなっていました。
阿部川 フィールドは言語学ですが、既にエンジニアだったわけですね。
カッティング氏 言語学の研究は楽しかったですよ、それを職業にしようとは思っていませんでしたが。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Hadoopの父に聞く、HadoopとClouderaの現在・未来
次世代Hadoopの特徴は、MapReduce 2とGiraph - いまさら聞けないHadoopとテキストマイニング入門
Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します - Sparkは“誰”に例えられる?──多様化と進化を続ける「Hadoop」、人気急上昇「Spark」
先日、日本Hadoopユーザー会主催のイベントが開催されました。データベースと関係性が深いデータ分散処理プラットフォームである「Hadoop」と「Spark」の最近事情に迫ります - もし、あなたが「“ビッグデータプロジェクト”を任せる。何とかするように」と言われたら
「ビッグデータプロジェクトを始めることになった」ら、具体的に何をするのか。本連載は、「ビッグデータプロジェクトの“進め方”」を業務視点/ビジネス視点の両面から体系的に理解し、具体的に実践していく方のためのナレッジアーカイブです。第1回目は、「ビッグデータとは何か」の基礎と、「ビッグデータ基盤の概要とメリット」を解説します - Hadoopは「難しい・遅い・使えない」? 越えられない壁がある理由と打開策を整理する
ブームだったHadoop。でも実際にはアーリーアダプター以外には、扱いにくくて普及が進まないのが現状だ。その課題に幾つかの解決策が出てきた。転換期を迎えるHadoopをめぐる状況を整理しよう