マイクロソフト、AI研究者向けに“10万件”のデータセット「MS MARCO」を無償公開:認知システム開発、汎用AI研究の推進に向け
マイクロソフトが、AIシステムの訓練に使える10万件のデータセット「MS MARCO」を公開した。匿名化された実際のデータを使った質問と回答のセットが含まれ、AIを用いた認知システムの開発を支援できるという。
米マイクロソフトは2016年12月16日(米国時間)、AI(Artificial Intelligence:人工知能)研究者向けに10万件のデータセット「MS MARCO」(Microsoft MAchine Reading COmprehension)の無償提供を開始した。MS MARCOは、匿名化された実際のデータを使った質問と回答をセットにした例となるデータセットで、AIを用いて人間のように質問を読んで回答できる認知システムの研究や開発に利用できるという。
MS MARCOを公開したマイクロソフトの研究者チームは、「このデータセットは、機械学習向けデータセットの中でも極めて有用だ。匿名化された実際の会話例に基づいているからだ。このデータセットを研究者に広く無償提供することが、画像認識や音声認識で既に起こっているようなブレークスルーが、マシンリーディング(機械読み込み)でも起こるきっかけにつながることを期待している」と公開の意図を述べる。
併せて同チームは、特定のタスクを高度にこなす「特化型AI(Narrow AI)」に対し、「汎用AI(Artificial General Intelligence)」と呼ばれる、人間と同じように思考できるAIの実現に向けた技術発展を促進できるとも期待する。
「汎用AIの実現には、人間のようにドキュメントを読み、理解できるシステムの研究が進む必要がある。今回のデータ公開は、これを実現する一歩となる」と、マイクロソフトの検索エンジン「Bing」部門でパートナーグループプログラムマネジャーを務めるランガン・マジュムダー氏は述べている。同氏はMS MARCOに関する取り組みのリーダーだ。
マジュムダー氏によると、複雑な質問に応答する認知システムは、まだ初期の段階にあるという。
「Bingのような検索エンジンや“コルタナ(Cortana)”のような仮想アシスタントは、“ハヌカー(ユダヤ教徒の祭り)は何月何日から始まるか”“2000×43の解答は何か”といった基本的な質問には既に答えられる。しかし検索エンジンや仮想アシスタントは多くの場合、まだユーザーに一連の検索結果を提供するにすぎない。ユーザーが必要な情報を入手するには、検索結果をさらに調べて、情報をより分けなければならない」(マジュムダー氏)。
この先、AI研究者が自動応答システムを改良するには、AIシステムが質問を認識し、答えを体系的に考えるように教育するための基礎訓練データが大量に必要となる。匿名化されたBingとコルタナの実際のクエリの中から、研究者にとって興味深いものを選び、質問例としてまとめたのがMS MARCOだ。その回答は、実際のWebページを基に人間が作成し、正確さも検証済みとしている。
同チームの研究者は、「人間が現実の世界で尋ねる質問には、明確な答えがないものや、複数の答えがあり得るものも含まれる。MS MARCOの実際的な質問と答えで構成される訓練データセットを使うことで、一般的な質問のニュアンスや複雑さによりよく対処できるように、システムを教育できる」と説明している。
さらに、マイクロソフトのディープラーニングテクノロジーセンターでパートナーリサーチマネジャーを務めるリー・デン氏によると、MS MARCOのデータは、研究者が高度なAI研究のために、ディープラーニングモデルを適用できるようにも設計されているという。
「MS MARCOのデータセットは、実際のデータを使っているだけでなく、新世代のディープラーニングモデルを適切に理解できるようにも設計されている」(デン氏)
マジュムダー氏は、システムが複雑な質問に答えられるようになれば、人間は、より効率的に情報を入手できるようになると語る。「例えば、学生がある融資プログラムを受けられるかどうかを知りたいとする。2016年現在は、検索エンジンで調べると幾つかのWebサイトが見つかるだろう。しかし、欲しい答えを得るには、それらのWebサイトにアクセスし、情報を読んで、内容を自身で判断しなければならない。仮想アシスタントが進化すれば、もっと答えを得やすい情報を提供してくれるようになる。さらにこの先の、例えば、“自身が融資を受ける資格があるかどうか”まで答えてくれるかもしれない」
「世界の知識は文字で書かれているものが多いので、マシンが人のようにドキュメントを読んで理解できれば、この種のさまざまなシナリオが現実になるはずだ」(マジュムダー氏)
MS MARCOデータセットは研究者に無料で公開されており、ダウンロードして非商業用途に利用できる。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか
「AI」「機械学習」「ディープラーニング」は、それぞれ何が違うのか。GPUコンピューティングを推進するNVIDIAが、これらの違いを背景および技術的要素で解説した。 - 人工知能はどうやって「学ぶ」のか――教師あり学習、教師なし学習、強化学習
Pepperや自動運転車などの登場で、エンジニアではない一般の人にも身近になりつつある「ロボット」。ロボットには「人工知能/AI」を中心にさまざまなソフトウェア技術が使われている。本連載では、ソフトウェアとしてのロボットについて、基本的な用語からビジネスへの応用までを解説していく。今回は、人工知能つまりコンピュータが「機械学習」という技術を使って、どうやって学習していくのかについて具体例を交えて解説する。 - Caffeで画像解析を始めるための基礎知識とインストール、基本的な使い方
最近注目を浴びることが多くなった「Deep Learning」と、それを用いた画像に関する施策周りの実装・事例について、リクルートグループにおける実際の開発経験を基に解説していく連載。今回は、画像解析における物体認識、Convolutional Neural Netの概要に加え、Caffeの環境構築の仕方や基本的な使い方を解説する。 - 顔写真3Dモデル化、絶対フォント感、複数画像検索、観光写真無人化、陰影分離、簡単フォント自作、消失点自動作成――デザイナー/クリエイターが茫然自失で拍手喝采な最先端技術動画11連発
アドビ システムズは、2015年10月6日(現地時間)に開催した「Adobe MAX 2015 Sneak Peeks」で、11の新技術を披露。顔写真3Dモデル化、絶対フォント感、複数画像検索、観光写真無人化、陰影分離、簡単フォント自作、消失点自動作成naなど、今回もデザイナー/クリエイターのみならず、日常的にデジカメやスマホで写真を撮る人でも欲しくなるような機能が多数見られた。