学習し、判断する人工知能「Watson」。これを動かすために使われるデータベース関連技術をウォッチする。MongoDB対抗も可能な実装を盛り込んだPostgreSQL 9.4と今後の動向も追った。
2015年はIBMの「IBM Watson(以下、Watson)」が企業システムと着々とつながる年になるかもしれません。また、PostgreSQLは9.4が正式発表されたところですが、次の9.5およびその先をうかがってみます。
IBMが開発している人工知能Watsonをご存じでしょうか。もともとは、米国の視聴者参加型クイズ番組で人間と勝負をして勝つこと、を目標に開発されてきた技術です。数年前、ついにそのクイズ番組で人間を相手にみごと勝利して一躍有名となりました。最近では、「シェフワトソン」として斬新なレシピを考案しています。
これらは能力を披露するためのパフォーマンスに思われますが、そもそもWatsonという(広義の)人工知能エンジンの特徴は、あらかじめ学習したデータを基に次を「考える」「判断する」ことにあります。しかも、人間が無意識でものを考えるように高速に、です。
Watsonの人工知能がどのようなものかを考えるには、「一般的な検索エンジン」と「Watson」に「問い掛ける」ことで分かりやすくなるでしょう。
例えば、一般的な検索エンジンでは、問い合わせたキーワードに対して関連性の高いものをスコアリングし、順番に、あるだけ羅列します。一方、Watsonはあらゆる情報から一つの最適解を計算して回答します。厳密には背後で複数の回答候補を比較し、正答確率が最も高いものを算出して選んでいます。
膨大かつ多様なデータを分析し、答えを出してくれるWatsonは、いま実用化に向けて着実に動いています。医療分野向けでは文献や臨床データを読み込み(学習し)、最適な治療方法が提案できるように準備が進められています。そのうち「ドクターワトソン」といった愛称が付くかもしれません。
Watsonに象徴される技術は、今後企業の情報分野にも大きく進出してきそうです。
例えば「今年度、あの製品の売り上げが伸びなかったのはなぜだろう」「新製品のデザインはどれにしたら売上を最大限伸ばせるだろうか」という問いに答えてくれるかもしれません。
その第一歩となりそうなのが「IBM Watson Analytics」です。昨年秋に発表され、2014年12月18日から正式提供開始となりました。ただし、残念ながら現段階では日本語には未対応です。
特徴は、日常会話のような対話型の自然言語インターフェースを持ち、回答時にはグラフや地図を多用した視覚的な表現能力があること、高度な予測分析が可能であること、そして、クラウド上で稼働することにあります。Webサイトに登録すれば誰でも使えます。チュートリアルで自分が保有したデータを読み込ませる、予測するなどの機能が利用できます。
現時点では無償版と有料のパーソナル版が提供されています。ストレージサイズで見ると無料版が500MB、有料版が2GBです。データ圧縮ができるので、実際にはこれよりも大きなデータ量を扱えるようですが、まだそう大きなサイズではありません。
ストレージサイズだけではなく、じきに機能などが拡張され、エンタープライズ向けのエディションが提供されるのではないでしょうか。
私見ですが、現段階ではWatson Analyticsはビジネス分野における情報分析のショールーム的な存在ではないでしょうか。まずは「データをロードして試してみてみて」と。本当の実用化に向けてやるべきことは多々あります。
何よりも大事なのは、あらゆるデータを取り込めるようにすることです。クイズ王のWatsonにしても、シェフワトソンにしても、医療分野のWatsonにしても膨大なデータを読み込んでいるからこそ、精度の高い回答ができるのです。いくらWatsonに分析能力があったとしても、十分なデータを与えなくては的確な回答は導き出せません。
企業情報システム向けのWatsonを育てるとしたら、業務に関係がありそうなデータを全て読み込ませる必要があります。例えばPOSの売上データ、計測器のデータ、SNSのデータなど業務に応じて多岐に分かれるでしょう。多様なデータを包括的に扱えるようにすることが現段階での課題です。
2014年12月18日のWatson Analyticsの発表時、日本IBMは企業システムでWatsonの実用化に向けた現実的な構想も開示しました。既存資産となる実在するシステムも含めていかにデータをWatsonに渡すか。IBMが提唱するビジネス分野における分析環境が下図です。
まず、学習させるための資料となるデータソースは、「DB2」(RDB)、「Cloudant」(NoSQL)、「BigInsights」(Hadoop)、「InfoShere Streams」(ストリームデータ処理基盤)などを網羅するようになっています。これらのデータソースに対して、抽出、変換、ロードを行うためのETLツールが「DataWorks」です。
分析のキモとなるのが、2014年9月に発表となった新しいデータベース「dashDB」です。これはクラウドベースのデータウェアハウスとも呼ばれています。DB2 BLUアクセラレーション機能とNetezzaのIn-Database分析機能を併せ持ち、同社IaaSサービスである「SoftLayer」上で稼働します。
dashDBを中心としたデータのプラットフォームの先はいよいよ分析です。
IBMとしては、分析と会話調のインターフェースを持つ「Watson Analytics」が本命でしょう。しかし、「Cognos」や「SPSS」といった従来のデータ分析ツールを使うことも可能です。
あらゆる既存ツールをカバーしているところがIBMらしい現実解という気がします。クラウドのみだけではなくオンプレミスとのハイブリッドも含めて「何でもありですよ」と示し、誰もがWatsonに近づけるようにしています。
Copyright © ITmedia, Inc. All Rights Reserved.