ロボットが人間と自然に話すための技術――音声認識、音声合成、知的エージェント、感情認識、感情生成：ロボットをビジネスに生かすAI技術（4）（1/2 ページ）

Pepperや自動運転車などの登場で、エンジニアではない一般の人にも身近になりつつある「ロボット」。ロボットには「人工知能／AI」を中心にさまざまなソフトウェア技術が使われている。本連載では、ソフトウェアとしてのロボットについて、基本的な用語からビジネスへの応用までを解説していく。今回は、ロボットや人工知能が人間と自然に話すための技術として、音声認識、音声合成、知的エージェント、感情認識、感情生成を紹介。

[神崎洋治，著] PC用表示関連情報

LINE

Hatena

連載目次

書籍の中から有用な技術情報をピックアップして紹介する本シリーズ。今回は、秀和システム発行の書籍『図解入門最新人工知能がよーくわかる本（2016年7月4日発行）』からの抜粋です。

ご注意：本稿は、著者及び出版社の許可を得て、そのまま転載したものです。このため用字用語の統一ルールなどは＠ITのそれとは一致しません。あらかじめご了承ください。

※編集部注：前回記事『シンギュラリティ（技術的特異点）――人間の脳を超える「強いAI」はいつ生まれるのか』はこちら

人間と自然に会話するコンピュータ

　SF映画やコミックに登場するロボットや人工知能は、まるで人間のように会話をすることができます。人間が話しかけた内容や人間同士の会話を正確に理解し、必要としている情報を回答したり、アドバイスをしたりしてくれる……そんなシーンが描かれています。これには、どのような技術が必要なのでしょうか。

会話に必要な技術

　人間が普段からの会話で話している言葉を「自然言語」といいます。自然言語での会話が成立してはじめて「人と同じようにコンピュータと話すことができる」と感じます。

　会話を聞きとるということは、コンピュータにとっては入力に当たります。英語ではそのまま「Speech to Text」、日本語では「音声認識」と呼ばれる技術が使われます。コンピュータが返事を返す際には出力（発話）を行いますが、それも英語ではシンプルに「Text to Speech」、日本語では「音声合成」という技術が使われています。

人間の言葉を聞き取る「Speech to Text」（音声認識）とコンピュータが合成音声で話す「Text to Speech」が使われる。音声認識されたテキスト文は単語や文節に解析され、機械が処理するデータへと変換される。

音声認識機能にAI技術を導入

　自然会話を実現するには、非常に高い音声認識技術が必要とされています。音声認識で最も馴染みのあるものが、iPhoneの「Siri」やAndroid OSの「OK Google」（Google NOW）、Microsoftの「Cortana」（コルタナ）、NTTドコモの「しゃべってコンシェル」などの音声認識型パーソナルアシスタントです。

　スマートフォン・ユーザなら一度や二度は使ったことがあると思いますが、自分の話す言葉をパーソナルアシスタントが聞き取りやすいように大きな声でハキハキと話したり、単語を区切って話したり等、ユーザが工夫しないと上手く認識してくれない、という経験がある人も多いでしょう。Apple、Google、Microsoft、NTTドコモともに人工知能関連技術の開発には積極的な企業で、上記パーソナルアシスタントにはどれもそれらの関連技術が使われているものの、ユーザが満足する認識率には達していません。

　それでもGoogleの発表によると、Android OS 4.3でディープラーニング技術を採用した際、音声認識率の精度が25%から50%に向上したとしています。また、Googleの上級副社長のコメントによれば、ディープラーニング導入によって、音声認識機能の誤認識率は23%から8%に減少するとしています。いずれにしても、人間と同様に自然会話するにはまだ遠いですが、ディープラーニングによって音声認識率が大きく前進したことを示唆しています。

パーソナルアシスタント機能（知的エージェント）

　パーソナルアシスタント機能は、Apple、Google、Microsoftが熾烈な先進技術の争いを繰り広げる場となっています。

　Appleは、音声認識技術とは別に「Proactive Assistant」機能でパーソナルアシスタントを強化し、iOS 9から搭載しました。Proactive Assistant機能をひと言で言うとユーザの「行動予測」「行動の先読み」です。

　例えば、iPhoneにイヤホンを挿したら、通常使用している音楽アプリを起動し、その時間帯によく聴いている音楽再生の準備をするとか、メールの内容によって自動的にカレンダーに登録するといった機能です。また、よく連絡をとる相手をリスト表示したり、よく使うアプリやコンテンツ、よく使うウェブサイト等の更新情報を表示する機能もあります。

　Appleの公式サイトでは、この機能を次のように具体的に解説しています。ヘッドフォンをつなぐと、iOS 9はさっき聴きはじめたPodcastの続きをあなたが最後まで聴きたいのかもしれないと認識したり、Eメールのメッセージやカレンダーの出席依頼に誰かを加えると、その人と一緒にいつも加える人も追加するか、iOS 9が提案したり、フライト情報やディナー等の予約情報が書かれたEメールを受け取った時は、カレンダーに自動登録したりします。

　これらは、ユーザのサービスやアプリ利用履歴（Apple標準アプリ以外のものも含む）、メール、カレンダーなどの情報と連携して行われています。この機能を具体的に体感できる方法のひとつが「Spotlight」です。iPhoneのホーム画面で上から下になぞるようにスワイプするか、左から右にスワイプすることで検索画面になります。これがSpotlightで、ここに音声またはキー入力でワードを入れるとメール、リマインダー（スケジュール）、メモ、ウェブブラウザのブックマーク、iTunes Store、Wikipedia、ウェブページ等を検索した結果を一覧で表示します。

　GoogleのAndroidにも「Now on Tap」という同様のユーザ行動予測機能があり、どちらも今後は人工知能技術の導入によって精度が高まると期待されています。

iPhoneの内部とウェブにある情報を串刺し検索して結果を表示。ProactiveAssistant機能によるユーザーの行動予測とも連携する。画面はSpotlightで「ロボット」と検索した例。ロボットに関連するブラウザのブックマーク、Wikipedia、リマインダー（予定表）等のデータが一覧表示される。

アップルの公式サイトでは連絡先、アプリケーション、周辺のスポットなどが検索画面にあらかじめ表示され、行動の先を読む機能として紹介されている（出典　アップル公式サイト）。

Proactive Assistant機能を紹介した画面。音楽やオーディオを聴く、Eメールやイベントを作る、カレンダーにイベントを加える、「これ、誰からの電話？」などの例が画面で紹介されている（出典　アップル公式サイト）。

　パーソナルアシスタント機能の本題に戻ります。

　総務省が発表した平成26（2014）年「ICT先端技術に関する調査研究」にも、携帯電話端末上での新たなAIの象徴的なサービスとして「パーソナル・アシスタント」が挙げられています。そこでも、Apple、Google、Microsoft、Amazonなど主要な海外プレイヤーに加え、NTTドコモ、KDDI、Yahoo! JAPAN（ヤフー株式会社）といった日本企業もパーソナルアシスタント分野に参入し、技術開発に当たっていることを示しています。また、これに加えて、Facebookも米国向けにサービスを開始しています。

**代表的な音声認識とパーソナルアシスタント**
	提供者	サービス名	プラットフォーム	提供開始	内容
	Apple	Siri	iOS	2011年10月	音声入力による検索、端末操作、文章作成、質問応答
	Google	音声入力	検索機能	2009年9月	音声入力による検索、文章作成
	Google	Google Now	Android、iOS	2012年7月	検索履歴を元にした情報の提案
	Microsoft	Cortana	Windows Phone	2014年4月	音声入力による検索、端末操作、検索履歴を元にした情報の提案
	Amazon	Amazon Dash	専用デバイス	2014年4月	音声入力やバーコード読み取りによる買い物支援
	NTTドコモ	しゃべってコンシェル	Android、iOS	2012年3月	音声入力による検索、端末操作、文章作成、質問応答
	KDDI	おはなしアシスタント	Android	2012年11月	音声入力による検索、端末操作、文章作成、質問応答
	Yahoo! Japan	Yahoo! 音声アシスト	Android	2012年4月	音声入力による検索、端末操作
Apple、Google、Microsoft、Amazonなど主要なプレイヤーがパーソナルアシスタント分野に参入している（出典　総務省『平成26年版情報通信白書に掲載している調査』から「ICT先端技術に関する調査研究」（株式会社KDDI総研作成）に基づいて作図。

　Facebookは、2015年8月に米国シリコンバレー地域限定でパーソナルアシスタント「M」のサービスを開始しました。

　画面はFacebook Messengerと同じです。AI機能で質問に答えるだけでなく、追加の提案やリコメンド（推奨）を行い、なんと機械が答えられない質問に対しては人間のスタッフが回答し、より人間らしい会話の継続を目指す徹底ぶりです。Facebook Mにも先読みの機能が導入されていて、行き先をトラッキングして天気予報を随時伝えたり、渋滞情報を提供したりします。Facebookの強みはなんといってもユーザが投稿した情報を含めた膨大なビッグデータを持っていることです。GoogleやMicrosoft（Bing）もウェブ検索などの膨大なビッグデータを持っています。音声認識機能の精度向上に加えて、ビッグデータを持つ企業がこの先をリードしていくことが予想されています。

　Amazonはオンラインショッピングサイトで知られているので、検索サイトやFacebookなどとは業種が異なるような気がしますが、ショッピングサイトにおけるリコメンド機能を早々に導入し、実用化してきたことや、AI技術によって今後は店舗にもエージェント機能の導入が予想されているため、この分野でも技術的にリードしたい考えです。

COLUMN　Amazon EchoとAlexa

　直径8.4cm、高さ23.5cm、独特な円筒型の本体をした「Amazon Echo」（エコー）はAmazonのAIエージェント「Alexa」（アレクサ）を搭載しています。AppleのSiriと同様、会話によってやりとりを行います。天気やニュース、渋滞情報はもちろん、ネット検索と連動して簡単な質問に答えてくれます。また、Amazonらしく、買い物リストを作ったり、「Amazon Prime Music」の楽曲再生もできます。

　「Amazon Echo」と連携できる小型の「Amazon Tap」や更に小型の「Echo Dot」も発売され、今後はスマートホーム機器との連携も充実していく気配です。

2014年11月に米国で発売されたAmazon Echo。BluetoothスピーカーにAIエージェントが付いた感じ。

ロボットと「感情」

　　　　　　 | 次のページへ

子どもだけではなく全ての日本国民にとってプログラミングが重要である、たった1つの理由
政府の新たな成長戦略の中で、小学校の「プログラミング教育」を必修化し2020年度に開始することが発表され多くの議論を生んでいる。本特集では、さまざまな有識者にその要点について聞いていく。今回はビジュアルプログラミングツール「Viscuit」の開発者である原田康徳氏。
君はシンギュラりたい顔をしている
体内のシンギュラリ体を20年後に活性化させるセミナーに参加しませんか？続きは特異点で。
第6話「AI」が婚活サイトのサクラ？――シンギュラリティの芽生え
ミニスカ調査員「ユカリ」が受け取った不気味なDM、匿名掲示板に書き込まれた「ある」うわさ、そしてハーフ社長の暗い過去――これは単純な結婚サギなのか、それとも……？

ロボットが人間と自然に話すための技術――音声認識、音声合成、知的エージェント、感情認識、感情生成：ロボットをビジネスに生かすAI技術（4）（1/2 ページ）