＠IT
クラウド
Cloud Native Central
テレビの音声操作、大幅な精度向上をウォータールー...

テレビの音声操作、大幅な精度向上をウォータールー大学などの研究チームが実現：1700万人の使い勝手を改善

カナダのウォータールー大学、米メリーランド大学、Comcast Applied AI Research Labの共同研究により、テレビを音声操作する際の精度を大幅に向上させる方法が見つかった。1700万人の視聴者が日々利用しているテレビシステム上で動作中だ。

» 2018年09月07日 12時00分公開

[＠IT]

　カナダのウォータールー大学と米メリーランド大学、Comcast Applied AI Research Labの研究者チームの研究により、テレビなどのホームエンターテインメントプラットフォームが、音声による指示を「理解する」能力を高める方法が分かった。

　この研究は人工知能（AI）を使って、従来と比較して最も自然にテレビを音声操作できるようにすることを目指している。

　「iOS搭載デバイスで利用できる『Siri』や、Amazon Echo搭載の『Alexa』など、AIアシスタントに音声で指示して用事を済ませることにわれわれは慣れている。テレビで同じことができないはずがない」。ウォータールー大学教授で、研究者チームに参加しているジミー・リン氏はこう語る。

　「（テレコミュニケーション企業である）Comcastの『Xfinity X1』は、まさにこれを目指している。付属の“音声リモコン”は、音声による指示を受け付ける。自分の希望を言えば、それがコマンドになる。『チャンネルを変える』『子ども向けの無料映画』『天気予報』といった具合だ」（リン氏）

Xfinity X1付属の音声リモコン　リモコン上部のマイクに直接話しかける（出典：Comcat）

　音声の指示を「理解」させる複雑な問題に取り組む中で、研究者チームは、階層型リカレントニューラルネットワーク（N-HRNN）という最新技術を利用して、モデルコンテキストとシステムの精度を改善するアイデアを考え出した。

　2018年1月、システムが実際のユーザーの指示に応えられるように、N-HRNNモデルを本番環境に展開した。本番環境とは1700万人のユーザーを抱えるComcastのXfinity X1プラットフォームだ。同プラットフォームは2015年に提供が始まり、2016年の段階で年間34億ものボイスコマンドを受け付けている。

　従来のシステムでは、ユーザーの音声指示のうち約8％を理解できなかったが、新しいモデルは、非常に複雑な指示の大部分を適切に処理し、ユーザーエクスペリエンスが大幅に向上した。

　「視聴者が『Chicago Fire』と言うとき、（6年間続いている）テレビドラマシリーズを指す場合と、（1997年設立の）サッカーチームを指す場合がある。システムは、ユーザーがどちらを求めているのか分かるようになった。われわれのアプローチの特徴は、視聴者が以前に見た番組や、好きなチャンネルといったコンテキストを利用することだ。こうして指示対応をパーソナライズし、精度を高めている」（リン氏）

　研究者チームは、さらに高度なモデルの開発に着手している。この取り組みは、「さまざまな観点から指示を分析することで、システムが視聴者の意図をより的確に理解できるようになる」という考え方に基づいている。

　メリーランド大学の博士課程修了者ジンフェン・ラオ氏、同氏のアドバイザーであるリン氏、メンターであるComcast Applied AI Research Labの研究者ファーラン・テュア氏から成る研究者チームは研究成果の論文「Multi-Task Learning with Neural Networks for Voice Query Understanding Entertainment Platform」を、2018年8月に英国で開催された第24回「ACM SIGKDD International Conference on Knowledge Discovery & Data Mining」で発表した。