起動コマンドを間違える音声アシスタント、どの単語がまずいのか?:AlexaやGoogle、Siriを調査
ルール大学とマックスプランクサイバーセキュリティアンドプライバシー研究所の研究者のチームは、音声アシスタントがウェイクワード(音声による起動コマンド)と誤認する言葉を調査した。その結果1000以上の音声シーケンスが見つかった。
ルール大学とマックスプランクサイバーセキュリティアンドプライバシー研究所の研究者のチームが、音声アシスタントがウェイクワード(音声による起動コマンド)と誤認する言葉を調査した。
研究チームはさまざまな音声アシスタントを対象に調査を進め、ウェイクワードとして繰り返し誤認された英語、ドイツ語、中国語の言葉をリストにまとめた。このリストは「unacceptable-privacy.github.io」で公開されている。
研究チームが調査した音声アシスタントは、Amazon.com、Apple、Google、Microsoft、Deutsche Telekomがそれぞれ開発したものと、Xiaomi、Baidu、Tencentが開発した3つの中国語モデルだ。研究チームはこれらの音声アシスタントに、長時間にわたって英語、ドイツ語、中国語の音声素材を聞かせた。その中には、テレビドラマシリーズとして広く視聴された「Game of Thrones」「Modern Family」「House of Cards」の幾つかのシーズンの他、ニュース放送、スマートスピーカーのトレーニングに使われる音声データセットが含まれる。
研究チームは、これらの音声アシスタント全てに光センサーを取り付けた。光センサーは、スマートスピーカーのアクティビティーインジケーターが点灯したことを、検知して記録するためのものだ。
インジケーターはデバイスがアクティブモードに切り替わったときに点灯する。放送などを聞かせたときに点灯したとすれば、音声アシスタントがその音声をウェイクワードとして認識したことになる。この他、研究チームは音声アシスタントがデータを外部に送信した際に記録する仕組みも作った。
音声アシスタントのいずれかがアクティブモードに切り替わると、どの音声シーケンスがそれを引き起こしたかを記録し、続いてどの言葉が音声アシスタントを起動させたかを手動で調査した。
音声アシスタントがウェイクワードと誤認した音声シーケンスは1000以上に上った。発音によるものの、Alexaは「unacceptable」「election」という語に反応する。同様に、Googleは「OK, cool」に、Siriは「a city」に、Cortanaは「Montana」に、Amazonは「and the zone」に、Echoは「tobacco」にそれぞれ反応する。
誤認を防ぐ仕組みはどうなっているのか
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 「スマートスピーカー」の中にある「人工知能」は何をしているのか、作り方から理解する
世界の名だたるプラットフォーマーが開発に力を入れる「スマートスピーカー」。どのような手順でどんな処理が行われているのかは完全にブラックボックスだ。「スマートスピーカーを理解するには、自作するのが早道」と提唱する開発者に話を聞いた。 - 2020年度版「音声技術関連サービスのカオスマップ」を公開 エピックベース
エピックベースは、音声技術関連サービスの2020年度版カオスマップを公開した。カオスマップには文字起こしや音声認識、ビデオチャットなどのサービスや製品が掲載されている。 - Facebook、オンライン音声認識に使用可能な推論フレームワークをオープンソース化
Facebook AI Researchは、オンライン音声認識に使用可能な推論フレームワーク「wav2letter@anywhere」を開発し、オープンソースソフトウェアとして公開した。