検索
ニュース

起動コマンドを間違える音声アシスタント、どの単語がまずいのか?AlexaやGoogle、Siriを調査

ルール大学とマックスプランクサイバーセキュリティアンドプライバシー研究所の研究者のチームは、音声アシスタントがウェイクワード(音声による起動コマンド)と誤認する言葉を調査した。その結果1000以上の音声シーケンスが見つかった。

Share
Tweet
LINE
Hatena

 ルール大学とマックスプランクサイバーセキュリティアンドプライバシー研究所の研究者のチームが、音声アシスタントがウェイクワード(音声による起動コマンド)と誤認する言葉を調査した。

 研究チームはさまざまな音声アシスタントを対象に調査を進め、ウェイクワードとして繰り返し誤認された英語、ドイツ語、中国語の言葉をリストにまとめた。このリストは「unacceptable-privacy.github.io」で公開されている。

 研究チームが調査した音声アシスタントは、Amazon.com、Apple、Google、Microsoft、Deutsche Telekomがそれぞれ開発したものと、Xiaomi、Baidu、Tencentが開発した3つの中国語モデルだ。研究チームはこれらの音声アシスタントに、長時間にわたって英語、ドイツ語、中国語の音声素材を聞かせた。その中には、テレビドラマシリーズとして広く視聴された「Game of Thrones」「Modern Family」「House of Cards」の幾つかのシーズンの他、ニュース放送、スマートスピーカーのトレーニングに使われる音声データセットが含まれる。

 研究チームは、これらの音声アシスタント全てに光センサーを取り付けた。光センサーは、スマートスピーカーのアクティビティーインジケーターが点灯したことを、検知して記録するためのものだ。


光センサーを使って、スマートスピーカーのアクティビティーインジケーターLEDの点灯を検知、記録した(出典:ルール大学、Maximilian Golla)

 インジケーターはデバイスがアクティブモードに切り替わったときに点灯する。放送などを聞かせたときに点灯したとすれば、音声アシスタントがその音声をウェイクワードとして認識したことになる。この他、研究チームは音声アシスタントがデータを外部に送信した際に記録する仕組みも作った。

 音声アシスタントのいずれかがアクティブモードに切り替わると、どの音声シーケンスがそれを引き起こしたかを記録し、続いてどの言葉が音声アシスタントを起動させたかを手動で調査した。

 音声アシスタントがウェイクワードと誤認した音声シーケンスは1000以上に上った。発音によるものの、Alexaは「unacceptable」「election」という語に反応する。同様に、Googleは「OK, cool」に、Siriは「a city」に、Cortanaは「Montana」に、Amazonは「and the zone」に、Echoは「tobacco」にそれぞれ反応する。

誤認を防ぐ仕組みはどうなっているのか

 音声アシスタントがなぜこれらの言葉をウェイクワードと誤認するのかを理解するため、これらの言葉をできるだけ音声単位に分解し、音声アシスタントが頻繁に誤認する音声単位を特定した。これを基に、新しいウェイクワードを生成し、音声アシスタントを起動できることを示した。

 ここまでは音声シーケンスに基づいた研究だ。続いて音声アシスタントのメーカーが、ウェイクワードの誤認をどのように評価するのかも分析した。評価プロセスは一般に2段階から成る。まず、デバイスがローカルで、自身が認識した音声がウェイクワードを含むかどうかを分析する。ウェイクワードを聞いたと判断すると、デバイスは現在の会話をメーカーのクラウドにアップロードする。

 クラウドでは大量のコンピューティングパワーによって詳細な分析が進む。ウェイクワードではないと判定されると、音声アシスタントは反応せず、インジケーターが短時間だけ点灯する。この場合、数秒間の録音がメーカーの元に残り、ウェイクワードだと再び誤認されないよう、メーカー側が人手でテキスト化する可能性がある。

 研究チームは、次のような見方を示している。「プライバシーの観点からすると、これは憂慮すべきだ。プライベートな会話が赤の他人に知られる場合があるからだ。だが、エンジニアリングの観点では、このアプローチはよく理解できる。こうしたデータによってシステムを改良できるからだ。メーカーは、データ保護と技術的最適化のバランスを取る必要がある」

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る