コーネル大学の研究所は、低電力のウェアラブル無声音声認識インタフェース「EchoSpeech」を発表した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
コーネル大学のSciFi(Smart Computer Interfaces for Future Interactions)研究所は2023年4月6日(米国時間)、低電力のウェアラブルインタフェース「EchoSpeech」を発表した。EchoSpeechは、唇と口の動きに基づいて、音響感知と人工知能を利用し最大31個の発声されていないコマンドを認識する無声音声認識インタフェースだ。コマンドを認識してスマートフォンで実行できるようになるまでのユーザートレーニングには数分間しかかからないという。
「音を発声できない人にとって、このサイレントスピーチ技術は、音声シンセサイザーへの優れた入力方法となる可能性がある。患者の声を取り戻すことができるかもしれない」と開発者の一人であるルイドン・チャン氏は、この技術の潜在的な用途について語る。
EchoSpeechは2023年4月現在、騒がしいレストランや静かな図書館など、会話が不便、不適切な場所で、スマートフォンを介して他のユーザーと通信するために使用できる。サイレントスピーチインタフェースは、スタイラスペンと組み合わせて、キーボードやマウスを使わずにCADなどの設計ソフトウェアで利用することも可能だという。
EchoSpeechメガネは鉛筆の消しゴムよりも小さいマイクロフォンとスピーカーを備えており、顔全体に音波を送受信し、口の動きを感知することができる。SciFi研究所の研究者によって開発された深層学習アルゴリズムは、これらのエコープロファイルをリアルタイムで分析し、約95%の正確さで判別できるという。
SciFi研究所は、機械学習とウェアラブルな小型ビデオカメラを使用して体、手、顔の動きを追跡するウェアラブルデバイスを幾つか開発した。研究対象はカメラから離れて、顔や体の動きを追跡するための音響センシングに移行しており、バッテリーの長寿命化、セキュリティとプライバシーの強化、コンパクトさを実現したとしている。
「サイレント音声認識のほとんどの技術は、あらかじめ決められた少数のコマンド群に限定されており、ユーザーはカメラに顔を向けたりカメラを装着したりする必要があるが、これは実用的でない」と、チャン氏は述べている。「ウェアラブルカメラには、ユーザーとユーザーがやりとりする相手の両方にとって、プライバシーに関する懸念もある」(チャン氏)
Copyright © ITmedia, Inc. All Rights Reserved.