Facebook AI Researchは、オンライン音声認識に使用可能な推論フレームワーク「wav2letter@anywhere」を開発し、オープンソースソフトウェアとして公開した。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Facebook AI Researchは2020年1月13日(米国時間)、音声をリアルタイムでテキストに変換するプロセスであるオンライン音声認識に使用可能な推論フレームワーク「wav2letter@anywhere」を開発し、オープンソースソフトウェアとして公開したと発表した。
wav2letter@anywhereは、Facebook AI Researchのオープンソース音声認識ツールキット「wav2letter」「wav2letter++」をベースにしている。ライブ動画キャプション作成やオンデバイス音声テキスト変換のようなアプリケーションで重要となる、音声入力からテキスト出力までのレイテンシの短縮ニーズに対応して開発された。
ほとんどの既存のオンライン音声認識ソリューションは、「再帰型ニューラルネットワーク(RNN)」のみをサポートするが、Facebook AI Researchはwav2letter@anywhereで、「完全畳み込みアコースティックモデル」を採用。これにより、特定の推論モデルでスループットが3倍に向上し、ASR(自動音声認識)用音声コーパス「LibriSpeech」で高パフォーマンスを実現したという。
Copyright © ITmedia, Inc. All Rights Reserved.