Facebook、オンライン音声認識に使用可能な推論フレームワークをオープンソース化完全畳み込みアコースティックモデルを採用

Facebook AI Researchは、オンライン音声認識に使用可能な推論フレームワーク「wav2letter@anywhere」を開発し、オープンソースソフトウェアとして公開した。

» 2020年01月21日 12時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Facebook AI Researchは2020年1月13日(米国時間)、音声をリアルタイムでテキストに変換するプロセスであるオンライン音声認識に使用可能な推論フレームワーク「wav2letter@anywhere」を開発し、オープンソースソフトウェアとして公開したと発表した。

 wav2letter@anywhereは、Facebook AI Researchのオープンソース音声認識ツールキット「wav2letter」「wav2letter++」をベースにしている。ライブ動画キャプション作成やオンデバイス音声テキスト変換のようなアプリケーションで重要となる、音声入力からテキスト出力までのレイテンシの短縮ニーズに対応して開発された。

 ほとんどの既存のオンライン音声認識ソリューションは、「再帰型ニューラルネットワーク(RNN)」のみをサポートするが、Facebook AI Researchはwav2letter@anywhereで、「完全畳み込みアコースティックモデル」を採用。これにより、特定の推論モデルでスループットが3倍に向上し、ASR(自動音声認識)用音声コーパス「LibriSpeech」で高パフォーマンスを実現したという。

オンラインシステムが音声を処理する方法(出典:Facebook AI Research)音声の各チャンクは最初に音響モデルに送られ、単語モデルのスコアが計算される。これらのスコアは、「軽量ビーム検索デコーダー」を介して言語モデルと組み合わされ、入力シーケンスと選択された言語モデルに基づいて最も可能性の高い単語のシーケンスが出力される

推論プラットフォーム

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。