ニュース
Facebook、オンライン音声認識に使用可能な推論フレームワークをオープンソース化:完全畳み込みアコースティックモデルを採用
Facebook AI Researchは、オンライン音声認識に使用可能な推論フレームワーク「wav2letter@anywhere」を開発し、オープンソースソフトウェアとして公開した。
Facebook AI Researchは2020年1月13日(米国時間)、音声をリアルタイムでテキストに変換するプロセスであるオンライン音声認識に使用可能な推論フレームワーク「wav2letter@anywhere」を開発し、オープンソースソフトウェアとして公開したと発表した。
wav2letter@anywhereは、Facebook AI Researchのオープンソース音声認識ツールキット「wav2letter」「wav2letter++」をベースにしている。ライブ動画キャプション作成やオンデバイス音声テキスト変換のようなアプリケーションで重要となる、音声入力からテキスト出力までのレイテンシの短縮ニーズに対応して開発された。
ほとんどの既存のオンライン音声認識ソリューションは、「再帰型ニューラルネットワーク(RNN)」のみをサポートするが、Facebook AI Researchはwav2letter@anywhereで、「完全畳み込みアコースティックモデル」を採用。これにより、特定の推論モデルでスループットが3倍に向上し、ASR(自動音声認識)用音声コーパス「LibriSpeech」で高パフォーマンスを実現したという。
オンラインシステムが音声を処理する方法(出典:Facebook AI Research)音声の各チャンクは最初に音響モデルに送られ、単語モデルのスコアが計算される。これらのスコアは、「軽量ビーム検索デコーダー」を介して言語モデルと組み合わされ、入力シーケンスと選択された言語モデルに基づいて最も可能性の高い単語のシーケンスが出力される
推論プラットフォーム
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- 音声認識とは?
用語「音声認識」について説明。人に言われた言葉の内容を認識することを指す。 - CNN(Convolutional Neural Network: 畳み込みニューラルネットワーク)とは?
用語「CNN」について説明。ネットワーク内部に畳み込みとプーリングの層を持つ、ディープニューラルネットワークのアルゴリズムの一種を指す。 - RNN(Recurrent Neural Network: 再帰型ニューラルネットワーク)とは?
用語「RNN」について説明。ネットワーク内部に再帰構造を持つ、ディープニューラルネットワークのアルゴリズムの一種を指す。