検索
ニュース

Microsoftの音声認識技術、「テープ起こしのプロ」の精度に 研究チームが発表単語エラー率5.1%を達成

Microsoftの研究チームは、Switchboard音声認識タスクで「5.1%」の単語エラー率を達成したと告知。2016年に「音声文字起こしのプロ並みにエラーが少ない」とした単語エラー率5.9%を上回る数値を記録した。

Share
Tweet
LINE
Hatena

 Microsoftは2017年8月20日(米国時間)、同社の先端技術研究チームであるMicrosoft Researchの構築した音声認識システムが、業界標準のSwitchboard音声認識タスクで「5.1%」の単語エラー率(Word Error Rate:WER)を達成したと発表した。

 Microsoft Researchは2016年10月、音声文字起こしのプロ並みにエラーが少ないことを示す、WER 5.9%の達成を発表していたが、これを上回る認識精度を今回の2017年版で実現した。研究チームは併せて、このシステムの詳細を解説した技術論文「The Microsoft 2017 Conversational Speech Recognition System」も公開している。

 単語エラー率の測定に使われたSwitchboardは、電話での会話データを広く収集したもので、20年以上にわたって音声認識システムの評価に使われている。2016年に達成したWER 5.9%は当時、Switchboard音声認識タスクで記録された最も低い数値であり、研究チームはこの成果について、「コンピュータが、初めて会話内の単語を人間並みに認識できたことを意味する」としていた。

 Microsoft Researchは、あれから約10カ月でエラー率を約12%低減させることができた理由を以下のように説明している。

 「音声認識システムで採用しているニューラルネットワークベースの音響モデルと言語モデルに一連の改良を加えた。例えば、音響モデルを改良するために、CNN-BLSTM(Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory:畳み込みニューラルネットワークと双方向長短期記憶の組み合わせ)モデルを追加で導入。また、複数の音響モデルそれぞれに基づく予測の集約を、フレームレベルと単語レベルの両方で行うようにした。

 さらに、会話セッションの全履歴を使って、会話の次の流れを予測させた。これによって、音声認識システムの言語モデルが強化され、このモデルが会話のトピックやローカルなコンテキストへの適応を効果的に行えるようになった。Microsoftのディープラーニングソフトウェア Cognitive Toolkit(CNTK)2.1をモデルアーキテクチャの探索や、モデルのハイパーパラメータの最適化に利用したことによる恩恵も大きかった」

 併せて、Microsoftのクラウドインフラ投資、特にMicrosoft AzureにおけるGPUインスタンスサービスの性能強化も、モデルの訓練や新しいアイデアのテストを効果的かつ迅速に行うのに役立ったとしている。

 Microsoftは、人間並みの音声認識精度を実現することは、過去25年間の研究目標の1つであり、長期的な研究に積極的に投資してきたことが「コルタナ(Windows 10に搭載される音声アシスタント)」「Presentation Translator(PowerPointプレゼンデータをリアルタイム翻訳)」「Microsoft Cognitive Services(感情検知や画像認識、音声認識、自然言語理解などの機能をアプリケーションに追加できるAPI群)」といった製品やサービスとして実を結んだと述べている。

photo 音声認識精度の進歩によって、「Presentation Translator」のような具体的なサービスも実現

 今後の研究開発課題として、「周囲の騒音が大きい場合」や「話者との距離が離れている場合」、また利用可能な訓練データが限られる「なまり」などにも対応した認識精度の向上が挙げられる。コンピュータに発話情報をテキスト化させるだけにとどまらず「その意味や意図も理解させる。つまり音声認識から音声理解につなげる」ことも大きな研究テーマだという。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る