検索
ニュース

Meta、1000以上の言語に対応する音声認識モデルなどを構築、オープンソースで公開対応言語をタスクに応じて従来の10〜40倍に

Metaは、音声技術の対応言語を拡大することを目指す「Massively Multilingual Speech」(MMS)プロジェクトの成果として、音声認識モデル、音声合成モデル、言語識別モデルとコードをGitHubで公開した。

Share
Tweet
LINE
Hatena

 Metaは2023年5月22日(米国時間)、音声技術の対応言語拡大を目指す「Massively Multilingual Speech」(MMS:大規模多言語音声)プロジェクトの成果としてAI(人工知能)モデルとコードをGitHubで公開した。

 音声技術の対応言語を増やすことは、より多くの人々の情報アクセスを向上させる可能性がある。一方、音声技術がサポートする言語は100程度にとどまっていた。これは世界で話されている7000以上の言語のほんの一部だ。しかも、これらの言語の半分以上が、われわれが生きている間に消滅してしまう恐れもある。

 MMSプロジェクトは、人々が自分の好きな言語で情報にアクセスしたり、デバイスを使用したりすることを容易にするためのものだ。プロジェクトを通じて、世界の言語多様性の維持に小さな貢献をしたいと述べている。

 MMSプロジェクトは以下のモデルを構築し、サポートする言語数をタスクに応じて従来の10〜40倍に増やすことに成功した。

  • 1100以上の言語に対応する単一の多言語音声認識(音声テキスト変換)モデル
  • 4000以上の言語を識別できる言語識別モデル
  • 1400以上の言語に対応する事前トレーニング済みモデル
  • 1100以上の言語の音声合成(テキスト音声変換)モデル

新しいデータセットを作成、自己教師あり学習を活用

 既存の音声データセットは、最大でも100言語程度しかカバーしていない。このため、音声技術の対応言語を拡大するには、多数の言語の音声データを収集する必要がある。

 そこでMMSプロジェクトは、1100以上の言語における新約聖書の朗読のデータセットを作成し、1言語当たり平均32時間分のデータを用意した。さらに、キリスト教に関連する他の朗読のラベルなし録音データも収集し、4000以上の言語をカバーした。

 またMMSプロジェクトは、データ品質を向上させ、機械学習アルゴリズムで使用できるようにするために、データの前処理も実施した。データの前処理には、100以上の言語の既存データでトレーニングしたアラインメントモデルと、約20分以上の長い録音を処理できる強制アラインメントアルゴリズムを使用した。

 さらに、1言語当たり32時間分のデータは、従来の教師あり音声認識モデルをトレーニングするには十分ではないことから、MMSプロジェクトは「wav2vec 2.0」をベースに、1400以上の言語の約50万時間分の音声データで、自己教師ありモデルをトレーニングした。こうして得られたモデルが、多言語音声認識や言語識別など、特定の音声タスクに合わせて微調整された。wav2vecは、少量のラベル付きデータと大量の音声データを用いて自己教師あり学習をする音声認識フレームワークだ。

MMSモデルの優れたパフォーマンス

 MMSプロジェクトは、構築したモデルのパフォーマンスを、FLEURS(Few-shot Learning Evaluation of Universal Representations of Speech)などの既存ベンチマークデータセットを使って評価した。

 例えば、54のFLEURS言語について、1107言語に対応する音声認識モデルをOpenAIの音声認識モデル「Whisper」と比較した結果を次のように示している。MMSプロジェクトのモデルはWhisperと比べて、11倍以上の言語をカバーしているが、単語エラーレートは半分以下にとどまっており、「これは、われわれのモデルが現在の最良の音声モデルと比較して、非常に優れたパフォーマンスを発揮できることを実証している」と述べている。

OpenAIの「Whisper」とMMSプロジェクトの音声認識モデルの単語エラー率(提供:Meta AI)
OpenAIの「Whisper」とMMSプロジェクトの音声認識モデルの単語エラー率(提供:Meta AI)

 MMSプロジェクトの言語識別モデルも、FLEURSの言語識別タスクで評価した結果、既存モデルと比べてほぼ40倍の言語数をサポートする一方、同等の精度で言語を識別することが分かった。

既存モデルとMMSプロジェクトの言語識別モデルのエラーレート(提供:Meta AI)
既存モデルとMMSプロジェクトの言語識別モデルのエラー率(提供:Meta AI)

 MMSプロジェクトは今後の課題として、以下を挙げている。

  • より多くの言語や方言に対応する
  • 単一のモデルを音声認識や言語識別など、複数のタスクについてトレーニングし、これらを全て単一モデルで実行できるようにする
  • 音声テキスト翻訳やテキスト音声翻訳、キーワードスポッティング、意図分類など、より多くの音声タスクに取り組む

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る