Meta、1000以上の言語に対応する音声認識モデルなどを構築、オープンソースで公開：対応言語をタスクに応じて従来の10～40倍に

Metaは、音声技術の対応言語を拡大することを目指す「Massively Multilingual Speech」（MMS）プロジェクトの成果として、音声認識モデル、音声合成モデル、言語識別モデルとコードをGitHubで公開した。

» 2023年05月25日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Metaは2023年5月22日（米国時間）、音声技術の対応言語拡大を目指す「Massively Multilingual Speech」（MMS：大規模多言語音声）プロジェクトの成果としてAI（人工知能）モデルとコードをGitHubで公開した。

　音声技術の対応言語を増やすことは、より多くの人々の情報アクセスを向上させる可能性がある。一方、音声技術がサポートする言語は100程度にとどまっていた。これは世界で話されている7000以上の言語のほんの一部だ。しかも、これらの言語の半分以上が、われわれが生きている間に消滅してしまう恐れもある。

　MMSプロジェクトは、人々が自分の好きな言語で情報にアクセスしたり、デバイスを使用したりすることを容易にするためのものだ。プロジェクトを通じて、世界の言語多様性の維持に小さな貢献をしたいと述べている。

　MMSプロジェクトは以下のモデルを構築し、サポートする言語数をタスクに応じて従来の10～40倍に増やすことに成功した。

1100以上の言語に対応する単一の多言語音声認識（音声テキスト変換）モデル
4000以上の言語を識別できる言語識別モデル
1400以上の言語に対応する事前トレーニング済みモデル
1100以上の言語の音声合成（テキスト音声変換）モデル

新しいデータセットを作成、自己教師あり学習を活用

　既存の音声データセットは、最大でも100言語程度しかカバーしていない。このため、音声技術の対応言語を拡大するには、多数の言語の音声データを収集する必要がある。

　そこでMMSプロジェクトは、1100以上の言語における新約聖書の朗読のデータセットを作成し、1言語当たり平均32時間分のデータを用意した。さらに、キリスト教に関連する他の朗読のラベルなし録音データも収集し、4000以上の言語をカバーした。

　またMMSプロジェクトは、データ品質を向上させ、機械学習アルゴリズムで使用できるようにするために、データの前処理も実施した。データの前処理には、100以上の言語の既存データでトレーニングしたアラインメントモデルと、約20分以上の長い録音を処理できる強制アラインメントアルゴリズムを使用した。

　さらに、1言語当たり32時間分のデータは、従来の教師あり音声認識モデルをトレーニングするには十分ではないことから、MMSプロジェクトは「wav2vec 2.0」をベースに、1400以上の言語の約50万時間分の音声データで、自己教師ありモデルをトレーニングした。こうして得られたモデルが、多言語音声認識や言語識別など、特定の音声タスクに合わせて微調整された。wav2vecは、少量のラベル付きデータと大量の音声データを用いて自己教師あり学習をする音声認識フレームワークだ。

MMSモデルの優れたパフォーマンス

　MMSプロジェクトは、構築したモデルのパフォーマンスを、FLEURS（Few-shot Learning Evaluation of Universal Representations of Speech）などの既存ベンチマークデータセットを使って評価した。

　例えば、54のFLEURS言語について、1107言語に対応する音声認識モデルをOpenAIの音声認識モデル「Whisper」と比較した結果を次のように示している。MMSプロジェクトのモデルはWhisperと比べて、11倍以上の言語をカバーしているが、単語エラーレートは半分以下にとどまっており、「これは、われわれのモデルが現在の最良の音声モデルと比較して、非常に優れたパフォーマンスを発揮できることを実証している」と述べている。