Meta、オールインワン型初のマルチモーダル多言語AI翻訳モデル「SeamlessM4T」を発表:単一モデルで吹き替え、音声テキスト変換などに対応
Metaは、初のオールインワン型のマルチモーダル多言語AI翻訳モデル「SeamlessM4T」を発表した。
Metaは2023年8月22日(米国時間)、初のオールインワン型マルチモーダル多言語AI翻訳モデル「SeamlessM4T」(Massive Multilingual Multimodal Machine Translation)を発表した。異なる言語コミュニティーの人々が音声とテキストで簡単にコミュニケーションできるようにするとしている。
SeamlessM4Tは、101言語の音声入力、96言語のテキスト入出力、35言語の音声出力をカバーしている。この単一モデルは、複数の異なるモデルに依存することなく、以下のタスクを実現する。
- 音声から音声への翻訳(S2ST)
- 音声からテキストへの翻訳(S2TT)
- テキストから音声への翻訳(T2ST)
- テキストからテキストへの翻訳(T2TT)
- 自動音声認識(ASR)
Metaは、既存の翻訳システムには2つの欠点があるとの認識を示す。1つは、カバーする言語が限られているため、多言語コミュニケーションに障壁が生じること。もう1つは、複数のモデルに依存しているため、翻訳エラーや遅延、展開の複雑さを引き起こす頻度が高いことだ。「SeamlessM4Tは、より高い言語カバー率、精度、オールインワンモデル機能により、これらの課題に対処する」と、Metaは述べている。
さらにMetaは、「複数モデルを使用するアプローチに比べ、SeamlessM4Tの単一システムアプローチはエラーと遅延を減らし、翻訳プロセスの効率と品質を向上させる」と説明し、SeamlessM4Tは、普遍的な言語翻訳機を構築する取り組みの重要な前進だとしている。
Metaはオープンサイエンスのアプローチを取り、研究者や開発者がSeamlessM4Tの成果をさらに発展させることができるように、このモデルを研究ライセンス(CC BY-NC 4.0)で公開している。
またMetaは、SeamlessM4Tが利用している「SeamlessAlign」コーパスのメタデータもオープンソース化している。SeamlessAlignは、マルチモーダル翻訳のための最大のオープンデータセットであり、合計27万時間に及ぶアラインされた音声およびテキストデータが含まれている。
SeamlessM4Tでは、Metaが取り組んできた「No Language Left Behind」(NLLB)、「Universal Speech Translator」「Massively Multilingual Speech」から得られた知見と機能が利用されている。
2022年にリリースされたNLLBは、200言語をサポートするテキストからテキストへの機械翻訳モデル。Universal Speech Translatorは、中国福建省で話されている福建語(広く使われている書き言葉を持たない)の初の直接音声合成翻訳システム。2023年に発表されたMassively Multilingual Speechは、1100以上の言語の音声認識、音声識別、音声合成技術を提供する。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- Google、OSS向けファジングサービス「OSS-Fuzz」をLLMで改善
Googleは、同社の大規模言語モデルを利用して、オープンソースソフトウェア向けファジングサービス「OSS-Fuzz」の対象プロジェクトのコードカバレッジを高めることに成功した。 - 生成AIはやっぱり「過度な期待」、人工知能やブロックチェーンは「啓発期」に移行 ハイプ・サイクル最新版
ガートナージャパンは、「日本における未来志向型インフラテクノロジーのハイプ・サイクル:2023年」を発表した。新たに「生成AI」「分散型アイデンティティー」など9項目の技術やトレンドが追加された。 - Meta、商用利用可能なオープンソースLLM「Llama 2」を提供開始 「MPT」や「Falcon」を上回る成績
Metaは、次世代のオープンソース大規模言語モデル「Llama 2」を提供開始した。研究および商用に無料で利用できる。