検索
ニュース

Meta、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」など複数の研究成果を発表「先進的機械知能」の達成に向けた基礎研究の成果

MetaのAI研究部門であるMeta FAIRは、音声とテキストを融合させたマルチモーダル言語モデル「Meta Spirit LM」や量子暗号の強度を検証できる「Salsa」など、複数の研究成果を発表した。

Share
Tweet
LINE
Hatena

 MetaのAI(人工知能)研究部門であるMeta FAIR(Fundamental AI Research)は2024年10月18日(米国時間)、AI(人工知能)技術の新しい研究成果として「Meta Segment Anything Model 2.1(SAM 2.1)」「Meta Spirit LM」「Salsa」「Self-Taught Evaluator」を発表した。

 MetaのFAIRチームは「先進的機械知能」(AMI)の達成を目指し、AMIを活用して製品やイノベーションを推進し、全ての人々に利益をもたらすことに取り組んでいる。今回発表した研究成果は、AMIの基礎を構成する要素、すなわち認知、音声と言語、推論、具現化、整合性に焦点を当てたものだという。

 Metaが発表した主な研究成果は以下の通り。

SAM 2.1

 SAM 2.1は、画像や動画内のオブジェクトを識別できる基盤モデル「Segment Anything Model」(SAM)の最新バージョンだ。Metaによると、SAM 2が苦手としていた類似オブジェクトや小さなオブジェクトの処理能力を向上させるために追加のデータ拡張手法を取り入れ、幾つかの調整を加えることで、重なり合うオブジェクトや一部が隠れたオブジェクトをより正確に識別できるようになったという。

 Metaは、SAM 2.1の発表に合わせて「SAM 2 Developer Suite」を公開した。このソフトウェアスイートには、SAM 2をファインチューニングするためのトレーニングコードやWebデモを公開するためのフロントエンド/バックエンドコードが含まれている。

Meta Spirit LM

 大規模言語モデル(LLM)は、テキスト読み上げパイプラインの構築に使用されることがよくある。一般的なやり方では、音声が自動音声認識(ASR)で文字起こしされ、その後、LLMがテキストを生成し、最終的にテキスト読み上げ(TTS)を通じて音声に変換される。一方、このプロセスの場合、音声の表現力が考慮されないまま生成されることが課題となっていた。

 この課題に対処するために、Metaはテキストと音声を自由に混ぜ合わせることができるオープンソースのマルチモーダル言語モデル「Meta Spirit LM」を開発したという。

 Meta Spirit LMは、音声とテキストのデータセットに対して単語レベルで交互に学習させるインターリーブ法を用いてトレーニングしており、テキストと音声のクロスモーダル生成に対応している。

 Spirit LMには「Spirit LM Base」と「Spirit LM Expressive」の2種類のモデルがある。前者は、音声をモデル化するために音韻トークンを使用する。後者は音調に関する情報、例えば興奮、怒り、驚きといった感情を反映するピッチやスタイルトークンを使用して、感情を反映した音声を生成できるという。

Salsa

 Salsaは、AIを活用してポスト量子暗号の強度をテストできる検証ツールだ。ポスト量子暗号の基盤となる数学問題「LWE(Learning With Errors)」に焦点を当てて構築されており、AIでこうした問題を突破し、量子暗号を攻撃可能かどうかを試みることができるという。

 Metaは「Salsaのコードを公開し、研究者がAIベースの攻撃をベンチマークしたり、新しい攻撃手法や既存の攻撃手法と比較できるようにしたりすることで、ポスト量子暗号のセキュリティ確保に貢献することを期待している」と述べている。

Self-Taught Evaluator

 Self-Taught Evaluatorは、AIが自己学習して評価をする新しい手法だ。

 通常、AIの評価モデルをトレーニングするには、どの答えが良いのか悪いのかを判断するラベル付け(アノテーション)が必要となる。Self-Taught Evaluatorは、人間のアノテーションに頼ることなく合成データを生成し、それを使って評価モデルをトレーニングする。異なる答えを生成し、どちらが好ましいかを学ぶプロセスを繰り返すことで、AIが自分で「良い」「悪い」の基準を作り、自ら改善させていくことができるという。

Copyright © ITmedia, Inc. All Rights Reserved.

ページトップに戻る