Meta、音楽生成AIモデル「MusicGen」とOSSライブラリ「Audiocraft」をGituHubでリリースGoogleの「MusicLM」と異なり、4つのコードブック全てを1つのパスで生成

Metaは、音楽生成AI「MusicGen」とOSSライブラリ「Audiocraft」をGituHubでリリースした。その概要とサンプルサイト、インストール方法、使用方法、APIを紹介する。

» 2023年06月26日 12時00分 公開
[@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 Metaは2023年6月、音楽生成AI「MusicGen」をリリースした。MusicGenは、50Hzでサンプリングされた4つのコードブックを備える32kHzの「EnCodec」トークナイザーでトレーニングされた単一の言語モデルだ。

 従来の研究とは異なり、MusicGenは単一ステージの自動回帰トランスフォーマーモデルと効率的なトークンインターリーブパターンで構成されており、複数のモデルをカスケード接続する必要がないという。例えば、Googleの「MusicLM」のような既存のメソッドとは異なり、MusicGenは自己教師ありセマンティック表現を必要とせず、4つのコードブック全てを1つのパスで生成する。コードブック間に小さな遅延を導入することで、コードブックを並行して予測できることを示し、オーディオの自動回帰ステップは1秒当たり50ステップのみになる。

 このアプローチに従ってMusicGenは、テキストの説明やメロディーの特徴に応じて高品質のサンプルを生成し、生成された出力をより適切に制御できるという。

 MusicGenのトレーニングには、2万時間分のライセンスされた音楽が使用されている。具体的には、1万個の高品質音楽トラックの内部データセットと、「ShutterStock」「Pond5」の音楽データを利用している。

サンプルサイト

Copyright © ITmedia, Inc. All Rights Reserved.

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。