音楽生成AI「Suno」「Udio」「Sonauto」を制作者視点でレビュー。音楽制作のカタチは変わるのかものになるモノ、ならないモノ(96)

ChatGPTをはじめとする生成AIが注目を集める中、生成AI技術を使って音楽を自動で生み出すWebサービスが続々と登場している。音楽生成AIの実力はどのようなものなのか。音楽制作事業者としての視点で、生成AIが生み出す音楽を考察する。

» 2024年05月23日 05時00分 公開
[山崎潤一郎@IT]

この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。

 音楽生成AI(人工知能)を触るのが楽しくて仕方ない。音楽のスタイルやキーワード(プロンプト)を入力してワンクリックするだけで、「それっぽい」楽曲が誕生するのだから、音楽好きとしては、夢のようなサービスといえる。

 本稿では「Suno」「Udio」「Sonauto」という、話題の3つの音楽生成AIサービスについて、音楽制作事業者としての視点で紹介したい。

音楽のプロとしての視点で評価

 生成AIによる楽曲は、音質、各パートの音量バランスなど、まだまだ不満な点は多い。だが、今後も進化の歩みを止めることはないだろうし、音楽の作り方そのものを変えていく可能性を秘めている。今回、音楽生成AIについて寄稿する上で、編集部から注文が付けられた。「音楽のプロという視点を入れてほしい」というものだ。どこまで期待に応えられるか不安だったが快く応諾した。

都内の某大手レーベルのスタジオ。生成AIによる楽曲制作が進化するとスタジオワークの役割も変容するのだろうか? 都内の某大手レーベルのスタジオ。生成AIによる楽曲制作が進化するとスタジオワークの役割も変容するのだろうか?

 とはいうものの筆者自身、プロデューサーあるいは録音エンジニアとして音楽に携わってはいるが、演奏家ではないので楽典や音楽理論に基づいた楽曲分析はできない。そこで本稿では、制作サイドの人間として、さらに1人の音楽リスナーとしての視点を交えながら話を進めていきたい。

とても使いやすく「いい曲率」の高いSuno

 最初にSuno、Udio、Sonautoという3つのサービスについてそれぞれのファーストインプレッションを記しておく。

 まず、Suno。とても使いやすく、思惑と大きく外れた楽曲が生成されることはない。ボーカルのメロディーラインもキャッチーなものが多く、どんなジャンルであっても「いい曲じゃん」という印象が先行する。

Sunoの可能性を垣間見るには、ランダム生成が可能な「Explorer」機能を試そう Sunoの可能性を垣間見るには、ランダム生成が可能な「Explorer」機能を試そう

 ただ、ボーカルの声質の種類はそれほど多くはない印象で、「Explorer」という一種のガチャ機能でたくさんの楽曲を聴いていると、「何か似ている」と感じる歌声を結構な確率で耳にする。

 ロック系の楽曲を中心に生成していると、ボーカルパートにおいて、似た節回しが登場することも多い。ヒットした楽曲を大規模学習した結果として、キャッチーなメロディーラインを追求すると、節回しに似た部分が出てくるのだろうか。

 ロック好きとして不満に思うことがある。ロックには欠かせないエレキギターのソロを生成するのが難しい。ハードロックやメタルのファンは物足りないのではないか。その一方で、次に紹介するUdioは、ギターソロを比較的簡単に生成できる。

テクニカルなギターソロも可能なUdio

 Udioに対する筆者の印象は、安定のSunoに対し、意外性のUdioだ。筆者使用の範囲において、Sunoでは生成されないような「この手があったのね」というオケ(伴奏)が作られることもあるので、生成ガチャを回すのが楽しくなる。

 Udioの特徴は、最初に生成した1生成33秒のパートを基準として、「イントロを追加」「前にセクションを追加」「後にセクションを追加」「アウトロを追加」と楽曲の構成をコントロールしやすい点にある。

イントロ、Aメロ、サビ、アウトロなどのセクションを指定して楽曲を構成可能なUdio イントロ、Aメロ、サビ、アウトロなどのセクションを指定して楽曲を構成可能なUdio

 生成曲の後にセクションを追加しつつ、1曲にまとめるSunoとの相違点だ。Udioは、プロンプトを工夫しつつ意外性という特性と構成の自由度の高さを生かせば、面白い楽曲を生成できるのではないだろうか。

 次の楽曲は、Udioで生成したプログレッシブロックを意識した楽曲だ。途中から、オラオラオラ! これでもか! という、速弾き、アーミング、タッピング、スイープなど、てんこ盛りのテクニカルなギターソロを聴くことができる。「おまえは、ジョン・ペトルーシか!」と叫んでしまった。

権利者にとって悪夢(?)のSonauto

 Sonautoの最大の特徴は、音楽のスタイルに既存のアーティスト名を指定できる点にある。前述の2サービスは、アーティストの権利に配慮して、特定の名称は受け付けない。

既存の楽曲ファイルをアップロードすると、似たようなアレンジの楽曲を生成してくれる 既存の楽曲ファイルをアップロードすると、似たようなアレンジの楽曲を生成してくれる

 特定のアーティスト名を入れると、お勧めのプロンプトが表示されるので、歌詞を入力する。楽曲の世界感を表す歌詞を数行程度入力すると、足りない部分は、Sonauto側で自動生成してくれる。

 前述の2サービスにない特徴として、Vocals、Drums、Bass、Otherと、4つのステムトラック(楽器がグループ化されたトラック)を分離した形で生成する機能を備えている。

 他には、画面上の鍵盤で弾いたメロディーを基にした生成、リズムの強調具合の調整、BPM(Beats Per Minute)による速度指定、既存楽曲のMP3ファイルを参照する生成などの特徴がある。

 中でも、既存のMP3などの楽曲ファイルを参照した生成は、ある意味「やばい」機能だ。有名アーティストのアレンジに似せた楽曲がワンクリックで生成されるわけだから、権利者としては心穏やかではないだろう。

 筆者としても、音楽ビジネスの末席に身を置くものとして、さすがに同機能を使うことに抵抗を覚えてしまう。

AIだから当たり前? 完璧なテンポキープ

 ここからは、音楽作成ソフトを使用してSunoで生成した楽曲を制作者目線で検証してみたい。

 「AIが作ったのだから当たり前だろ」と言われそうだが、ドラムスなど、パーカッションが入ったバンド系楽曲のテンポキープは完璧だ。近年は、スタジオ収録する際、クリックを聴きながら演奏することが多いので、テンポが大きく揺れる曲は多くない。

 ただそれでも、人間の演奏故に、出音の頭のタイミングがそろわないことはままある。収録現場では「タテがそろってない」という言い方をするのだが、録音ソフトウェアで波形を見ながらそろえることもある。その点、AI楽曲は修正の必要がない。

 次のリンクは、Sunoで作成した1970年代のハードロックバンドを模した楽曲だ。歌詞は、アーサー王伝説の円卓の騎士をテーマに、ChatGPTに作ってもらった。

 この楽曲のファイルをダウンロードし、「Ultimate Vocal Remover」というソフトウェアを利用して、Vocal、Drums、Bass、Otherと、4つのステムトラックに分離し、Logic Proで開いたのが次の図だ(※)。

※本稿脱稿後にAppleの音楽制作ソフトウェア「Logic Pro 11」が登場した。標準でステムトラック分離機能が実装されている。

 ドラムトラックのテンポを解析するとクリックのタイミングがぴたりと一致している ドラムトラックのテンポを解析するとクリックのタイミングがぴたりと一致している

 画面下部はドラムトラックのテンポを解析した様子だが、バスドラ、シンバル、スネアの波形のタイミングがクリックの縦線と見事に合致している。人間のドラマーだと、クリックを聴きながらたたいてもこうはならない。

 もちろん、演奏表現の一種として、意図的にタメやツッコミを入れることはあるが、オンタイムを意識したとしても波形で見るとずれが生じてしまう。逆の見方をすると、テンポをプロンプトでいい具合にヒューマナイズできれば、気持ちいいノリが出せるかもしれない。

ボーカルは完璧な歌唱を披露

 AIのリズムキープが完璧なら、ボーカルも完璧な歌唱を披露してくれる。どれだけ上手なボーカリストでも、近年、デジタル処理で音程、タイミング、ビブラート、フォルマント(声の印象)調整を入れることが多い。

 次の楽曲は、同じくアーサー王伝説に登場する騎士ランスロット卿とアーサー王の王妃グィネヴィアとの不義の恋をテーマにした楽曲だ。この歌詞もChatGPTに考えてもらった。韻を踏んだ美しい歌詞だ。すごいぞChatGPT!

 次の図は、この楽曲からボーカルトラックだけを抽出して、「Melodyne」というボーカル補正ツールで音程やビブラートの様子を表示したものだ。ちなみに母艦となる音楽ソフトウェアは「Pro Tools」を使用している。

 下部の白いウィンドウ内のオレンジの塊が、音素の音程、音量、タイミング、長さを表している。各音素をつないでいる線(ピッチカーブ)がビブラートや音程間のスムーズな上下移行を示している。出だしのキーは「Aメジャー」だ。

 音程、ビブラート、タイミング、音程移行ともに、ほぼ完璧で手を入れる部分がない。人間であれば、次の音素に移行する際、音程が不安定になると、ピッチカーブが本来の音階から大きく離れてから音素に到達するなど、不安定な様子が残酷なまでに可視化される。

ほぼ人間の声に近い音源でここまで美しい音程やピッチカーブを見せられると不思議な気持ちになる ほぼ人間の声に近い音源でここまで美しい音程やピッチカーブを見せられると不思議な気持ちになる

 ちなみに、筆者は今回、Sunoで英語の歌詞を指定して生成したのだが、一語一句その通りに歌唱するわけではなかった。楽曲の長さや節回しに合わせて勝手に歌詞を変えてくることがある。ただ、歌詞のテーマや世界観から大きく外れた語句に差し替えることはないので、そこは許せる範囲だった。

生成AIによる架空のロックバンドが世界デビュー

 最後に筆者が関わっている音楽生成AIのプロジェクトを紹介したい。生成AIででっち上げた(失礼!)架空のロックバンドを世界デビューさせた。

 バンド名は、「The Midnight Odyssey」だ。Apple MusicやSpotifyといった配信サービスで聴くことができる。

バンドメンバーのアー写(アーティスト写真)。左からマイア・チャン、エリオット・スミス、リリー・フォード、リアム・オコナー、ジェイク・ハーパー バンドメンバーのアー写(アーティスト写真)。左からマイア・チャン、エリオット・スミス、リリー・フォード、リアム・オコナー、ジェイク・ハーパー

 楽曲を生成したテクノロジー系編集者の松尾公也氏、ミュージックビデオをAIで生成したテクニカルライターの大谷和利氏、ミックス、マスタリング、ディストリビューションを担当した筆者の3人を中心に、架空バンドとはいえ本気モードで取り組んでいる。

 筆者はというと、生成AIによる楽曲だけに音質面では大いに不満が残るが、それでもミックスやマスタリングは通常の制作工程と同程度の手間と時間をかけて、できる範囲でベストを尽くした。

 大谷氏はミュージックビデオの他にも、オフィシャルファングッズとして、コースター、ファンクラブメンバーズカード、ペンダントタグ、ギター用ピックなどの試作品を作るという力の入れようだ。

オフィシャルファングッズの数々。これらに加えTシャツや推しウチワがあると完璧だ オフィシャルファングッズの数々。これらに加えTシャツや推しウチワがあると完璧だ

 生成AIによる架空バンドのポテンシャルがどの程度のものなのか、音楽制作者として、音楽系生成AIとどのように向き合うべきなのかを知る意味でも、貴重な体験を得ることができるプロジェクトだと考えている。

著者紹介

山崎潤一郎

音楽制作業の傍らIT分野のライターとしても活動。クラシックやワールドミュージックといったジャンルを中心に、多数のアルバム制作に携わる。Pure Sound Dogレーベル主宰。ITライターとしては、講談社、KADOKAWA、ソフトバンククリエイティブといった大手出版社から多数の著書を上梓している。また、鍵盤楽器アプリ「Super Manetron」「Pocket Organ C3B3」などの開発者であると同時に演奏者でもあり、楽器アプリ奏者としてテレビ出演の経験もある。音楽趣味はプログレ。

TwitterID: yamasaki9999


Copyright © ITmedia, Inc. All Rights Reserved.

スポンサーからのお知らせPR

注目のテーマ

4AI by @IT - AIを作り、動かし、守り、生かす
Microsoft & Windows最前線2025
AI for エンジニアリング
ローコード/ノーコード セントラル by @IT - ITエンジニアがビジネスの中心で活躍する組織へ
Cloud Native Central by @IT - スケーラブルな能力を組織に
システム開発ノウハウ 【発注ナビ】PR
あなたにおすすめの記事PR

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。