生成AI「Stable Audio Open」機能強化、オフラインのスマホで8秒未満で音楽生成 Armの技術をどう活用?:Stability AIとArmが提携
Stability AIはArmとの提携により、Stable Audio Openを強化したと発表した。Arm CPUを搭載したモバイルデバイスで、インターネット接続なしに、音楽生成が可能になるという。
Stability AIは2025年3月3日(英国時間)、Armとの提携により、Stability AIの音楽生成AI(人工知能)「Stable Audio Open」を強化したと発表した。Arm CPUを搭載したモバイルデバイスでインターネット接続なしに音楽生成が可能になったという。
Stable Audio Openは、最大47秒のオーディオサンプルやサウンドエフェクトを、テキストから生成できるAIモデル。モデルウェイトがHugging Faceで公開されており、ユーザーは独自のデータを活用してモデルをファインチューニングすることもできる。
Stability AIによると、Armの「KleidiAI」ライブラリとStable Audio Openの連携により、インターネット接続を必要とせず、デバイスで直接、サウンドエフェクトやオーディオサンプルの生成が可能になったという。「ArmのCPUを搭載したスマートフォン端末で30倍高速に動作し、生成時間を数分から数秒に短縮できるようになった」と、Stability AIは述べている。
生成にかかる時間は240秒から8秒未満に Armの技術をどう活用?
Stability AIによると、Stable Audio Openをモバイルデバイス向けに最適化することは大きな課題であり、Arm CPU上での音楽生成には240秒かかっていた。モデルの蒸留や、Armのソフトウェアスタック(後述)により、Armv9 CPUでは11秒の音楽クリップの生成時間を8秒未満まで短縮できるようになったという。
Armのソフトウェアスタックは、以下のツールやライブラリを活用する形で構成されているとしている。
- 行列積計算を効率化するKleidiAIのint8 matmulカーネル
- KleidiAIのint8 matmulカーネルを活用し、演算を効率化する「XNNPack」
- XNNPackやKleidiAIを活用し、PyTorchベースのモデルを効率的に実行する「ExecuTorch」
今後の展開は?
Stability AIは「Arm CPU上で動作することにより、Arm CPUと互換性のあるモバイルデバイスを持つ誰もが、Stable Audio Openを利用できるようになった。生成AIが企業にもプロのクリエイターにもますます不可欠になるにつれ、制作が行われるあらゆる場所でモデルにアクセスできることが重要になる。Armとの提携により、効果音、オーディオサンプルをオンデバイスかつオフラインであっても、数秒で生成できる。ビジュアルメディアの制作を変革する重要な一歩になる」と述べている。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
エッジコンピューティングとエージェント型AIが変革する運用の将来
エッジコンピューティングの活用事例とエッジデータが増加し続ける中、企業はアプリケーションの高度化とエッジAIの導入に動いている。インフラとオペレーション(I&O)のリーダーは、これらのAIシステムをサポートするための堅牢(けんろう)なデータ管理と、リアルタイム分析機能の重要性を認識する必要がある。Meta、個別のトレーニングデータがなくても音声を生成できるAIモデル「Voicebox」を発表
Metaは、個別のトレーニングデータがなくても音声を生成できる同社初の音声生成AIモデル「Voicebox」を発表した。生成AIサービスに個人情報をアップロードしたくない!! Windowsローカルで大規模言語モデル(LLM)を利用する
ChatGPTやMicrosoft Copilotなどの生成AIサービスが便利なのは分かるが、いざ使おうと思うと「情報漏えいなどが心配」と感じていないだろうか。そんな心配がある場合、手元のWindows 10/11上でLLM(大規模言語モデル)を実行すればよい。無料な上に意外なほど簡単にLLMが実行でき、住所や名前を分割するなどのテキスト処理ができる。本Tech TIPSでは、Windows 10/11上でLLMを実行する手順を紹介しよう。