音楽生成AI「Stable Audio」を試すが、道はまだまだ長そうだ

2023年10月22日 09時00分更新

　現在のAIブームのきっかけは、画像生成AIがブレークしたことだ。

　あまりにもリアルで人間が描いたものを凌駕するような絵画をAIが描いたことで話題を呼んだ。今では様々な画像生成AIが登場しているが、その中心は「Stable Diffusion」という画像生成AIだ。複数の研究者によって開発され、Stability AIという会社が提供したものだが、そのStability AIが今度は「Stable Audio」という音楽生成AIを発表した。つまり話題の画像生成AIの大手が手がけた音楽生成AIということになる。

Stable Audioのサイト

１万9500時間以上の音楽データから学習した音楽生成AI

　Stable Audioは、グーグルの「MusicLM」やメタの「MusicGen」のように、プロンプト(指示文)に基づいて音楽を作り出す本格的な生成AIだ。Diffusionは拡散モデルを意味し、浮き上がるようなステップを経て、徐々に画像を生成するのが特徴だ。ただし、音楽は時間の要素があるので、そう簡単ではないらしい。

　何かと問題となる学習元の音楽はサイトに明記されている。データセットはAudioSparxと契約し、「音楽、効果音、単一楽器のステム、および対応するテキストメタデータ」など80万以上のオーディオファイル、1万9500時間以上のオーディオデータを使用したそうだ。

　MusicLMやMusicGenが、ベータ版や研究成果として開放されているのに対して、Stable Audioは有料課金モデルを採用しているのも面白い。Freeプランでは非商用で45秒までの曲を1ヵ月に20曲生成できる。月額11.99ドルのProfessionalプランでは商用ライセンス付きで90秒までの曲を1ヵ月に500曲生成できる。

Freeプランの20回はすぐに消費してしまう

　さっそくFreeプランを試用してみた。

　比較のため、MusicGenの記事で生成に使ったのと同じプロンプト「静かなパートと力強いパートが交互に現れ、ドラマティックな展開となるシンフォニックプログレッシブロック」を打ち込んでみた（作例1)。

　MusicGenでは一発でクリムゾンを思わせるプログレ曲ができたが、Stable Audioの生成結果にはちょっと首を捻ってしまった。プログレというジャンルはシンフォニックのようなロックだと思うが、結果はシンフォニック風の曲とロックのドラムが混在しているだけに思える。「AIがどう解釈したのか」という点では面白い結果だと思うが、さすがに音楽としてはおかしい。サイト上のサンプル曲はなかなか悪くないように思えるので、少し調べてプロンプトを改良してみることにした。

　Stable AudioのプロンプトではMusicGenのように自然言語で打ち込むよりも、ジャンルや楽器、ムード、テンポ、コード進行など単語を列挙して特徴を示していくほうが良さそうだ。具体的にはJazz、Drum、Bass、Up-Lifting、BPMなどである。ここも画像生成AIのプロンプトと似ているのが面白い。グーグルやメタのように自然言語処理に優れた会社よりはStable Diffusionの会社らしいという意味だ。

　サンプルを手本にしながらシンプルな曲にするアプローチを考えて、次のようなプロンプトを作った。「Minimal Piano solo, Chord progression minor key, uplifting, 90BPM(ミニマルのピアノソロ、コード進行マイナーキー、高揚感、テンポ90BPM)」。これは現代音楽のミニマル風ピアノ曲を意識している(作例2)。