メタ、プロンプトから音楽を生成するAI ツール「AudioCraft」

2023年08月03日 11時35分更新

　メタは8月2日（現地時間）、テキストからサウンドを生成するための3つの生成AIモデルをバンドルした「AudioCraft」をオープンソースでリリースした。

3つのモデルで構成

　AudioCraftは、メタが権利を所有する音楽およびライセンスされた音楽で学習され、テキストから音楽を生成する「MusicGen」、公開されている効果音で学習され、テキストから効果音などのサウンドを生成する「AudioGen」、そして改良され、よりノイズが減った音声圧縮デコーダー「EnCodec」の3つのモデルで構成されており、すべてのモデルのウェイトとソースコードがオープンソースで公開されている。

MusicGenのデモ

　MusicGenはHugging Faceにてデモが公開されている。試しに「Cool Hiphop Music」というプロンプトで試してみるとたしかにそれっぽい音楽が生成された。

　ただし、NVIDIA A10G Tensor Core GPUを使用した環境でも生成に80秒強かかったため、かなり重い処理をおこなっていると思われる。

　メタは、テキストや画像を生成するジェネレーティブAIが盛り上がっている一方で、オーディオ生成に関する研究は少し遅れていると認識している。

　忠実度の高いオーディオを生成するには、さまざまなスケールで複雑な信号やパターンをモデリングする必要があるのがその理由だ。「オーディオの中でも特に音楽は、一組の音符から複数の楽器を含む大域的な音楽構造まで、局所的かつ長距離的なパターンで構成されているため、間違いなく生成するのが最も難しいタイプのオーディオです」としている。