実際に試しに使ってみた。サンプルとして用意された「重厚なドラムとシンセパッドをバックにした、80年代のドライビングポップソング」とバッハのメロディを組み合わせたものと、テキストプロンプトのみの出力結果を挙げる。注記しておくとこれはMusicLMのようにあらかじめ用意されたサンプルではなく、私がMusicGenに指示を出して出力した結果だ。
参考音源付きの生成結果
テキストプロンプトのみの生成結果
ちなみに両出力結果とも同じテキストプロンプトから生成しているが、曲自体が異なるのは、MusicGenがほかの生成AIのようにランダム性を持っているからだと推測できる。ChatGPTにおいて同じ質問をしても同じ回答はしないのと同じだ。
次に独自の文章指示プロンプトを試してみるため、「静かなパートと力強いパートが交互に現れ、ドラマティックな展開となるシンフォニックプログレッシブロック」といささかマニアックな指示をしてみた。出力結果がこれだ。
プログレ風の楽曲を指示した生成結果
聞いてみるとたしかにプログレっぽいのが分かる。12秒に過ぎないが、静かなパートと力強いパートも交互に現れている。曲調はキング・クリムゾンを思わせるが、もしかすると元のストック音楽データにはクリムゾンフォロワーのようなバンドが多いのかもしれない。しかし、これは推測に過ぎない。
音楽生成AIでは著作権問題がもっとも問題になると思われるが、学習する際にライセンスに問題がない音源を使用すること、ダウンサンプリングをしているらしいこと、生成にランダム性が加わることでこの問題には一定の対策は打てているように思う。
メタはAIに注力していて、最近ではチャットGPTなどの生成AIを過去のものにするという斬新なアーキテクチャを持った「I-JEPA」というモデルを公開している。
I-JEPAはいわゆる究極のAIと呼ばれるAGIではないが、普通の生成AIよりも汎用性が高く、学習にノイズを使用しないという点が新しい。つまり細部ではなく、大まかな点に着目して学習して、推測するというモデルのようだ。
こうした成果も取り入れながらも、音楽生成AIが更なる進化を遂げる日もそう遠い将来ではないのかもしれない。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります