使い勝手は洗練されており、実用性は高い
いろいろと試してみると、指示文(プロンプト)の自然言語解析に関しては今ひとつで、距離や環境について理解できないこともあった。しかし、これは画像生成AIなども同様である。おそらく現時点においては、自然言語解析には専用のAIが必要で、こうした音声などの生成には、また別の専用AIが必要なのだろう。そして、専門的なAIを掛け合わせていくことでより汎用的なAIが生まれていく。
また、これまで紹介した音楽生成AIは動作が不安定なものが多かった。どれも研究室からそのまま出してきたようなものだった。しかし、Audioboxはスムーズな動作でストーリー作成ツールも含めて、実用的に作られている印象を持った。つまり、AIもそれだけ社会に受け入れられつつあるということを作り手側も意識してきたのだろう。
Audiobox自体はデータ品質もまだ低く、短時間しか生成できないものの、新しい生成AIの普及に向けて時代が着実に進んでいるとも感じた。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります