Metaが音声や効果音などを生成するAI「Audiobox」をリリースした。
Audioboxは一般ユーザーでもデモ版の使用が可能だ。いままでこうしたAIのデモ版はAIコミュニティーなどにアップロードされた不安定なものが多かったが、Audioboxでは自前のサーバーを使用しているのか、動作がが安定しており、使用方法の案内も整備されているのが特徴だ。ただし、現状は対応言語も説明もすべて英語のみ。
効果音やナレーションの作成などを想定した研究中の生成AI
Audioboxを使用すると自然言語のプロンプトを使用して、生成したい効果音や音声の種類を記述できる。Metaは昨年初めに編集機能など音声生成タスクを実行できる最先端のAIモデル「Voicebox」を開発している。これは特別にトレーニングされていない音声を生成AIで扱えるというものであった。Audioboxはその後継版として音声だけではなく、犬の吠え声、車のクラクション、雷のひび割れなどの効果音や環境音を生成できる。
Audioboxの特徴は、特定の応用分野が考えられていることだ。単に基礎研究の成果発表的なものではない。その分野とは、例えば映画、ポッドキャスト、オーディオブック、ビデオゲームなどだ。また、ASMR的な応用もできるだろう。
Metaによると、上記の分野でコンテンツを制作する際、サウンドライブラリへのアクセスやサウンドエンジニアリング、声優といった最適な結果を得るための専門家が必要であった。その困難な作業の障壁を下げ、誰もがオーディオコンテンツクリエイターになることを容易にするのがAudioboxを開発した動機だという。Audioboxは従来の技術に比べて、FAD(音声忠実度の指標)が5割近く改善されていて高品質だという。
読み上げについての演技指導も
Audioboxを試してみた。Sound Effects(効果音)のページでは、自然言語の文章に従って効果音を生成できる。ここで「the flow of the river can be heard faintly in the distance, and the chirping of birds can be heard loudly nearby」(川の流れがかすかに聞こえ、近くでは鳥の声が大きく聞こえる)と入力した。確かに、川の音は小さく生成され、鳥の声では大きく生成されている。川の音や鳥の声もなかなかリアルに聞こえる。波形図を見ても川の音のパートでは小さく、鳥の声が入るところでは大きく音量が生成されている。
Audioboxは入力した文章を、特定の人物の声あるいは録音した自分の声で、読み上げられる。しかも、指示された文章に応じてその音声を変化させられる。
「Audiobox is a new foundational research model.」(Audioboxは新しい基礎研究モデル)という文章は、あらかじめ入力した自分の声で読み上げられるのはもちろん、「ビーチの水しぶきをバックにしたニュートラルな声」や「教会の中で響き渡る中年男性の声」といった自然言語で指定できる。また、自分の音声の入力は困難な場合は、プリセット音声を使用して試せる。ただし、試した範囲ではメロディーをつけて歌わせるということはできなかった。
音声に関しては最近の生成AIの水準からするとやや人工的な感じもするが、生成データのサンプルレートもかなり低いと思われるので、理由は明確に判断できない。
デモ機能の一環として、作成した音声を組み合わせてストーリーを作る機能もある。これは先に述べたAudioboxの適用分野である映像や音声コンテンツの作成をシミュレートしている。また画面設計の作りからすると、子供の教育的ツールな要素もあるのかもしれない。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります