メタ、多目的音声生成AIモデル「Voicebox」発表。ノイズ除去や多言語対応など

2023年06月19日 15時00分更新

　メタ傘下のメタAIは6月16日（現地時間）、新たな音声生成AIモデル「Voicebox」を開発したと発表した。

　同モデルは英語、フランス語、スペイン語、ドイツ語、ポーランド語、ポルトガル語のパブリックドメインオーディオブックに収録された5万時間以上の録音音声とその文字起こしテキストを使用してトレーニングされており、たんなるTTS（Text-to-Speech：テキストを音声に変換する技術）にとどまらず、音声の編集、サンプリング、スタイライズなどの高度な音声生成タスクを実行することができる最先端のAIモデルとして開発された。

たった2秒間のサンプルでOK

同じテキストデータから5種類のスタイルで音声を合成

　Voiceboxは2秒程度の短い音声サンプルがあれば、それを使ってスタイル（特定の人の音声や特定の感情の表現方法）を学習して音声合成に使用することができる。

　将来的にはこの機能を利用して、話すことができない人に音声を届けたり、NPCやバーチャルアシスタントが使用する音声をカスタマイズすることも可能だという。

音声データの編集やノイズ除去も

音声データ内のノイズをカットし本来の音声を復元

　Voiceboxはインコンテクスト（文脈内）学習と呼ばれる手法により、音声を生成するだけではなく、音声のセグメントをシームレスに編集することを得意としている。

　たとえば、スピーチ内に犬の鳴き声が入ってしまってその部分の音声が聞こえなくなってしまったとしても、その部分を特定して犬の声を削除し、さらに消えてしまった音声を再現することも可能だという。

　将来的には画像編集ツールで写真をレタッチするのと同じように、音声のクリーンアップや編集が簡単にできるようになる可能性もあるとする。

誰でも英語が話せるようになる？

フランス語の音声サンプルと英語のプロンプトで英語音声を合成

　Voiceboxは上述のように英語、フランス語、ドイツ語、スペイン語、ポーランド語、ポルトガル語の6ヵ国語を学習しているが、音声サンプルと文章を入力すると、音声と文章が異なる言語であっても、それらの言語で文章を読み上げることが可能だ。

　将来的には、同じ言語を話せない二人でも自然で本物のコミュニケーションができるようになるだろう。例えば日本人とアメリカ人がお互い母国語（日本人は日本語、アメリカ人は英語）で話しているにも関わらず、日本人側から見ると相手のアメリカ人が日本語を、アメリカ人側から見ると相手の日本人が英語を流暢に話しているように見えるようになるかもしれない。