グーグルの人工知能研究企業ディープマインドは9月8日、ディープラーニング技術を用いて人間の生の声に近い合成音声を生成する技術「WaveNets」を発表した。ディープマインドはコンピューター囲碁プログラムAlphaGoをなど人工知能技術で知られる。
音声合成(TTS:Text to Speach)では、サンプリングした音声から音素データを生成、合成時には加工して自然に聴こえるようにするが、前後の単語などにより音の波形は変化するため違和感が残りやすい。現在主流の「パラメトリックTTS」では、さまざまな単語などの発声データをパラメーター化し、テキストから音声を直接合成する。比較的リアルではあるが若干不自然さは残る。
WaveNetsは音声クリップとそれに対応するテキストを与えて機械学習させ、テキストに対応する音の波形をネットワークとして構築、合成時には文章単位で音声波形を作り出す技術のようだ。こういった処理はは膨大な計算力を必要とするが、同社ではディープラーニングによって構築されたニューラルネット構造として扱うことで実現している。
実際に合成された音声は同社サイトに公開されており、パラメトリックTTSなど現行技術と聴き比べる事ができる。単語の繋がりや息継ぎのタイミングなど、確かに肉声に近づいているようだ。
この技術は文章の繋がりといった文法に依存しないことから、テキストなしにネットワークを構成することもでき、この場合はどこの言語でもないコトバながら、いかにもそれっぽくスピーチに聞こえて興味深い。さらに、この技術は音声合成だけではなく音楽に関しても適用できるとのことで、サイトでは「音声合成ソフトが作ったピアノ曲」も公開されている。
週刊アスキーの最新情報を購読しよう