週刊アスキー

  • Facebookアイコン
  • Xアイコン
  • RSSフィード

AlphaGOのニューラルネットが今度はリアルな音声合成に

グーグルの人工知能企業、ディープラーニングで肉声に近い音声合成を実現

2016年09月13日 16時25分更新

WaveNets

 グーグルの人工知能研究企業ディープマインドは9月8日、ディープラーニング技術を用いて人間の生の声に近い合成音声を生成する技術「WaveNets」を発表した。ディープマインドはコンピューター囲碁プログラムAlphaGoをなど人工知能技術で知られる。

 音声合成(TTS:Text to Speach)では、サンプリングした音声から音素データを生成、合成時には加工して自然に聴こえるようにするが、前後の単語などにより音の波形は変化するため違和感が残りやすい。現在主流の「パラメトリックTTS」では、さまざまな単語などの発声データをパラメーター化し、テキストから音声を直接合成する。比較的リアルではあるが若干不自然さは残る。

人の声も含めてさまざまなサウンドは異なるスケールの波の合成として扱われるため、それを計算すること自体、膨大な計算を必要とする

 WaveNetsは音声クリップとそれに対応するテキストを与えて機械学習させ、テキストに対応する音の波形をネットワークとして構築、合成時には文章単位で音声波形を作り出す技術のようだ。こういった処理はは膨大な計算力を必要とするが、同社ではディープラーニングによって構築されたニューラルネット構造として扱うことで実現している。

本来は何度も演算を重ねて解を得るような演算も、ニューラルネットでは構築したネットワークによって導き出すことができる

 実際に合成された音声は同社サイトに公開されており、パラメトリックTTSなど現行技術と聴き比べる事ができる。単語の繋がりや息継ぎのタイミングなど、確かに肉声に近づいているようだ。

 この技術は文章の繋がりといった文法に依存しないことから、テキストなしにネットワークを構成することもでき、この場合はどこの言語でもないコトバながら、いかにもそれっぽくスピーチに聞こえて興味深い。さらに、この技術は音声合成だけではなく音楽に関しても適用できるとのことで、サイトでは「音声合成ソフトが作ったピアノ曲」も公開されている。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう