グーグルのLyraは3kbpsに落とした音の情報から、声を再生成
Opusは、最低で6kbpsという低いビットレートでも、音声の聞き取りができると言われている。音楽向けの品質とは言えないが、最近コロナ禍で注目されているテレワークやリモート会議などには有効だ。
このようにOpusは優れたコーデックだが、2月25日にグーグルが発表した「Lyra」という最新のコーデックはさらに衝撃的だ。Opusでは6kbpsが下限だったのをさらにLyraは3kbpsという超低ビットレートでも再生可能だという。詳細は下記のGoogleブログに記載されている。
グーグルはLyraを実現するにあたり、従来の手法に加えて、機械学習の手法を取り入れているとブログには書かれている。従来のように、音声の特徴を抜き出してサンプリングする方式では、低ビットレートになるほどロボット音声のようになるので、グーグルでは「Generative Model」(再作成法)という観点を取り入れた。つまり、機械学習でモデリングして、新しく信号を作り直すというアプローチを取ることによって、自然な音声を再現しているという。元の音声をベースにしながら、再生される音声は再生成するもののようだ。
このことから、Lyraはオーディオ向けのコーデックではなく、音声に特化したいわゆる「音声符号化」の分野の技術である。オーディオのような波形サンプリングと、人の声帯機構のモデリングによる再生成を組み合わせた「ハイブリッド符号化」という技術に属していると考えられる。音声の再生成は別名ボコーダーと言われる、というとピンとくる人がいるかもしれない。
このハイブリッド符号化は、携帯電話のVoLTEなどでもすでに取り入れられている。おそらく、人の声をモデリングする際に、機械学習を採用している点が、Lyraのポイントなのではないかと思う。この辺はいかにもグーグルらしいAI技術の応用だろう。しかも、このモデルは70もの言語に対応しているという。
また、計算コストがかかる方式だが、グーグルは独自手法で計算コストを簡易化し、ミドルクラスのスマートフォンでも対応可能にしたそうだ。
その結果は、上記ブログの「Comparison with Existing Codecs」という文中タイトルの部分に比較がある。実際にOpusの6kbpsと比べてみると、Opusの6kbpsではかなりギクシャクとして聞き取りにくい再生なのに対して、Lyraではオリジナルの肉声に近く、スムーズに音声が再生されることがわかる。
騒音環境下(Noisy Environment)の項で試しても、Opusの6kbpsではバックグラウンドノイズによってさらに聞き取りにくさが増しているのに対して、Lyraでは騒音の影響をさほど受けないことが分かる。グーグル独自の機械学習による音声品質向上の効果は大きいと言えるだろう。
さきにも触れたが、これはオーディオで使われているコーデックの分野とは、似て非なる音声符号化の分野のように思われる。おそらくは、携帯のような通話に特化したものだろう。そのため比較対象としてOpusを取り上げてはいるが、このままオーディオ分野に応用するとか、高ビットレートにも適用できる技術ではないように思われる。
一方で、コロナ禍で需要の高まるリモートカンファレンスやリモートワークには効果的だろう。
特に多数の言語でモデリングしているため、海外とのカンファレンスでは聞き取りやすさに大きな効果があるように思われる。このコロナ禍の中でも、技術が人々に福音をもたらしてくれるという意味で期待感は高いと言える。
週刊アスキーの最新情報を購読しよう