東芝は10月25日、複数の人が同時に話しても正確な聞き分けをし、話者ごとに集音することができる分離集音技術を開発したと発表した。
従来の音源分離技術では、音源(話者)ごとに分離するフィルターをシステムが学習するために、数10分程度録音した後でなければ十分な分離精度が得られなかった。同社はフィルターを直接学習するのではなく、マイクからみた話者の位置情報を表す空間特性を学習し、環境にあわせて逐一フィルターを更新させることで高精度に分離する新方式を開発した。分離の正確さは、従来技術と比べておよそ2倍に向上しているという。
同技術により、話者ごとの音声を認識しテキスト化することが可能になるという。テキスト化された音声データは、人手による議事録作成の負担を軽減し、接客ではユーザーの意見の分析や、スタッフの応対マニュアルの改善に役立つとしている。またユーザーが訪日外国人であれば、自動翻訳にも適用可能だという。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります