VAIO Zで音声をテキスト化するベストな方法

2022年03月22日 10時00分更新

　どうするのが最適解なのか、ずっと悩んでいることがある。インタビューなどで録音した音声データを自動的にテキスト化してくれるものはないものかと。

　これは、ライター特有の悩みなのかもしれないが、音声からのテキスト化というのは、会議の議事録でもやるような作業。効率よく、かつ正確にテキスト化してくれるソフトやサービスはないものかとずっと探している。

　最近は有料のサービスもあるが、ぶっちゃけそんなにお金はかけたくない。なのでお金をかけずになんとかできないものかと、これまでいろいろとトライしてきた。そこで今回は、音声認識率はまだまだなところはあるものの、筆者が現在活用している方法を紹介していきたい。

「Alexa」って意外と音声認識は高いと思うけど……。

　音声認識の世界では、英語だとかなり認識率が高くなってきているものの、日本語となるとなかなか難しいようだ。同音異義語などが多いし、かな漢字だけでなくカタカナ語、英語なども混じってくるため、誤変換が多い。

　「OK Google」や「Alexa」など、音声認識を利用して操作するような機器の場合、筆者の印象としては、かなり認識率が高い。Amazon Echoで家電コントロールなどをしているが、結構離れた場所から話しかけても認識してくれたり、「エアコンを切って」「エアコンを止めて」と表現を変えてもきちんと認識してくれる。

　この調子で、インタビューなども音声認識して、テキスト化してくれるとありがたいのだが、そうは問屋が卸さない。数年前からホントいろいろと試してきた。

　最初はGoogleの音声入力だ。iPhoneで「Google Keep」を起動して音声入力を使ってみたのだが、近距離にいてもなかなか音声自体を認識してくれない。一方、iPhoneの音声入力を使ったところ、音声自体は認識してくれ、そこそこの認識率ではあるものの、一定時間で止まってしまうため、インタビューにはあまり向かない。自分の声で原稿を書くというときにはいいだろう。

　その後、パソコンでGoogle Docsのツールにある音声入力を使用してみたが、マイクを使ってリアルタイムでやろうとしても、やはり音声を認識してくれず、なかなかうまくいかない。音声データを再生してテキスト化もしてみたが、特に環境音があると音声を認識してくれず、止まることがしばしば。音声の状態に大きく左右される。

Google Doscの音声入力でYoutubeの音声をテキスト化しているシーン。音声が聞き取りやすいと素直にテキスト化してくれるものの、ちょっとでも聞き取りにくかったり環境音が入ってくるとダメという印象。句読点もない

　それでもなんとかテキスト化してくれていたので、しばらく使ったが、句読点を打ってくれず、一定時間で停止してしまうため、効率はあまりよくない。取りこぼしも多く、話した内容がぼんやりわかるかな、という程度だ。

ワードのディクテーション機能がどんどん進化している

　その後しばらくして登場したのが、ワードのディクテーション機能だ。期待して使ってみたが、Google Docsの音声入力よりさらに音声の状態に左右されるものだったため、当初は使い物にならなかった。

　ところが、マイクロソフトが力を入れたのか、ある時期から飛躍的に音声認識率が高くなり、Google Docsを逆転。音声が小さすぎたり、ノイズが乗っていない限り、テキスト化する努力をしてくれるようになった。取りこぼしや認識率はやはり音声の状態によるものの、テキスト化された文書は、そこそこ読み取れるのでディクテーション機能へ乗り換えた。

　アクティブにしていないと止まるというのはGoogle Docsと同じだが、句読点を打ってくれるので、読みやすい（正しいかどうかは別）。ただそれでも、最初は一定時間で固まってしまい、再び実行しようとしてもなかなか実行できないなど、リアルタイムで利用するには少々不向きだった。

Microsoft 365のワードにあるディクテーション機能。Youtubeの音声をテキスト化してみたが、誤認識や取りこぼしも少々あるものの、どんな音声でも頑張ってテキスト化してくれる姿勢がいい。最近になってさらによくなっている印象だ

　ところがWindows 11になってから、今度はOSであるWindowsの音声入力の精度がかなり良くなり、句読点も打ってくれるし、ディクテーション機能よりも認識率が高くなったので、インタビューでリアルタイムにテキスト化に挑戦してみた。

　VAIO Zの内蔵マイクでも、対面にいるインタビューイの音声をしっかり拾ってテキスト化してくれ、これはスゴイとちょっと感動したものだ。同時期に同じ環境で行ったGoogle Docsの音声入力ではまったくダメで、やはり環境音や音声の質に左右されてしまう状態だった。

Windowsの音声入力はWinキー＋Hキーで起動する。常に起動させておくこともでき、ワードに限らずあらゆるテキスト入力の場面で活用できる

　ただ、Windowsでも、やはり一定時間で固まってしまうのはディクテーションと同じで、それを避けるには、ある程度時間が経ったら、タイミングを計って一度止め、再び実行する必要がある。そのため、録音した音声をテキスト化するほうが作業的にはラクで、そうしてテキスト化したものは、それをもとに記事化できるレベル（そのまま使うのは無理だけど）で活用できるようになった。

　そして今、ワードのディクテーション機能がさらに進化して、認識率もWindowsの音声入力に近づきつつ、句読点はもちろん、途中でキー入力が可能になったので、改行を入れられるようになった。話者が代わったときや、流れが変わったときに改行を入れられるだけで、あとから認識しやすくなるため、かなり効率よくテキスト化できるようになってきた。

　また、いまのところ一定時間では止まることもないようなので、リアルタイムのテキスト化も夢ではない。固有名詞や聞き取りづらい発音だと誤認識が多いものの、筆者が考えるいま時点でベストなのはワードのディクテーション機能だ。

VAIO Zで音声を再生したものを入力する方法

　VAIO Zでは、PC上で録音データを再生したものを、そのまま音声入力することができない。マシン環境によっては「サウンドミキサー」というドライバーがあり、それを利用するとスピーカーで出力される音を音声入力できるのだが、VAIO Zにはそれがない。

　そのため筆者は、サウンドミキサーのように働くサードパーティー製のドライバーを導入している。筆者が利用しているのはフリーソフトの「VB-CABLE」だ。英語版だが、インストールすることでサウンドミキサーのように働いてくれる。

VB-AUDIO Softwareの「VB-CABLE」のサイト。ここからダウンロード

ダウンロードしたファイルを展開し、セットアップを実行する際は「管理者として実行」を選択する

インストーラーが起動して、実行するだけ。あとは再起動しよう

　インストール後再起動して、「サウンド」の設定で、出力を「CABLE Input」にし、入力を「CABLE Output」に設定。ただ、これだと音がスピーカーから出てこないので、「サウンドの詳細設定」で「録音」タブの「CABLE Output」を選択。「聴く」タブで「このデバイスを聴く」にチェックし、出力するデバイスを指定すると音声が聞こえるようになる。

サウンドの設定で出力、入力をそれぞれVB-CABLEにする

サウンドの詳細設定で「録音」タブにある「CABLE Output」を選択

「聴く」タブを選択し、「このデバイスを聴く」をチェックして出力先を選択する

　あとは、音声を再生するアプリを起動して再生、ワードのディクテーション機能をオンにすれば自動でテキスト化してくれる。ワード上でのマウスやキーボード操作は大丈夫だが、ほかのウィンドウをアクティブにするとテキスト化を終了してしまうので注意が必要だ。

自動テキスト化を活用して作業効率アップを目指せ

　最近のリモート会議では、Teamsだとミーティング内容のテキスト化機能も用意されているので、録音してテキスト化といった面倒なことをせずに済むことも多い。しかし、対面で会議をするときはそういうわけにいかない。

　筆者の場合、インタビュー時に別途マイクや録音機器などを使用せずとも、VAIO Z上でワードのディクテーション機能を起動しっぱなしにしておくだけで、結構音声を拾ってテキスト化してくれている。ネットワークにつながっていないと処理されないので、その点は注意が必要だが、こうした活用方法をマスターしておけば、必ずや生産性の向上に結びつくはずだ。

■関連サイト