音声認識AIを利用したテープ起こしサービスを徹底レビュー

会議の音声をテキスト化してくれる「VoXTプロ」を使ってみた

2018年12月27日 18時00分更新

音声とテキストが連動しているので作業効率が高い「Rewriter」

　.vtxt形式のファイルは「AmiVoice Rewriter」（以下Rewriter）という専用アプリで読み込み、認識ミスなどを修正する。アドバンスト・メディアオリジナルの認識結果編集ソフトで、音声とテキストを連動させて作業できるのがウリ。

　テープ起こしに便利なアプリはほとんどなく、ニーズがあるわりには選択肢が少ない。貴重な選択肢となるRewriterの使い勝手はどんな感じだろうか。

　Rewriterをインストールする際は、ライセンス管理のためのUSBキーやライセンスファイルが必要になる。セットアップできてしまえば、自動的に関連付けられるので、.vtxtファイルをダブルクリックすればRewriterが起動する。

「Rewriter」で.vtxtファイルを読み込んだところ

　Rewriterのウィンドウは画面上部に音声、その下に文章の編集エリア、その下に発話の一覧が表示されている。Rewriterはマウスでもキーボードでも色々な方法で操作できるが、やはり効率的に作業するならショートカットキーを活用したい。

　Ctrl＋スペースキーで音声の再生・停止が可能。そもそも、Rewriterでは、会話の区切りで改行しており、そこで自動的に再生が止まるようになっている。音声を聞きつつ、中央の編集エリアで文章をチェックしていくのだ。

　その文章のチェックが終わったら、Ctrl＋Enterキーを押すと、編集結果に入力され、次の文章が再生される。後は、その作業を続けていけばいい。通常の音声再生ソフトだと再生と停止を自分で操作しなければならないところ、Rewriterだと自動で次の文の再生が始まるし、区切りのいいところで自動的に止まるので修正作業に集中できるのが便利だ。

文章の修正が終わったら、Ctrl＋Enterキーを押す

　今回は、適当にiPhoneアプリで録音した音声データを使ったものの、7～8割は認識されていた。iPhoneは相手の近くに置いたので、筆者の発言の認識率は低め。また、固有名詞は誤認識していることが多かった。とはいえ、音声を聞けば一発で修正できるレベル。前後の言葉が入力されているので、誤認識しているところだけを入力すればいいのは大助かり。次々と会話を進められるので、早く作業できる。

　認識候補が複数ある場合は、Ctrlキーと上下の矢印キーを押すことで手軽に選択できる。Ctrl＋Enterキーで編集結果の確定と次の会話への移動ができるが、単に発話を選ぶならCtrlキー＋「K」で一つ戻り、「L」で進む。

　音声認識の段階で、「で」とか「えー」とか「そのー」などは自動で省略してくれているのでとても手間が省ける。それなのに「実は作って使っている企業」と、言い間違えを瞬時に言い直しているようなところもきちんと認識できているのがすごい。この場合は「作って」をサクッと削除するだけでいい。

　話者の設定は「F2」キーで選択できる。一度入力した名前は、一覧から選択するだけでOKだ。

変換候補がある場合は、Ctrlキーと上下矢印キーで選択入力できる

話者が切り替わったら、F2キーを押して設定できる

　一通り編集が終わったら、「編集内容の書き出し」をクリックして、テキストファイルやWord、CSVなどに出力する。編集結果のみを抽出して書き出したり、未編集の発話部分は認識結果を使って全体を出力したりできる。

「編集内容の書き出し」をクリックして、テキストに書き出す

テキストファイルを開いたところ。変な改行があるのは、筆者が編集の際に誤って入力してしまったため。通常はきちんとつながった文章になる

　発話を右クリックメニューから削除したり、複数の発話を結合させることもできる。しかし、あまりRewriter上で完璧を求めなくてもいいだろう。テキストファイルなりWordファイルなりに出力し、そちらで仕上げた方が効率がよさそうだ。

右クリックメニューから「削除」で発話を削除できる。ショートカットキーはない

複数の会話を選択し、Ctrl＋「M」キーで結合できる

　ある程度の文字起こしを音声認識AIで行ない、専用設計の文字起こしアプリで修正するのは超絶便利だった。音声とテキストが完全にリンクしているので、誤字部分をクリックすればその時の音声が再生されるし、音声データの任意の部分をクリックすればその部分のテキストを修正できる。ほとんどの操作をショートカットキーで操作できるので、マウス操作に手間取ることもない。

　同社の担当者によると、通常テープ起こしは録音時間の6倍から8倍の時間がかかるそう。その点、Rewriterなら2倍くらいで済んでしまうとのこと。

　確かに、アプリに慣れている人が、録音の状態がよく認識率が高い原稿をチェックするなら2倍の時間で終わってしまいそうだ。2時間のテープ起こしで8時間から12時間の時短が実現できてしまうのは働き方改革の文脈でも効果大。週に2本あるなら、月間で100時間近い人件費節約効果となる。そもそもテープ起こしの時間は無駄だし、モチベーションも上がらないので、そこをツールの力で置き換えられるのはありがたいところ。

　価格は「AmiVoice Recorder／Rewriter／Recognizer」のスタンダードライセンスが月額4万5000円から。クラウド版であれば、テキスト変換料金は録音時間1分につき60円なので、60分の音源なら3600円となる。フリーライターとしてはぎりぎりペイするかどうかというところだが、企業で多数の会議を扱うのであれば逆にリーズナブルなサービスと言えるだろう。

筆者紹介─柳谷智宣

1972年生まれ。ネットブックからワークステーションまで、日々ありとあらゆる新製品を扱っているITライター。パソコンやIT関連の媒体で、特集や連載、単行本を多数手がける。PC歴は四半世紀を超え、デビューはX1C（シャープ）から。メインPCは自作、スマホはiPhone＋Xperia、ノートはSurface Pro3とMacbook Air。著書に「銀座のバーがウイスキーを70円で売れるワケ」（日経BP社）、「Twitter Perfect GuideBook」（ソーテック社）、「Dropbox WORKING」（翔泳社）、「仕事が3倍速くなるケータイ電話秒速スゴ技」(講談社)など。筋金入りのバーホッパーで夜ごとバーをハシゴしている。好きが高じて、「原価BAR」を共同経営。現在、五反田・赤坂見附・銀座で営業中。

■関連サイト