週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

超整理手帳の野口先生に聞く「スマホは音声操作が吉」

2016年09月03日 09時00分更新

 あなたが毎日使っているスマホ。iPhoneでもAndroid端末でもまず間違いなく、搭載しているのが音声認識機能だ。声でスマホを操作できるAppleの「Siri」やGoogleの機能を使う。検索キーワードや地図の目的地の入力といった単語レベルの入力から、自然に話した結果を認識させる少し長めのメモまで、スムーズに入力できる点が特徴だ。

 そんなスマートフォンの音声入力に注目した書籍が『話すだけで書ける究極の文章法 人工知能が助けてくれる!』(講談社)。著者は超整理手帳でおなじみの野口悠紀雄氏。「まるごと1冊、音声入力で書いた初めての本」という触れ込みの書籍で、音声入力の有用性を紹介している。

■Amazon.co.jpで購入

 ITガジェット好きであればだれもが一度はあこがれる音声入力だが、古株のデジタルフリークであればあるほど、その有用性に気づいていないという面もあるかもしれない。確かにかつての音声認識はその触れ込みには遠く及ばない使いにくいものだった。

 まだ使ったことがないという人は、そんな先入観を捨てて、ぜひいちどスマホの音声入力を試してほしい。十数年前の音声認識とは比べ物にならない手軽さと、高い認識精度を持っていることに驚くはずだ。

音を文字に変え、編集を容易にする、それが音声認識の利点

── 「テキスト」を残すのと「言葉」を残す。その違いは何でしょう。

「“テープレコーダーに口述筆記する”という方法は昔からありました。言わば音を“アナログ状態”で残すやり方ですが、全く実用にならないというのが私の意見です。何十年も前にあきらめました。例えば、過去に録音したデータを確認するためには、レコーダーの中に何が入っているかをいちいち聞いて確かめなければならない。探すために毎回頭から再生していくのでは非効率です。一方で音声認識は声を“デジタル状態”に変換します。テキスト化してそれをパソコンで編集できる点は実用的ですし、非常に意味があることだと感じています」

── テキストを入力するだけなら、キーボードのほかにもケータイ打ちやフリックなど様々な方法があります。その中で、敢えて音声入力を使う意味は?

「一番のポイントは、やはり“楽にかける”ということです。

 文章を書く際に一番難しいのは“書き始める”こと。これは紙にペンで書く時代はもちろん、後から自由に編集ができるパソコンの時代になっても同じです。文章というのは、書き始めることが大変で、あるところまで考えがまとまって初めて書き進められるものです。

 その点、音声入力は思いついたことをそのままメモにできる。そのメモを積み上げ、編集しなおし、加筆していくことで文章ができ、考えがまとまっていく。そこが一番面白いと思っているところです」

── テキスト化することで頭が整理されるということでしょうか?

「実際に試してみるといいです。スマートフォンを手にして『あなたの会社の改善提案を考えて話してみましょう』。こういうお題をいきなり与えられても、普通の人はまずしゃべれないと思いますよ。『何とかしなければならない』と思っていても、『具体的な考えを持っていない』からです。話すことで、この『持ってない』ということが自覚できる。つまり頭の中が見える化できるのです」

── 自分を知るために音声認識を使おうということですね。

「“考える力を鍛えよう”という話題はよく出ます。この“鍛える”を医療にたとえるなら“治療”です。しかし治療の前には“診断”が必要です。だから頭の中の状態を見える化して、どこが不足しているか、そもそもどこの具合が悪いかを自覚をしてみようということです。実は何かに漠然とした不満を持っているけれど、その原因が何なのかハッキリわからない。その状態を見える化するためのツールです」

── 考え事を始める際には、まず最初に言葉で言うべきだと。

「そうです。キーボードをたたいてもいいのですが、やはり面倒。決心しないとできないからです。まず机の前に座るというのが大変です。しかしスマートフォンなら、歩いてもすぐできる。入力したあとでいくらでも整理ができる。入力するためのコストもかかりません。音声で気軽にメモを取っていこうということです。

 「何かのきっかけで思いつく」というのは、日常生活の様々な場面であり得ます。寝入りばなに思いついたとか、朝起きたときにとか。その際、スマートフォンさえ持っていれば記録ができる点はメリットです」

ITに熟練した人ほど理解しにくい音声認識の有用性

── 音声認識は理解されにくい入力方法です。

「“使い物にならない”という先入観があるからでしょう。今の音声認識は、認識する速度が早く、精度も良好で、カスタマイズなしでも必要な文章に変換してくれます。だから実際に使ったり、関心を持つのは先入観のない、初心者や若年層になるのでしょうね。フリック入力が苦手だと思っている人に音声入力のほうが便利ですよ、と言いたい」

── 音声入力はリテラシーの高い人ほど、消極的な印象です。過去の失敗の経験が呼び起こされるのかもしれません。

「PCのキーボードに習熟していると、ケータイ打ちやフリック入力になじめない場合が多いようです。私もそうです。リープフロッグ(蛙飛び)と呼んでいます。新しい技術が現れたとき、古い技術に習熟しているとなかなかそちらに移行しない。その結果、新しい技術をはじめから使う人に追い抜かれてしまう。音声入力についてそれが起こりつつあると思います。

 実際、若い人たちのほうが柔軟に受け入れているのではないでしょうか。同時に高齢者でキーボードも使えないという人にとっても、音声入力は意味がある技術だと思います」

── 確かに10年前の音声認識でイメージが止まっている人がいたら、認識精度の正確性に驚くはずです。自分の声の癖を教え込むために30分マイクで初期設定するなんてことも当たり前でした。

「10年ほど前の音声認識は、最初にPCに自分の声を教えるところから始めなければならなかった。これは非常に面倒な作業です。それにもかかわらず正確に認識してくれない。だから音声認識を信頼していない人が多いのもうなずけます。私もそうでした。しかし現代の音声認識は非常に正確で、早く話しても問題なく認識する。ここに大きな驚きがありました」

── もうひとつ問題となるのは社会的な背景。つまり公衆の面前で話すことの恥ずかしさでしょうか?

「これは慣れの問題もあるでしょう。いま街中で携帯電話を使って話す人を奇異な目で見る人はいない。使う人が増えれば、街中での違和感は減ると思います。私自身も空いた電車の中で、迷惑にならない程度で使っています。重要なのは、電車の騒音が人間の声をかき消してくれるということですね」

── 電話との違いは「はっきり」と話さないと認識してくれないこと。そこに抵抗がある。

「そうです。しかし、必ずしも大きい声である必要はない。小さい声でも正確に聞き取ってくれます。ただし“どこでも”できるわけではない。それはおっしゃる通りです。例えばオフィスで発想を得たからすぐメモできるかというと難しいでしょう。その場合は、席を立って廊下で入力するといった工夫がいるでしょう」

── ライフスタイルになじませる努力がいるわけですね。一方で余っている時間をうまく利用できる。ここは大きなポイントになると思いました。

「駅と家を往復するために歩く時間。これはいままで有効活用がしにくい時間でした。音声認識を使えば、会社から帰る時間にその日に起こったことをメモして振り返ることができます。余っていた時間を有効活用できるようになりました」

iPhone向けの超整理手帳の開発が音声認識に目覚めるきっかけとなった

── そもそも先生が音声認識にここまで入れ込むようになった理由は?

「それほど昔ではありません。音声で検索できるというのは以前から知っていましたが、あまり使ってはいなかった。きっかけはiPhone向けに出している「超整理手帳」のアプリでの活用です。ディスカッションをしている中で、音声でメモを書けるなら長い文章も書けるのではないか。そう思ってやってみたら、実に簡単にできた。去年の秋ごろの話です」

── そして半年で1冊の本を書いてしまうほどになったということですね。フットワークの軽い話です。しかしメモと本になるような長文では、意味合いが違うのでは?

「私は短いメモと長文を書くという行為は連続していると思います。文章というのはメモを積み上げて、それを編集していく作業だと思っていますから」

── 音声入力というとパソコンの黎明期からある夢であると思います。自動翻訳や手書き、人工知能などと同種の。これが現在、環境が整いつつある。世界を変えるかもしれない。

「大いにあり得ますね。私は手書き入力は効率が悪くて現実的ではないと思っています。音声認識を使うことで、まず仕事のやり方が変わります。システムを変えていくことが重要だと思います。どのアプリに入力して、編集をどうするかとか。仕事のやり方がPCだけで完結する方法とかなり違ってくるでしょう。そこをどう構築していくかについても紹介しています。本書では、文章の書き方やメモの取り方をどうするか、といったところから始めています」

── 世界中の人の話し言葉を集められる、クラウド化の恩恵でしょうか。

「そうです。しかし逆に言うと、私個人がよく使う単語を学習してくれないと感じる面もあります。一口に音声認識と言ってもSiriとGoogleで違いがあります。Googleは検索履歴を学習してくれますね。音声認識の場合も、過去の入力を反映してくれます。一方Siriはそうではなく、より長く自然な文章を入力するのに向いています。だから単語レベルでいうと、相変わらず「Siri」を「尻」と認識している(笑)」

── クラウドならではという意味では、時間帯で認識精度が違うとかもありますね。

「混んでるとダメですね。精度も反応も落ちる。時間帯によってSiriがそっけなくなったり、フレンドリーになったりするのは面白いけど、不便です」

── 学術用語や英字交じりの文章を入力する機会も多いのではないでしょうか。苦労はないですか?

「ここは私も苦労しています。ATOKを入れて辞書を強化してみたりもしたのですが、専門用語は難しい。それ以外でも頻繁に使う「企業」という言葉が、どうやっても金曜になってしまったり(笑)。英単語についても出ないものはでないですね。これはソフトキーボードを使ったり、後からPCで入れるしかないですが、要はあとから判読できるかどうかなので、どうしても必要な場合は仮想キーボードを使います。仮想キーボードはこれまであまり使わなかったのですが、音声入力の修正のために頻繁に使うようになりました」

── フリック入力ではあえて変換しないという手があります。ひらがなで書いてあれば大抵のことは分かりますから。これは記者としてのチップスです。

野口流、音声認識の活用ポイント

ポイント1 文章入力は音声認識だけで完結させない

 音声だけで最終的な完成物にすることはなかなか難しいと思います。誤変換があるので、それを直さないといけない。しかし仮にその精度が上がって、正確に認識してくれたとしても、それだけでは文章になりません。つまり考えていることを編集したり、意味が通じやすいように順序を整えたりといった作業が必要です。テキストにしたあとでの作業となります。ただ、この作業を音声と組み合わせることもできます。私は編集の際には音声とキーボード、両方を使っています。

ポイント2 GoogleドキュメントをPCとスマホの二刀流で使う

 Googleドキュメントを使う利点は、クラウド上で瞬時に同期できる点です。スマートフォンで音声を入力し、PCのブラウザー上ではドキュメントを表示しておく。そうするとスマートフォンの画面とパソコンの画面が同じになるはずです。改行の調整などはPCでやり、長い文章は音声で入力するといった使い分けができます。これも今までにないやり方ではないかと思っています。

ポイント3 誤変換はあるものと割り切るべし

 確かに誤変換は多い。しかし誤変換しても後から見て内容が分かるならそれでよいだろうというのがひとつ。後になってどうしてもわからないと思われるなら、消さずにもう一度重複して入れる。それでもだめならキーワードだけ入れる……など使い分けるといいでしょうね。

ポイント4 断片的なメモをまとめる際は日付や連続したイベントに紐づける

 断片的なアイデアをどんどん入力し、それをパソコンを使って後から修正していきます。最小限のひとまとまりごとにファイルを作る。もうひとつは日付に紐づけたメモを作る。ある会議があって、その会議で必要な資料だったり、その会議で出た記録などは、超整理手帳のメモ欄を書いていく。そうすれば、会議があった日を頼りに見出せる。

ポイント5 超整理法に加え、ドキュメントの次の新しい管理術が必要になる

 メモをキーワードで検索するのは難しいでしょう。なぜなら一般的な言葉しか使われていないからです。ただし普通、重要なものは何度も使うし、よく使うファイルは自然と更新履歴が新しくなるはずです。Googleドキュメントも一番最後に見たドキュメントが上にくる。だから上のほうのいくつかを見れば済むはずです。

── 実際に音声で日本語を入力していて感じる難しさはないですか?

「ひとつ言いたいのは音声入力のためのボタンです。頻繁に押すのに、小さい。しかも隣のボタンが絵文字なので押し間違いやすい。iPhone版の超整理手帳でも音声入力ができるのですが、このキーボードのレイアウトはGoogleやAppleが決めている仕様なので変更できないのが残念なところです」

── 話が少しそれますが、日本のパソコンにはJISキーボードが搭載されています。しかしこれは1割程度と言われる“かな入力”をする人たちのためという側面があるようです。

「なるほど。海外仕様のノートパソコンを日本向けに持ってこようと思ったとき、音声入力だけに対応させていこうと考えればコストが下げられるでしょうね。

 グローバル化は基本的な精神の問題もあるので、根が深いですけど、音声入力はクラウドで処理することで高性能が得られた。その結果、パソコンそのものにソフトを入れる、もしくはハードウェアで実現するといったものよりも導入のハードルが下がったと思います」

── PC98の漢字ROMに対して、DOS/Vのようにソフトで処理する・そんな変化がローカルからクラウドに移ることで実現した。グーグルはインターネットの会社ですが、自社でハードを開発してそれを使っている。つまりハードの会社という見方もできます。

「すごいコンピューターパワーをただで使えるのが現在です。正直な話、音声認識にお金を払えと言われたら、私はかなりの金額を払ってもいいと思います」

── それで本が書けるなら、元もとれる(笑)。

「使わないと損です。音声認識はこれまで、パソコン上で動くソフトとして実現されていた。これは逆に言えば、パソコンのある場所でしか使えなかったということです。しかしクラウドになって場所の制約は大きく緩和されました。カエサルのガリア戦記は口述筆記で書かれたものです。口述筆記は、昔の権力者の特権だったのです。しかしそのカエサルでも24時間口述筆記をさせられたはずはない。しかし、スマートフォンは夜中の2時でも文句を言わず、音声入力をしてくれる」

── 本当に贅沢ですね。盲目の作家ボルヘスは、すべて口述筆記で小説を書いたと言います。だから短編が多かったそうですね。よく一貫した筋を口頭で話せるものだと思いますが。

「口述筆記を使用していた作家はとても多くて、ドストエフスキーがそうだったと言いますね。日本で言えば、滝沢馬琴などもそうです。口述筆記は妻や弟子が行ったそうですが、我々にはスマートフォンがあって、後からいくらでも直せる。そういった意味でも夢のような時代が訪れたと思いますね」

── 最後に読者に対して一言お願いします。

「音声入力の進化は、せんじ詰めれば人工知能の進化と関係しています。人工知能は自分の生活とは関係がないと思っている人は多いでしょう。軍や政府や大企業が使うものだと。たしかにそういう用途はあるのですが、われわれが日常生活で使うこともできる。それが音声認識であり、検索だと思います。この技術をただで使える。仕事の能率が上がらないはずない。使わなければ損です。このパワーをぜひ使うべきです!!

 同時に日本のモノづくり偏向について考え直すタイミングが来ています。AppleやGoogleはいずれも米国の企業です。本当はこういう分野で日本の企業が活躍してほしい。ビックデータを使って新しい技術を開発していくべきですね!!」

── 本日はありがとうございました。

■Amazon.co.jpで購入

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

本記事はアフィリエイトプログラムによる収益を得ている場合があります