対話AIで人類にもたらされる”危うさ”の課題

2018年11月08日 09時00分更新

ペルソナの作り方

　対話AIにおけるペルソナの作り方は、大きく分けると2通りのアプローチがある。人手による設計と、データドリブン型である。

（1）人手による設計

　対話AIの設計者・開発者が対話AIのペルソナを設計し、発話内容等に反映させる方法。現状の対話AIでは、人手で作成されたシナリオに基づいた発話は多い（挨拶、定型的なジョークなど）。こうしたシナリオを作成する際には、当然ながら対話AIのペルソナは強く意識される。具体的には、ペルソナの一部として設定されている性別や年代などの属性や性格に合わせた表現が必要とされる。

　対話AIのペルソナを表現するための方法は、発話の内容や文章上の表現にとどまらない。音声対話AIの場合、音声の高低、トーン、スピードもペルソナを表す情報として重要である。さらに、スマホ向けのアプリなど、ディスプレー上での表示による視覚的なモダリティーが使える場合は、対話AIのキャラクタの見た目を変えることによるペルソナの表現も可能である。デバイス内で3DCGのアバターを表示するGateboxは、ペルソナの視覚的な表現を究極に進化させている例の1つである。

Gatebox（右）は視覚的なモダリティーによって対話AIのペルソナを表現する究極形の1つ

（2）データドリブン型

　大量の学習データを元にペルソナを「生成」する方式。対話AIの研究領域では「応答生成型」とも呼ばれる技術である。あらかじめ、人間同士の対話の大規模な履歴情報を用意し、このデータの中での発話の傾向（たとえば片方の人間の発話に対する相手の応答に出現する単語のパターンなど）を元に、ユーザの発話に対する対話AIの応答文をその場で自動的に生成する。

　この領域で活用されている代表的なアルゴリズムは、深層学習（ディープラーニング）で使われるニューラルネットワークの中でも、時系列・可変長の情報の扱いに適しているRNN（Recurrent Neural Network）を活用したSequence-to-Sequence（Seq2Seq）である。Seq2Seqは、学習データに含まれる発話と応答の対に含まれる単語の出現パターンを学習することにより、ユーザーの発話に適切に対応できる応答文を生成するために活用されており、対話AIにおいて一定の有用性が確認されている。

　この2つの方式には、システムの発話内容に対するコントロールと開発コストのトレードオフがある。人手による設計では、対話AIの対話内容や表現を開発者が強くコントロールできる一方、複雑かつ広範囲な対話を実現するためにはシナリオ作成やルールの策定のために多くの時間と労力を割く必要がある。

　一方、データドリブン型の方法では、十分な量と質の学習データが用意できれば、半自動的に対話AIを作ることができる（各種チューニングなど、実際には人間が担わなければならない作業は多い）。ただし、与える学習データの中身によっては、応答生成の結果が意味不明なものになったり、問題発言が生成されたりするなど、開発者の意図に沿わない対話が行なわれる危険性もある。

　したがって、現在実用化されている対話AIのほとんどは、上記の2つのアプローチを組み合わせる形で開発されている。

女子高生AIりんな

　たとえば、Microsoftの「りんな」の「女子高生」ペルソナは人手によって決められているが、ユーザーの発話に対する反応の多くは機械学習に基づく応答生成である。現在は、LINEなどで公開されているチャットボット経由で蓄積される対話のログを元にさらなる高度化が進められている。しかし、不適切な表現のフィルタリングや協業企業とのキャンペーンの一環としての対話など、実運用上では人手が加わっている部分も多いと思われる。

この記事をシェアしよう