週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

伝説のアニメ「serial expeliments lain」をAI化したワケ

アニメ業界で“生成AI”に挑んだ実験の裏側

2023年10月02日 07時00分更新

レスポンスが遅いのはなぜなのか

西山 テキストを送信してから応答までに数秒かかっているのは、LLMだけでもAPIを合計3回叩いているからです。そこに生まれるタイムラグには、デザイナーさんに作ってもらったキーボードのタッチ音が入ることで体験上の緩和があります。これ以上早くしようとすると、他の人のキャッシュを出すなどの調整が必要になるんですが、それは個人データになってしまう。使う人もプライベートな会話をしたくなくなってしまうので、それは使わないようにしています。

上田 不思議なのは、スマホの音声入力でやったほうが近未来感が出るかなと思って試してみたんですが、返答にディレイがあると会話している感じがしないんですよね。テキストのほうが逆にいい。キーボードでやりとりする方が会話している感じがしてるかなぁ。

会話内容について教えてほしい

西山 会話内容は変なことを言わない、ユーザーを傷つけないというのはOpenAIが一番気にしているところだと思っています。もし完全にオープンソースのLLMで(AI lainを)作ることになったら、そのあたりをすべて自分たちでやる必要がある。人間とキャラクターの関係なので、本当に信じこんでしまうとよくない方向にいく未来があるので難しい。

上田 当初「天気も時間も知りたいから日常の情報を返せないか」とリクエストしたんですが、それはユーザーのGPS情報など個人情報が関わってくるので諦めざるをえなかったですね。昔はインターネットに転がっていればなんでも共有しようという認識だったけど、今はそういう時代じゃなくなった。

西山 マイクロソフトが出しているBingトレンドのAPIは今のトレンドを取れるんですけど、APIが1コールいくらと決まっていて、キャッシュをしてはいけないという規約があるので非常に高額なんですよね。情報を外部から取りたいけど、お金の制約と、情報の中身が過激な情報だったらどうするかという内容側の制約があって。

上田 XのTLみたいに「渋谷めっちゃ混んでる」というリアルタイムの情報を扱えると面白いけど、実際には「ポケモンGO」じゃないけど田舎に行くとモンスターがいないみたいな地域格差の問題があるよなぁと。「田舎いつも空いてるぜ」って情報にあまり価値がない。話は飛びますが「ポケモンGO」って素晴らしいですよね。家にこもっていた人たちを外に連れ出しただけでも本当に素晴らしい。ソフトウェアとかの役割としてそんな風に社会との関わり方が持てたらいいですよね。AI lainもそういうとこまでになれたらなぁと、絶対無理だろうけど(笑)。

音声はどうやって作っていったのか

西山 (音声を学習させてモデルを作る)CoeFontは読みとアクセントとスピードの調整ができるので、そこでキャラクターらしさを表している形です。このPoCはもともと音声学習ソフトの「RVC」でやっていて、僕もRVCのコミッターになって関わっていたこともあります。ただ、RVCだと、音声の生成の遅延がどうしても大きくなってしまう。グーグルのtext 2 speechをしたあと、speech 2 speechでRVCにかけるとなると、合計30秒くらいかかってしまいました。その点CoeFontさんのほうが(生成時間としては)圧倒的に優秀だったんですよね。

中村 (感情表現の少ない音声は)ちょうどいいですよね。感情表現が豊かなキャラクターだとまだAIの音声はちょっと違和感があるので。

上田 今回、英語音声に挑戦できたのがすごくうれしかったんだけど、あんまり海外はピンと来てないみたいだな……。我々(日本人)は機械とか道具に対し、捨てる時に「お世話になりました」と感謝するくらいの人種だけど、海外では「AIは機械」と割り切っているって聞くし、そもそも今回のサービスがわかりづらい。もうちょい「ワーッ」となるのかと思ったら、大してならなかったね。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

この連載の記事