ChatGPT超進化「見て」「聞いて」「話せる」ように

2023年09月26日 12時10分更新

　OpenAIは9月25日（現地時間）、同社のAIチャットサービス「ChatGPT」に音声と画像を扱うことができる「マルチモーダル」機能を追加したことを発表した。今後2週間以内にPlusとEnterpriseユーザーから順次利用できるようになる。ただし、音声はスマートフォンアプリ（iOS／Android）でのみ利用可能となる。

ChatGPTと会話が可能に

　スマートフォンアプリでは、音声によるChatGPTとの会話が可能になった。

　音声入力を始めるには、最初にアプリの「Settings」メニュー「New Features」タブから「Voice Conversations（音声会話）」を選んでオプトインする必要がある。

　音声合成には、テキストと数秒間のサンプル音声から、まるでその人がはなしているような音声を生成できる新しいモデルを採用し、プロの声優の協力で5種類の音声が用意されている。音声はヘッドフォンボタンをタップすることによって切り替えも可能だ。

　また、入力した音声をテキスト化するのにはOpenAIの音声認識技術「Whisper」が使用されている。

Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.

Sound on 🔊 pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) September 25, 2023

　デモ動画では「ハリネズミのラリーのお話しをして」という音声リクエストに対して、ChatGPTがお話しを創作し、語り聞かせる様子を見ることができる。単にお話しを聞かせてくれるだけではなく、「ラリーはどんな家に住んでるの？」といったユーザーの質問に対してもすべて音声で回答している。

　UIを見ると、ユーザーが音声を入力している際には大きな円が、ChatGPTが音声で回答している際には4つの楕円が表示されるようだ。

画像を使って便利にチャット

　画像を使いたい場合は写真ボタン（スマートフォンアプリの場合はプラスボタン）をタップして撮影または既存の写真を選択する。複数の画像を選んだり、お絵かきツールでChatGPTに注目してもらいたい部分を指定することもできる。

　画像認識はマルチモーダル機能を持つGPT-3.5およびGPT-4によるものだ。両モデル共に、写真、スクリーンショット、テキストと画像の両方を含む文書など、幅広い画像を理解することができる。

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023

　デモ動画では写真を使った調べ物のデモを見ることができる。

　まず、自転車の写真をアップロードし「サドルの下げ方」を質問すると、ChatGPTが「まず、サドルの下のレバーを緩めます」といった一般的な手順をテキストで解答する。

　そこでユーザーはその場でサドル部分を撮影し「このレバーであってる？」と質問。その際、お絵かきツールで注目してもらいたい部分を指定している。

悪用リスクへの対策も

　とは言え、画像と音声はテキスト以上に悪用リスクも高い。

　たとえば、数秒間の録音データからリアルな合成音声を作成可能な音声技術は、なりすましや詐欺に悪用される可能性があるため、OpenAIでは特定の声優を使ったボイスのみ使用し、サンプルから音声を合成する機能は公開しないようだ。

　また、画像に関しても慎重なアプローチを採用している。特に人物に関しては間違った情報を出力することはプライバシーにも関わる重大な問題にもつながるため、当面は能力が大幅に制限されるようだ。

　ちなみに、一足先に画像入力を受け付けているグーグルの「Bard」も、人物が写った写真は恐らく同じ理由で利用できなくなっている。

　また、画像の状態のテキストを認識する、いわゆるOCR機能は現状英語のみの対応となっており、特に日本語のようなアルファベット以外の文字を認識することはまだ難しいようだ。

AIチャットはマルチモーダルの時代へ

　画像や音声を扱えるマルチモーダル化は3月の「GPT-4」発表時からアナウンスされていたが、実際にChatGPTで利用できるようになるまで半年強の時間がかかってしまい、グーグルの「Bard」の後塵を拝する形となった。これは、前述の様々なリスクの回避に慎重になっていることが大きな理由だろう。ユーザー側からしてみれば便利な機能でしかないのだが、悪意を持った利用への対策が講じられるまでは我慢するしかない。

　とは言え、ユーザー体験を著しく向上するマルチモーダル化の流れは止めようがないだろう。技術の進化とユーザーの安全を両立させることは容易ではないが、その努力が最終的にはより信頼性の高いAIサービスを生むことを期待したい。

■関連サイト

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう