OpenAIの新しい音声モデルすげ〜。AIに話しかけたら、そのまま仕事が進む時代が来そう…
2026年05月08日 10時30分更新
AI音声が、単なる自動応答ではなくなってきた。
OpenAIは5月7日、API向けの新しいリアルタイム音声モデルとして「GPT-Realtime-2」「GPT-Realtime-Translate」「GPT-Realtime-Whisper」の3種類を発表した。価格はGPT-Realtime-2が音声入力100万トークンあたり32ドル、音声出力100万トークンあたり64ドル、GPT-Realtime-Translateは1分あたり0.034ドル、GPT-Realtime-Whisperは1分あたり0.017ドルだ。
「会話する機能」から「作業するインターフェース」に近づけたのが特徴だ。OpenAIによれば、声で依頼を受けた後、文脈を追い、必要ならツールを呼び出し、会話が続くなかで行動する方向へリアルタイム音声を進めるという。
GPT-Realtime-2は、エージェント向けに最適化されたモデルだ。OpenAIによれば、GPT-5クラスの推論を備えた初の音声モデルで、難しい依頼を扱いながら自然に会話を進められる。たとえば「カレンダーを確認する」「条件に合う家を探す」といった処理を、会話を止めずに進める用途を想定しているという。
開発者は「少し確認する」といった短い前置きを入れられ、モデルは複数のツールを同時に呼び出せる。失敗したときにも黙りこんでしまうのではなく、「いま少し問題が起きています」といった形で会話を保てるとしている。
文脈の長さも広がった。GPT-Realtime-2ではコンテキストウィンドウが32Kから128Kへ増え、長い接客や複雑な業務フローを扱いやすくした。専門用語や固有名詞、医療用語なども保持しやすくなったという。
音声翻訳ができるのは、GPT-Realtime-Translateだ。70以上の入力言語から13の出力言語へ、話している最中に翻訳する。カスタマーサポート、越境営業、教育、イベント、メディアなど、複数言語の会話をリアルタイムでつなぐ場面が主な用途だ。
文字起こし向けにはGPT-Realtime-Whisperが用意された。低遅延のストリーミング音声認識モデルで、話しながらテキスト化ができる。ライブ字幕、会議メモ、授業、放送、サポートなどを、あとで録音を処理するのではなく、その場でテキストを業務に活用できるのが強みだ。
性能面では、GPT-Realtime-2の“high”設定が、Big Bench AudioでGPT-Realtime-1.5を15.2ポイント上回り、“xhigh”設定がAudio MultiChallengeで13.8ポイント上回ったと説明している。
音声AIは自然にしゃべるだけでなく、会話をしながら仕事をするという段階に移りはじめた。翻訳、文字起こし、ツール操作がリアルタイムで処理されるようになったことで、単なるキーボード代わりの音声入力を超えて、ソフトウェアの入り口になったと言うべきだろう。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります

