落ち着いた口調も親しみやすい口調も思いのまま OpenAIの新たな音声合成AIモデルを使ってみた
2025年04月03日 16時00分更新
日本語にも対応した、新たな音声合成AIモデルが登場
2025年3月21日、OpenAIから新たな音声合成のAIモデル「gpt-4o-mini-tts」がリリースされた。英語ほど完ぺきではないが、日本語にも対応している。大規模な音声モデルを蒸留し、小型で効率的に仕立てており、GPT-4oアーキテクチャに基づいて構築され、音声のニュアンスまで再現できるのだ。
まずは、無料で使えるデモ環境が用意されているので試してみよう。「OpenAI.fm」のウェブサイトを開くと、設定画面が開く。「VOICE」では音声、「VIBE」は口調や感情、「SCRIPT」は読み上げさせる文章だ。デフォルトで英語の文章が入っているので、そのまま「PLAY」をクリックしてみよう。女性の声で、滑らかに読み上げてくれる。この、何を話すか、だけでなく、どう話すか、という調整を行えるのが最大の特徴と言える。
あらかじめ11種類の話者音声がプリセットされており、話者のバリエーションにはAlloyやAsh、Ballad、Coral、Echo等、個性的な名称が付けられ、それぞれ音域や話し方の特徴が異なる。70言語以上に対応し、英語をはじめ日本語など多数の言語で文章を読み上げできるのもうれしいところ。モデルは言語に依存しない音声生成が可能なため、一つの話者ボイスで多言語を話すこともできる。ただし、英語に最適化されているので、英語での合成が最も自然で滑らかだ。。日本語を含む他言語でも十分な品質で読み上げできるが、細かな発音のニュアンスは完璧ではない場合がある。
各音声は声の高さやトーン、話し方のスタイルが異なるプリセットで、用途に応じて適切な声色を選択できる。中にはダイヤのアイコンが付いた声もあり、特に表現力が豊かなプレミアム的な位置付けと思われる 。またシャッフルボタンも用意され、ランダムに音声を選ぶことも可能だ。
UI中段の「VIBE」セクションでは、音声のトーンや話し方の雰囲気を選択できる。たとえばCalm(落ち着いた)、Medieval Knight(中世の騎士)、Emo Teenager(反抗期の十代)、Patient Teacher(忍耐強い教師)等のプリセットが用意されており、クリックすることで音声の抑揚や感情表現をガラリと変えられる。選択中の雰囲気プリセットには赤丸が表示される。この機能により、一つの声でも「陽気で朗らか」「厳かで毅然とした」などシナリオに合った話し方に瞬時に切り替えできるのが楽しい。
「SCRIPT」セクションにはテキスト入力フィールドがあり、ユーザは任意の文章をそこに入力できる。入力したテキストが音声合成の台本(スクリプト)となり、選択したVOICEとVIBEで読み上げを行う。例えばデモ用に用意された文章では古風で騎士的な喋り口調の例文が表示されており、これを編集・差し替えて自由な内容を試すことができる。
音声の生成はクラウド上で行われ、完了すると即座に音声がストリーミング再生される。生成された音声は「DOWNLOAD」ボタンで音声ファイルとして保存でき、「SHARE」ボタンから共有することも可能。
デモ版なので数百文字までしか入力できないが、1~2分くらいの文章を読み上げさせることはできる。複数言語の混在も可能で、日本語も高いクオリティで読み上げられる。ただし、例えば「私はライターです」と入力しても、火を付けるライターのような発音になってしまうように、違和感が出ることも多々ある。とはいえ、それを含めて、相当にレベルが高い。
画面右上には「」アイコン付きトグルスイッチがあり、オンにすると開発者向けの表示に切り替わる。内部で利用しているAPI呼び出しや生成パラメータ、JSON出力などが確認できるモードで、エンジニアが自分のアプリに組み込む際の参考情報を得られる。
OpenAI.fmデモ環境の目的は、最新の音声モデルの性能を広く公開しフィードバックを得ること、そして開発者に音声APIの使い方を体験させること。そもそも、長文の入力ができないので、実際にビジネスで活用するのであれば、API接続で利用することになる。
もちろん、従量制で課金されるが、100万トークン当たり12ドル、約1分で0.015ドルと格安なのは嬉しい。1時間の動画用音声も気兼ねなく生成できる。
筆者はプログラムが書けないが、OpenAIのサイトでサンプルコードが紹介されていたので、コピペしてAPIキーとテキスト、口調などを入れて実行したところ、問題なく長文の音声ファイルが生成された。
アイディア次第で様々な活用法が考えられる
ビジネスでの活用は広がるだろう。例えば、コールセンターやカスタマーサービス業務では、「思いやりのあるサポート担当」や「プロフェッショナルで落ち着いたトーン」などと指定し、顧客に寄り添った口調で回答すればいい。
動画制作やポッドキャスト、eラーニング教材など、音声コンテンツの自動生成にも威力を発揮する。従来は人間のナレーターに頼っていたナレーションやアナウンスをAI音声で代替できれば、コスト削減や制作時間の短縮になる。例えばマーケティング動画では「爽やかで信頼感のある男性の声」を選んで製品紹介ナレーションを生成し、ターゲット顧客には「親しみやすい語り口」で商品の説明をすればいい。
もちろん、教育現場やマーケティングでもアイディア次第で色々と活用できるし、人の手間を軽減してくれる。今後は新しい活用法が次々と生まれてくるだろう。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります