【解説】Geminiの画像生成がすごい　無料で使えるうちに試してみて

2025年03月21日 17時00分更新

一貫性を保った物語生成機能

　最後にこれまでの集大成として、Gemini 2.0 Flash Experimentalのマルチモーダル能力を最大限に活かした物語生成機能を試してみよう。

　これまで紹介してきた「キャラクターの一貫性維持」や「ワールドモデルに基づく理解」といった機能を総合的に活用できるのが、この物語生成機能だ。テキストと画像を同時に生成できるマルチモーダルLLMの真価が発揮される場面と言える。

プロンプト：未来都市を旅する猫型ロボットの5部構成の物語を、各シーンの画像付きで生成して

　このプロンプトで生成されたのが「タマの冒険」と題された物語だ。

第1部：目覚め

第2部：街へ

第3部：出会い

第4部：追跡

第5部：再会と新たな旅立ち

　驚くべきことに、Gemini 2.0 Flash Experimentalは単に5枚の画像を生成するだけでなく、それぞれの画像に合わせた物語も同時に生成してくれた。

　注目すべき点は、5つの異なるシーンにもかかわらず、主人公の猫型ロボットの外見が概ね一貫して維持されていることだ。（多少のツッコミどころはあるが修正可能だ）

　背景や状況が変わっても、キャラクターの一貫性が保たれていれば、説得力のあるビジュアルストーリーテリングが実現できる。これは漫画やアニメ、絵本などの創作活動を行うクリエイターにとって、強力なツールになるだろう。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

本記事はアフィリエイトプログラムによる収益を得ている場合があります