第27回

【解説】Geminiの画像生成がすごい　無料で使えるうちに試してみて

2025年03月21日 17時00分更新

ワールドモデル（世界知識）を活用した生成・編集

　Gemini 2.0 Flash Experimentalの大きな特徴の一つが「ワールドモデル」と呼ばれる世界に関する深い知識だ。これは単なる画像生成能力を超え、物理法則、物体の形状、空間認識、さらには文化的背景まで理解した上で画像を生成・編集できることを意味する。

　従来の画像生成AIは、与えられたプロンプトから画像を生成することはできても、三次元空間における物体の配置や視点の変更といった複雑な操作を正確に行うことは難しかった。例えば「この人物を後ろから見た姿で描いて」という指示は、同一人物の特徴を維持しながら空間的に異なる角度から描画するという高度な理解が必要だ。

　Gemini 2.0 Flash Experimentalは、このような世界に関する知識を活用することで、物体や人物の角度変更、視点の切り替え、さらには料理レシピの視覚化のような複雑なタスクも実行できる。これにより、プロンプトだけでは表現しきれない空間的な要素や文脈も正確に反映した画像生成が可能になっている。

　では試していこう。まずは「日本車を描いて」というシンプルなプロンプトから車の画像を生成。