グーグルは3月12日、最新の大規模言語モデル(LLM)「Gemini 2.0 Flash Experimental」の画像生成・編集機能を「Google AI Studio」で開発者向けに試験的に無料公開した。
Stability AIの「Stable Diffusion」やグーグルの「Imagen 3」といった従来の画像生成特化モデルとは異なり、Gemini 2.0 Flash Experimentalはテキスト生成と画像生成を単一のモデルで実行する「マルチモーダルネイティブ」であることが大きな特徴だ。これにより、視点変更、キャラクターの一貫性維持、精度の高いテキスト描画など、従来の画像生成AIが苦手としていた作業も可能となった。特に、これまで画像生成AIを利用してきたユーザーほど、その進化を実感できるだろう。
具体的な作例を交えながら、Gemini 2.0 Flash Experimentalの「どこがすごいのか」を解説していきたい。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります