グーグル、高クオリティかつ高速なテキスト画像生成モデル「Muse」を発表

2023年01月05日 15時00分更新

　グーグルは1月2日、従来のモデルよりも大幅に効率的でありながら、最先端の画像生成性能をもつテキスト画像AI生成モデル「Muse」を発表した。

Museで生成された画像

競合モデルと同クオリティかつ超高速化

　近年「Stable Diffusion」やOpenAIの「DALL-E 2」など、テキストから画像を生成するAIは驚くべき進化を見せている。グーグルもすでに「Imagen」と「Parti」という画像生成AIを発表しているが、「Muse」はそのどれとも異なる新しいモデルだ。

　実際、1画像（512×512）あたりの生成時間はMuseが1.3秒となり、Stable Diffusion 1.4の3.7秒を明らかに上回っている。

モデル概念図

高速化の理由としては、ImagenやDALL-E 2などの拡散（diffusion）モデルと違い、量子化された画像トークン（学習用画像のセット）を使用することでサンプリングの反復回数を減らしていることと、Partiなどの自己回帰（autoregressive）モデルにはない並列デコードで効率を高めているためとしている。

テキストだけで複数の物体をコントロール

テキスト「A croissant next to a latte with a flower latte art」

　また、1から画像を生成するのではなく、あらかじめ用意した画像を編集することもできる。上記作例では「皿に置かれたケーキとカップに入ったカフェオレ」の写真を元画像として用意し、そこに「花のラテアートが描かれたカフェラテの隣にあるクロワッサン（A croissant next to a latte with a flower latte art.）」というテキストを入力することで、皿やカップはそのままにクロワッサンと花のラテアートの部分だけが編集されている。