第8回

Stable Diffusionで画像からプロンプト（呪文）を生成・抽出する方法。Fooocusの新機能「Describe」が便利でした

2024年01月17日 09時00分更新

Midjourneyの「Describe」機能のヘルプ

　本連載「Stable Diffusion入門 from Thailand」は、2024年に入って1回目。今年も「Stable Diffusion」をメインに、画像生成AI周辺の話題について入門者視点でお伝えしていきたい。

　今回の話題は、Stable Diffusionを手軽に使えるユーザーインターフェースの「Fooocus」。12月13日にリリースされた新バージョン「Fooocus 2.1.831」には、画像をアップロードするとテキストプロンプト（呪文）を生成する「Describe」機能が追加されている。

画像をドラッグ＆ドロップしてボタンを押すだけ

「Describe」タブ

　使い方は簡単だ。Fooocusを起動したら、「Input Image」にチェックを入れ、「Describe」タブを選択。

イメージをアップロードする

　左側のスペースに画像をドラッグ＆ドロップでアップロードする。画像の種類によって「Photograph」か「Art / Anime」のどちらかを選択し、「Describe this image into Prompt」ボタンをクリックしよう。

　なお、今回お手本として使用しているすべての画像は、以前筆者がFooocusで生成したものだ。

girl in an uniform stands by a doorway

　上記のようなプロンプトが生成された。日本語に訳すと「玄関に立つ制服の少女」となっている。

　さっそくこのまま生成してみよう。どれくらい似た画像になるのだろうか。

生成された画像

　お、おう……。メイド服と言うよりは軍服を着たお嬢さんが生成されたが、まあどちらも制服（uniform）には変わりないか。とは言え、構図・背景・色味などは元画像を受け継いでおり、とっかかりとしてはいいんじゃないだろうか。

風景は得意かも

　続いては、人物ではなく廃墟の写真をアップロードしてみた。

an old rundown city street with several rusted out cars and building rubble

　上記のスクリプトが生成された。「錆びついた車や瓦礫が散乱する古ぼけた街並み」といったところか。

　おお、これはかなり再現度が高いぞ！

アニメイラストはいちばん相性がよさそう

　次はアニメ風のイラストで試してみよう。「Content Type」を忘れずに「Photograph」から「Art / Anime」に変更して、「Describe this image into Prompt」ボタンをクリック。

1girl, solo, long hair, breasts, looking at viewer, blush, smile, bangs, black hair, red eyes, long sleeves, animal ears, medium breasts, upper body, flower, sidelocks, outdoors, parted lips, japanese clothes, day, wide sleeves, kimono, tree, animal ear fluff, sash, fox ears, obi, floral print, extra ears, white kimono, stairs

　おなじみ「1girl」から始まる、これぞ「呪文」と呼ぶにふさわしい長大なプロンプトが生成された。これは期待できるぞ。