インストール方法、使い方も解説
SD3.0の汚名返上なるか?!画像生成AI「Stable Diffusion 3.5」を試してみた
いつものお姉さんでチェック
以降は比較のために当連載の前回の記事で使用したプロンプトを使って生成していこう。まずはいつものピンク髪美女から。
プロンプト:A photorealistic portrait of a young woman with dyed pastel pink hair and subtle makeup, wearing trendy streetwear, standing in a bustling urban crossing with neon signs in the background
それぞれ個性的な3人が生成された。もうこういったベーシックなお題であればパラメーター数もステップ数もそれほど関係なくそれなりのクオリティーの画像が一発で生成できるように思える。もちろんここから自分好みにクオリティーアップしていくこともできる。
指とテキスト
ここからは画像生成AIが苦手な処理を試していく。この短いスクリプトには「指」と「テキスト」という生成AIにとっての難問がダブルで含まれている。
プロンプト:A hand holding a small business card reading "ASCII.jp"
テキストの方はだいじょうぶだが、指の本数に関してはどのモデルも怪しい。
人物のエスニシティと複数人の描き分け
SD3.5の売りの一つに「多様なアウトプット(Diverse Output)」がある。
Stability.aiが公開するSD3.5の記事にも「特定の人種やタイプだけでなく、異なる肌の色や特徴を持つ、世界を代表するような画像を、特別なプロンプトなしでも生成することができる」とされているので日本人女性の特徴をきちんと描写してくれるかテスト。
プロンプト:Young Japanese women gathering to take a group photo
ご覧の通りかなり微妙な結果になってしまった。また、複数人を描き分けるのも他モデルと同様あまり得意じゃないようだ。
アニメ風イラスト
最後はアニメ風イラスト。上述のSD3.5の記事には「3D、写真、絵画、線画など、幅広いスタイルと美しさを生成することが可能。また、想像し得るほぼすべての視覚スタイルにも対応」と書かれているがどんなもんだろうか。
プロンプト:A beautiful anime girl wearing a T-shirt with "ASCII.jp" written on it is making a peace sign with both hands in a rural landscape.
結果は「アニメ風イラスト」かどうかという点ではほぼ完璧だ。もちろん好みは人それぞれなので、そこはプロンプトで各自探求していけばよい。
ライセンスがすっきりしたのは朗報
以上、SD3.5をComfyUIを使って試してきた。SD3.0で問題になった画像品質および多様性に関しては一定の向上が見られると言っていいだろう。
また、3.0では商用利用に関する制限が比較的厳格かつ不明確な部分が多いとの批判もあったが、年間収益が100万米ドル未満の個人や中小企業は、商用利用が無料で可能になるなど一定の緩和処置は見られた。
「FLUX1.1」や「Recraft V3」など、画像生成AIにも新規参入組が増え活況を呈してきている。SD3.5、そしてStability.aiは日進月歩で進化するこのシーンで今後も存在感を示していくことができるだろうか。
1969年生まれ。ウェブサイト制作会社から2003年に独立。雑誌、書籍、ウェブサイト等を中心に、ソーシャルメディア、クラウドサービス、スマートフォンなどのコンシューマー向け記事や、企業向けアプリケーションの導入事例といったエンタープライズ系記事など、IT全般を対象に幅広く執筆。2019年にはタイのチェンマイに本格移住。
新刊:発売中「生成AI推し技大全 ChatGPT+主要AI 活用アイデア100選」、:https://amzn.to/3HlrZWa
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります