画像生成AI「Stable Diffusion」を開発するStability AIは6月23日、4月13日にベータ版をリリースした標準的な家庭用コンピュータで実行できる「Stabile Diffusion XL(SDXL)」の最新版「SDXL 0.9」を発表した。
SDXL 0.9は、35億のパラメータ数(モデルがトレーニングされたニューラルネットワークのすべての重みとバイアスの合計)を持つ単一モデルと、58億のパラメータを持つ複数モデルによるアンサンブルパイプライン(出力は、2つのモデルの結果を組み合わせることで決まる)からなり、オープンソースモデルの中でも最大級のパラメータ数を持っている。
また、これまで使用していた最大級のCLIPモデル(テキストと画像の意味的な関係性を理解するモデル)のひとつ「CLIP ViT-g/14」を含む2つのCLIPモデルを用いることで、高い処理能力に加え、より奥行きのある高解像度(1024x1024)画像を生成することが可能になっている。
LinuxならAMDのグラボも使える
このような強力な出力機能と高度なモデルアーキテクチャにもかかわらず、SDXL 0.9はWindows 10/11またはLinux、16GBのRAM、最低8GBのVRAMを搭載したNvidia GeForce RTX 20シリーズ(もしくは同等以上の規格)という標準的なPCで実行できる。
Linuxの場合、16GBのVRAMを搭載した互換性のあるAMD製グラフィックボードを使用することもできるという。
ベータ版との比較画像も公開
Stability AIのサイトでは、ベータ版と今回のSDXL 0.9で生成した画像を比較している。
SDXL 0.9はベータ版(23億パラメーター)と比較して、パラメータ数が大幅に増加(35億+58億パラメーター)しており、画像や構図のディテールが大幅に改善されているのがわかる。
生成AIが苦手とすることで有名な人間の手の表現も改善されている。
「ClipDrop」で無料公開中
SDXL 0.9は現在Stability AIが運営する生成AIを利用した画像レタッチサービス「ClipDrop」からアクセスできる。
試しに「Thai style real robot standing bangkok city」というプロンプトで生成してみた。このレベルの画像をローカル環境で生成できるようになる日も近いということだ。
SDXL 0.9は一般的なオープンソースリリースに先立ち、研究目的に限定したモデルをリリース中、APIも近日中に公開される。さらに、7月中旬にはSDXL1.0のオープンリリースが予定されているという。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります