ControlNetのすごさはまだまだ伝わっていない
ControlNetは最新の研究成果を次々に迅速に組み込むことで強力に発展しています。reference-onlyはコーネル大学の研究を組み込んだもののようです。
日本人にもControlNetの貢献者がいます。動画をControlNetに読み込ませることで新しい表現を作ろうという動きが流行り始めていますが、動画変換するためのベース機能「m2m(Movie-to-Movie)」は抹茶もなかさんによって実装されたものです。
最近では中国の大手IT企業のテンセントが独自のControlNetの研究を発表して、A1111 Web UIに組み込んでくるという動きも出てきています。
研究者、開発者、ユーザーなど、世界中の人たちの貢献により、画像生成AIが苦手としていた部分を乗り越える様々な方法が発見され、新しい表現が登場しているわけです。
Reference only(画像を参照できる新技術)を使うと、右上の絵を右下の動きに変換できます
— TDS (@TDS_95514874) May 14, 2023
いろんなパーツが一貫性を保って移動していてかなり可能性を感じますね
髪留めがぴこぴこしてるのかわいい#aiart#初音ミクpic.twitter.com/HvU4zMirlW
そんな革新的なControlNetですが、結局は自分がイメージする画像をより作りやすいので、画家やイラストレーターの方々が支援ツールとして使うというのが最も効果的ではないかと感じています。ただStable Diffusion自体もControlNetの新機能も高いマシンパワーを要求するため、おいそれとは手を出しにくいという側面はあるんですよね。
特にreference-onlyの要求する計算量はとても高いです。今回の作例のような512x768ドットをアップスケールして2倍の1024x1536ドットで出力する場合、1枚当たりの生成時間は、以前「画像生成AI 速いマシンは世界が違う」で紹介したDAIVのNVIDIA GeForce RTX4090(VRAM 24GB)搭載機で1分22秒。VRAMの使用率は約65%に達します。同じくDAIVのNVIDIA A6000搭載機(VRAM 48GB)では1分47秒かかり、VRAMの使用量は約49%となりました。reference-onlyを使わない場合、計算時間は3分の1程度のため、この新機能が計算パワーを必要とすることがわかります。さらに大きな画像サイズで生成するとなると、時間も要求されるVRAMも高くなるのが十分に予想できます。
動画から動画を生成するm2mはさらに大変です。
数秒の画像データでも1コマ1コマにこの計算量が必要となるため、1秒24フレームの動画を生成するためには4090機であっても32分はかかってしまう計算になります。
もちろん生成サイズを縮小するなど工夫をすることで計算量を減らすことができますが、筆者が768x768ドットで80秒ほどの動画をreference-onlyを使って変換するテスト作業を4090機で試したところ、約9時間もかかりました。CGのプリレンダリングに非常に長い時間がかかっていた20年くらい前に戻ったような気分です。
ControlNetを通じて同じキャラクターを生成できる可能性が出てきたことで、アニメーションなどへの応用も試行されはじめているものの、画像生成AIにとって、コンピュータ性能の成長余地があることがますます明らかになったと言えそうです。
ControlNetの登場とその短期間の進化は、昨年8月にStable Diffusionが出てきたのと同じぐらいのインパクトがありました。ただ、社会全体で見るとStable Diffusion自体を触ったことのある人の数も限られているため、そのすごさがまだまだ伝わってないようにも感じています。
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります