週刊アスキー

  • Facebookアイコン
  • Twitterアイコン
  • RSSフィード

画像生成AIに2度目の革命を起こした「ControlNet」

2023年05月22日 09時00分更新

ControlNetのすごさはまだまだ伝わっていない

 ControlNetは最新の研究成果を次々に迅速に組み込むことで強力に発展しています。reference-onlyはコーネル大学の研究を組み込んだもののようです。

 日本人にもControlNetの貢献者がいます。動画をControlNetに読み込ませることで新しい表現を作ろうという動きが流行り始めていますが、動画変換するためのベース機能「m2m(Movie-to-Movie)」は抹茶もなかさんによって実装されたものです。

 最近では中国の大手IT企業のテンセントが独自のControlNetの研究を発表して、A1111 Web UIに組み込んでくるという動きも出てきています。

 研究者、開発者、ユーザーなど、世界中の人たちの貢献により、画像生成AIが苦手としていた部分を乗り越える様々な方法が発見され、新しい表現が登場しているわけです。

 そんな革新的なControlNetですが、結局は自分がイメージする画像をより作りやすいので、画家やイラストレーターの方々が支援ツールとして使うというのが最も効果的ではないかと感じています。ただStable Diffusion自体もControlNetの新機能も高いマシンパワーを要求するため、おいそれとは手を出しにくいという側面はあるんですよね。

 特にreference-onlyの要求する計算量はとても高いです。今回の作例のような512x768ドットをアップスケールして2倍の1024x1536ドットで出力する場合、1枚当たりの生成時間は、以前「画像生成AI 速いマシンは世界が違う」で紹介したDAIVのNVIDIA GeForce RTX4090(VRAM 24GB)搭載機で1分22秒。VRAMの使用率は約65%に達します。同じくDAIVのNVIDIA A6000搭載機(VRAM 48GB)では1分47秒かかり、VRAMの使用量は約49%となりました。reference-onlyを使わない場合、計算時間は3分の1程度のため、この新機能が計算パワーを必要とすることがわかります。さらに大きな画像サイズで生成するとなると、時間も要求されるVRAMも高くなるのが十分に予想できます。

サンプルイメージを入力して、reference-onlyを使って生成した3枚。ある程度特性が維持できているのがわかる。服はばらけているが、プロンプトなどで情報をカバーすると、かなり共通する雰囲気まで持っていくことができる

 動画から動画を生成するm2mはさらに大変です。

 数秒の画像データでも1コマ1コマにこの計算量が必要となるため、1秒24フレームの動画を生成するためには4090機であっても32分はかかってしまう計算になります。

 もちろん生成サイズを縮小するなど工夫をすることで計算量を減らすことができますが、筆者が768x768ドットで80秒ほどの動画をreference-onlyを使って変換するテスト作業を4090機で試したところ、約9時間もかかりました。CGのプリレンダリングに非常に長い時間がかかっていた20年くらい前に戻ったような気分です。

 ControlNetを通じて同じキャラクターを生成できる可能性が出てきたことで、アニメーションなどへの応用も試行されはじめているものの、画像生成AIにとって、コンピュータ性能の成長余地があることがますます明らかになったと言えそうです。

 ControlNetの登場とその短期間の進化は、昨年8月にStable Diffusionが出てきたのと同じぐらいのインパクトがありました。ただ、社会全体で見るとStable Diffusion自体を触ったことのある人の数も限られているため、そのすごさがまだまだ伝わってないようにも感じています。

 

筆者紹介:新清士(しんきよし)

1970年生まれ。株式会社AI Frog Interactive代表。デジタルハリウッド大学大学院教授。慶應義塾大学商学部及び環境情報学部卒。ゲームジャーナリストとして活躍後、VRマルチプレイ剣戟アクションゲーム「ソード・オブ・ガルガンチュア」の開発を主導。現在は、新作のインディゲームの開発をしている。著書に『メタバースビジネス覇権戦争』(NHK出版新書)がある。

この記事をシェアしよう

週刊アスキーの最新情報を購読しよう

本記事はアフィリエイトプログラムによる収益を得ている場合があります

この連載の記事