シーンごとにプロンプトを書ける新バージョンも
一方で、本家の開発が止まっている間に、別の系統からもAnimateGiffの移植が出てきています。
「Github(ギットハブ)」は、公開されているコードを誰もが改造して再公開できる仕組み。腕がある人なら、オリジナルのソースを解析し、機能追加版を派生バージョンとして公開できます。そうして公開されたのがnegglesさんの「AnimateDiff-cli」と、それをさらに拡張したs9roll7さんの「Animatediff-cli-prompt-travel」でした。
AnimateDiff-cliは、動作に必要なビデオメモリー消費量を16GBから8GBまで圧縮したバージョン。Animatediff-cli-prompt-travelは、生成する画像に対し、フレームごとに細かなプロンプトを設定して、各シーンの内容を指定できるというものでした。
実際に、この方法論を試されたAsakiさんは、0〜19フレームを「悲しい」、20〜39フレームを「目を閉じる」といった形で、統一したキャラクターを6秒間の動画を生成することに成功しています。
AIアニメーション Text2Video(文章のみから生成)
— Asaki (@Morning_wood17) August 23, 2023
AnimateDiff prompt travel で適用するプロンプトをフレームの途中で変更して動画の内容をコントロール
なんかローカルで環境構築したら生成速度が3倍くらいになって比較的長めの動画も一回で生成できるようになった #AnimateDiff#aianimationpic.twitter.com/54THG1GP2i
ただし現状はJSONフォーマットのコードを書かなければならず、使用時のハードルがあります。今後は使いやすいUIの登場を期待したいところです。
AnimateDiffのユーザーグループで議論が活性化
そんななか、AnimateDiffの技術に高い可能性を見出しているユーザーグループが登場しつつあります。そのひとつである「Banodoco」グループでは、AnimateDiffの特徴なるポイントを6つ上げています。
- ベースモデル/アプローチにより、美しいが範囲を理解できる限定的な結果をもたらす
- 非常にコントロールしやすく、拡張可能であることの強力な証拠が作られている
- 微調整で問題を解決できる証拠が作られている
- Stable Diffusionのエコシステムの上に構築されるため、ビルドが非常に容易である
- ベースモデルを使ったアプローチがスケールできるという証拠がいくつもある
- コミュニティの信念による成長
課題としては、ソースを非公開で開発する商用で動画生成サービスとの競争で不利になるのではという懸念や、まだまだ要求するスペックが高いこと、そもそものムービーモジュールの完成度に限界があることなどが挙げられています。それでも非常に高い可能性があるという議論を展開したうえ、結論では「Stable Diffusion初期はおもちゃのように見えていたけれども、AnimateDiffのようなすごいものができるような兆しが出てきているんじゃないか」と高らかにうたいあげています。
週刊アスキーの最新情報を購読しよう