ウェブカメラからのリアルタイム生成が可能に
LCMの活用として、非常に面白いのがimage2imageです。爆速で処理ができるため、映像を使った「リアルタイム生成」ができるんですね。無料でウェブカメラの画像を専用のControlNetを使って変換できるデモが公開されているので、実際に試してみました。
Real-Time Latent Consistency Model
画面左上に映っているのが筆者です。プロンプトに「boy」と入れると顔が少年になり、「man」にすると老人になる。seaと入れると背景が海になり、「window」と入れると本棚が窓枠に変わり、「ship」と入れると船があらわれ……といった具合に、映像が変化していきます。ほかにもビールを飲ませたり、猫を出したり、筆者と筆者の部屋の情報をソースにどんどん映像を変えていけるんですね。ただ、自分を美少女にすることはできても、美少女をそばに出し続けるのは難しかったんですが……(笑)。
Stable Diffusionでもリアルタイム生成はできなくはないですが、生成速度的にここまでのことはできません。デモ環境はサーバーサイドでNVIDIA A100を使っていますが、Linux環境を構築できれば、Windows上にも作成可能なようです。モデルが軽量化することで将来的にはリアルタイムが可能な環境になるということですね。現在は画像のシード値を固定しているだけなので、動画にしたとき完全な一貫性を維持できないところは今までと同様ですが、将来的な可能性を感じさせるには十分です(※シード値は画像生成時に割り振られる疑似乱数のこと。値を固定することで似た画像を生成可能)。
今後、リアルタイム動画生成が進んでいけば、画像からアニメーションを作るAnimateDiffにも応用が利くのではないかと期待されています。AnimateDiffも様々なアプローチが出ていますが、現状は動画をもとにVideo2Videoで生成した方がきれいに出る傾向があります。
Using a latent consistency model for video2video is fast, but it needs control mechanisms.
— fofr (@fofrAI) October 28, 2023
The speed means you can do high frame rate video conversions. But the lack of control makes it a mess.
180 frames in 55 seconds:https://t.co/Y13KKTdAtppic.twitter.com/CMaWM62C9A
▲Video 2 Videoを試した例。高速に処理できるが、ControlNetなど制御の仕組みがないので、生成画像に混乱が起きている
週刊アスキーの最新情報を購読しよう
本記事はアフィリエイトプログラムによる収益を得ている場合があります