グーグル、LLMを活用したマルチモーダル動画生成モデル「VideoPoet」発表

2023年12月21日 11時55分更新

文● 田口和裕

　グーグルの研究開発機関Google Researchは12月19日（現地時間）、テキストや画像から動画を生成するなど様々な動画生成タスクに対応できる大規模言語モデル（LLM）「VideoPoet」を発表した。

マルチモーダル対応

　「VideoPoet」は、動画、テキスト、画像、音声など多様なメディア形式に対応するマルチモーダルモデル。

　上記のショートムービーは、旅するアライグマについての短い物語を「Bard」に書いてもらい、それぞれのプロンプトに対してビデオクリップを生成し、それをつなぎ合わせたものだ。

テキストから動画

　「A Raccoon dancing in Times Square（タイムズスクエアで踊るアライグマ）」というテキストから生成された動画。

画像とテキストから動画

　こちらは画像とテキストの組み合わせから動画を作成した例。例えばいちばん左の船の画像に「A ship navigating the rough seas, thunderstorm and lightning, animated oil on canvas（荒波を進む船、雷雨と稲妻、キャンバスに油彩のアニメーション）」というテキストを組み合わせて動画化したものが左から2番めの動画だ。

動画とテキストから動画

　動画とテキストの組み合わせから新規動画を生成できる。たとえば左側の動画に「Wombat wearing sunglasses holding a beach ball on a sunny beach（晴れたビーチでビーチボールを持つサングラスをかけたウォンバット）」というテキストを組み合わせて動画をスタイライズ（後処理）したもの。