欲しい映像素材が簡単に作れる！　グーグル動画生成AI「Veo 3.1」の使い方

2026年01月30日 09時00分更新

文● 田口和裕

参照画像を使う：役割を分けて渡す

　Geminiでは、参照画像を添えて生成の方向性を伝えられる。ただし、参照画像を増やせば精度が上がるわけではない。重要なのは、それぞれの画像にどんな役割を持たせるかだ。

世界観用：場所やスケール、光の条件など、映像全体のフレームを決める画像
主役用：人物やキャラクターの見た目や質感を伝える画像
補助用（任意）：雰囲気や要素を補足するための素材

　たとえば、リアルな日本の街並みに、アニメ調のキャラクターが登場する映像を生成したい場合、次のように役割を分けて参照画像を用意する。

【参照画像】

1枚目（世界観用）：昼の日本の街中（Midjourneyで作成）

2枚目（主役用）：VTuberのようなアニメ調の女の子の全身カット（Midjourneyで作成）

プロンプト：昼の日本の街中。現実の街並みを写したような映像。その中を、VTuberのようなアニメ調の女の子が歩いている。キャラクターはアニメ的な質感で、背景のリアルな街とは見た目が異なる。街の環境音と、足音が聞こえる。

pic.twitter.com/89Tn4coxsq
— tagkaz_ascii (@tagkaz_ascii) January 26, 2026

　参照画像は、完成形をそのまま再現させるための素材ではない。どの要素を重視してほしいのか、どこまでをAIに委ねるのかを示すヒントとして使うと、結果をコントロールしやすい。

音の扱い：環境音を優先する

　音についても同じで、台詞の正確さを狙うより環境音の整合性を優先したほうが安定しやすい。風の音や街のざわめきなど、場面を成立させる音を先に置くと外れにくい。

Veo 3.1は「短尺素材」を作る道具

　Veo 3.1は、長編映像を一気に作るための万能な動画生成AIではない。最大8秒という短尺に割り切り、映像と音を含めたワンシーン素材を安定して供給することに特化している。その設計思想は、完成映像を生成するより、編集前提の素材をいかに素早く用意できるかに置かれている。

　Geminiで手早く試し、必要に応じて編集工程へ組み込む。完成形を一発で作らせるのではなく、短尺素材を複数生成し、選び、差し替える。この使い方を前提にすると、Veo 3.1は実験用途にとどまらず、制作フローの一部として現実的に組み込める存在として見えてくる。

　動画生成AIという言葉から想像しがちな「一本の映像を丸ごと作る道具」ではなく、「編集可能な断片を供給するエンジン」として捉えること。そう捉えると、Veo 3.1の強みと限界の両方が、過不足なく理解できる。

田口和裕（たぐちかずひろ）

　1969年生まれ。ウェブサイト制作会社から2003年に独立。雑誌、書籍、ウェブサイト等を中心に、ソーシャルメディア、クラウドサービス、スマートフォンなどのコンシューマー向け記事や、企業向けアプリケーションの導入事例といったエンタープライズ系記事など、IT全般を対象に幅広く執筆。2019年にはタイのチェンマイに本格移住。
　新刊：発売中「生成AI推し技大全 ChatGPT＋主要AI 活用アイデア100選」、：https://amzn.to/3HlrZWa

この記事をシェアしよう