Google DeepMindは12月16日(米国時間)、動画生成モデルVeoの新バージョン「Veo 2」と、画像生成モデル「Imagen 3」のアップデートを発表した。Veo 2は、人間の動きや表情をよりリアルに表現できるほか、シネマトグラフィ(映画撮影技術)の言語を理解する能力を備えている。一方、改良されたImagen 3は、従来よりも明るく、構図のバランスに優れた画像を生成する。
Veoは、シンプルなテキストや画像のプロンプトを用いて、高品質な動画を容易に生成できる。Runwayの「Gen-3」やOpenAIの「Sora」といった動画生成モデルと競合するモデルである。自然言語と視覚セマンティクスの高度な理解に基づき、プロンプトのニュアンスやトーンを的確に捉え、クリエイターが求める高度なクリエイティブ・コントロールを可能にする。
Veo 2は、最大4Kの動画の出力が可能である。現実世界の物理法則や人間の動き、表情の微妙なニュアンスに対する理解が深まり、より高度なモーション表現が実現されている。さらに、映画撮影の技術や手法に関する指示を解釈できるため、さまざまなショットのスタイルや構図、レンズの種類などを指定し、映像を思い通りに生成できる。たとえば、「18mmレンズ」と「浅い被写界深度」を指定するプロンプトを使用することで、背景をぼかし、被写体を浮かび上がらせた映像を生成することが可能である。これらにより、流体(パンケーキにかけられるシロップ)、光の特性(光の反射や影など)もよりリアルに表現される。
Veo 2は、16日よりGoogle Labsの動画生成ツール「VideoFX」に導入されており、Labsのユーザーに段階的に提供が拡大される。体験希望者は、Google Labsで順番待ちリストに登録できる。Googleは2025年に、YouTube Shortsおよびその他の製品にVeo 2を導入していく予定である。
Imagen 3は今回の改良により、明るさや構図の構成力が向上し、より豊かなテクスチャと詳細をレンダリングできるようになった。これにより、従来よりも緻密で質感豊かな画像を生成できる。さらに、プロンプトの解釈精度も向上し、フォトリアリズムから印象派、抽象芸術、アニメまで、多様なスタイルを正確に表現可能となっている。
改良されたImagen 3は、16日にGoogle Labsの画像生成ツール「ImageFX」への展開 が始まり、世界100カ国以上で利用できるようになる。