谷歌 今天发布了 Veo 3.1,这是其 AI 视频生成器的更新版本,它在所有功能中添加了音频,并引入了新的编辑功能,旨在让创作者更好地控制他们的剪辑。
这一声明发布之际,OpenAI 的竞争对手 Sora 2 应用程序在应用商店排行榜上名列前茅,并引发了关于人工智能生成内容充斥社交媒体的争论。
这一时机表明,谷歌希望将 Veo 3.1 定位为 Sora 2 病毒式社交推送方式的专业替代品。OpenAI 于 9 月 30 日发布了 Sora 2,其界面类似 TikTok,优先考虑分享和混音。
这款应用在五天内下载量就达到了100万次,并登上了苹果App Store的榜首。Meta也采取了类似的策略,推出了一款由人工智能视频驱动的虚拟社交媒体。
用户现在可以使用“视频素材”创建具有同步环境噪音、对话和拟音效果的视频,该工具将多个参考图像组合成一个场景。
“帧到视频”功能会在起始图像和结束图像之间生成过渡,而“延长”功能则通过延续现有视频最后一秒的动作来创建长达一分钟的剪辑。
新的编辑工具允许用户通过自动阴影和灯光调整功能,在生成的场景中添加或删除元素。该模型可以水平或垂直宽高比生成 1080p 分辨率的视频。
该模型可通过 Flow(面向消费者)、Gemini API(面向开发者)和 Vertex AI(面向企业客户)获取。使用“延长”功能可以创建长达一分钟的视频,该功能可以从现有视频片段的最后一秒开始延续动作。
2025 年,AI 视频生成市场已变得拥挤不堪,Runway 的 Gen-4 模型瞄准电影制作人,Luma Labs 为社交媒体提供快速生成,Adobe 将 Firefly Video 集成到 Creative Cloud,xAI、Kling、Meta 和 Google 的更新则瞄准真实感、声音生成和及时遵守。
但它到底有多好呢?我们测试了该模型,以下是我们的印象。
测试模型
如果你想尝试,最好有雄厚的财力。Veo 3.1 是目前最昂贵的视频一代型号,与 Sora 2 相当,仅次于 Sora 2 Pro,后者每代的价格是 Veo 3.1 的两倍多。
免费用户每月可获得 100 个积分来测试系统,足够每月生成大约 5 个视频。通过 Gemini API,Veo 3.1 的费用约为 每秒 0.40 美元生成的带有音频的视频,而速度更快的版本 Veo 3.1 Fast 每秒花费 0.15 美元。
对于那些愿意以这个价格使用它的人来说,它的优点和缺点如下。
文本转视频
Veo 3.1 相比其前代版本有了显著的改进。该模型能够很好地处理连贯性,并展现出对上下文环境的更好理解。
它适用于不同的风格,从照片写实主义到风格化的内容。
我们要求模型混合场景一开始只是一幅画,后来变成了实景拍摄的镜头。它比我们测试过的任何其他模型都处理得更好。
在没有任何参考框架的情况下,Veo 3.1 在文本到视频模式下产生的结果比使用带有初始图像的相同提示产生的结果更好,这令人惊讶。
代价是移动速度。Veo 3.1 优先考虑连贯性而非流畅性,这使得生成快节奏的动作变得颇具挑战性。
元素移动速度较慢,但在整个剪辑中保持一致性。Kling 在快速移动方面仍然领先,尽管需要更多尝试才能获得可用的效果。
图像转视频
Veo 凭借图像转视频生成技术建立了良好的声誉,其结果依然出色——但也存在一些问题。这似乎是本次更新中比较薄弱的环节。当使用不同的宽高比作为起始帧时,该模型难以保持以往的一致性。
如果提示与输入图像的逻辑偏差过大,Veo 3.1 就会想办法作弊。它会生成不连贯的场景或片段,在位置之间跳转、设置或完全不同的元素。
这浪费了时间和信用,因为这些剪辑无法编辑成更长的序列,因为它们不符合格式。
一旦奏效,效果看起来棒极了。要达到这个目标,一部分需要技巧,一部分需要运气——主要是运气。
视频元素
此功能类似于视频修复,允许用户在场景中插入或删除元素。不过,不要指望它能保持完美的连贯性或使用与你完全相同的参考图像。
例如,下面的视频就是根据这三个参考资料和提示生成的:一个男人和一个女人在未来城市中奔跑时偶然相遇,那里有一个旋转的比特币全息标志。男人告诉女人:“快,比特币崩溃了!我们必须买更多!”
作为 你可以看到,城市和人物实际上都不存在。然而,人物穿着参考的服装,城市与图像中的城市相似,事物描绘的是元素的概念,而不是元素本身。
Veo 3.1 将上传的元素视为灵感,而非严格的模板。它会根据提示生成场景,并包含与你提供的内容相似的对象,但不要浪费时间尝试将自己插入电影中——这行不通。
解决方法:使用 Nanobanana 或 Seedream 上传元素,并先生成一个连贯的起始帧。然后将该图像输入 Veo 3.1,它会生成一个视频,其中的人物和物体在整个场景中几乎不会变形。
带对话的文本转视频
这是谷歌的卖点。Veo 3.1 处理唇形同步的能力比目前市面上任何其他型号都要好。在文本转视频模式下,它能生成连贯的环境声音与场景元素相匹配。
对话、语调、声音和情感都很准确,优于竞争模型。
其他生成器可以产生环境噪音,但只有 Sora、Veo 和 Grok 可以生成实际的单词。
在这三者中,Veo 3.1 在文本转视频模式下需要的尝试次数最少,就能获得良好的效果。
图像转为带对话的视频
这就是问题所在。带对话的图像转视频与标准的图像转视频生成存在同样的问题。Veo 3.1 过于注重连贯性,以至于忽略了即时性以及参考图像。
例如, 这一幕是使用元素到视频部分中显示的参考生成的。
如你所见,我们的测试生成的主体与参考图像完全不同。视频质量极佳——语调和手势都准确无误——但生成的主体并非我们上传的本人,因此结果毫无意义。
Sora 的混音功能是此用例的最佳选择。该模型可能受到审查,但其图像转视频功能、逼真的唇形同步以及对语调、口音、情感和真实感的关注使其成为当之无愧的赢家。
Grok 的视频生成器排名第二。它比 Veo 3.1 更尊重参考图像,并产生了更出色的效果。这是一代人使用相同的参考图像和提示。
如果你不想使用 Sora 的社交应用,或者无法访问它,Grok 或许是你的最佳选择。它也是未经审查的,但会进行审核,所以如果你需要这种特殊的方式,马斯克可以满足你的需求。