Sora翻车后Google王炸降临AI视频迎来真正的实力派

我得说,这次Google的Veo 2来得真是时候。

当OpenAI终于在近期开放Sora测试后,铺天盖地的吐槽让这个曾经惊艳全球的文生视频模型瞬间跌落神坛。还记得今年2月那个令全球沸腾的周末吗?当时我也像大家一样兴奋地连夜写了一篇分析文章。然而现在看来,从"神话"到"笑话",Sora只用了短短10个月。

不过转念一想,这事儿其实挺有意思 —— 在所有人都在感叹"文生视频还需要再等等"的时候,Google带着他们的新作品Veo 2横空出世了。坦白说,一开始我也带着怀疑的态度,毕竟现在AI项目动不动就自称"革命性突破"。但当我深入研究后,不得不说,这次Google玩真的。

首先,如果说第一代Veo还只是在试水,那Veo 2就是奔着解决实际问题去的。虽然目前还在waitlist阶段,但光是那个 支持4K输出 的参数就够震撼的。要知道,能搞定高清视频生成的计算量可不是闹着玩的。

但真正让我惊艳的是它对专业摄影语言的理解。作为一个拍了十多年视频的老鸟,我深知在视频创作中有太多细微的专业知识了。从低角度推轨到18mm广角镜头效果,从显微镜特写到浅景深虚化,就连我的一些摄影师朋友看了都直呼内行。不敢说完全媲美专业摄影师,但起码在技术层面上,它确实展现出了令人惊讶的专业素养。

还有个更厉害的地方 —— Veo 2对物理世界的理解。说实话,我看过太多AI生成的"鬼畜"视频了:人物走路像喝醉了、物体突然消失、违反物理定律的荒诞场景...每次看到这些"车祸现场"都忍不住想笑。但Veo 2在这方面确实有明显提升,虽然离完美还有距离,但至少看起来像是正常人拍的了。

说到实力,就不得不提Meta的MovieGenBench测试了。作为业内公认的benchmark,这次测试要求生成1,003组不同场景的视频。采用720p分辨率,Veo 2生成8秒视频,而Sora Turbo只有5秒。结果嘛,我觉得数据已经说明了一切。

Sora翻车后Google王炸降临AI视频迎来真正的实力派-2 在比较图中,绿色条表示评估者更喜欢 Veo 2 的输出而不是其竞争对手的百分比。

结果显示,Veo在整体偏好、指令遵循上都表现最佳。如图所示,国产的可灵、minimax海螺也在这个榜单上,这也是我本人一直推荐的国产品牌中的佼佼者。

不过呢,Google这次倒是挺实诚,直接承认了Veo 2的一些短板。比如在处理特别复杂的场景或保持长时间的动作连贯性方面还需要改进。这种态度反而让人觉得踏实,比某些公司先画大饼后认怂要强多了(没错,我就是在说某O打头的公司)。

最有意思的是Google的推广策略。在当下这个AI项目动不动就全网营销的环境下,他们选择了稳扎稳打:只向VideoFX、YouTube和Vertex AI平台开放,还说要等到2025年才扩展到YouTube Shorts等其他产品。每个视频都植入SynthID水印这事儿,虽然显得有点过于谨慎,但确实体现了对内容安全的重视。

但Google显然不满足于此。随着Imagen 3的重磅升级和神秘项目Whisk的首次亮相,Google的野心昭然若揭:他们要构建一个完整的AI创意帝国。

让我们先看Imagen 3。如果说Veo 2是一位"AI导演",那Imagen 3就是一位"全能艺术家"。它不仅精通写实摄影,还能完美驾驭从印象派到抽象艺术、从水彩到动漫的各种风格。最厉害的是,它现在能"更懂"创作者的想法 —— 更准确地执行提示词,呈现更丰富的细节和纹理。在与其他顶级图像生成模型的人工评测中,Imagen 3再次证明了自己的实力。

Sora翻车后Google王炸降临AI视频迎来真正的实力派-3

Sora翻车后Google王炸降临AI视频迎来真正的实力派-4

Sora翻车后Google王炸降临AI视频迎来真正的实力派-5

更有趣的是全新推出的Whisk项目。这不是一个简单的图像生成工具,而是一个创意实验场。想象一下,你可以把任何灵感图片输入进去,Whisk会自动调用Gemini的视觉理解能力来"读懂"这些图片,然后用Imagen 3把你的创意变成现实,从可爱的毛绒玩具到精美的珐琅别针,应有尽有。这就像是给了创作者一个"数字炼金术实验室",可以随心所欲地进行创意转化和重组。

看到这里,Google的战略已经很明显了: 他们不是要在单个领域与竞争对手比拼,而是要构建一个完整的AI创意生态系统。 当Veo 2、Imagen 3和Whisk这三个工具形成合力时,创作者可以在同一个生态系统内完成从灵感获取到作品创作的全过程。 这就像是给创意工作者们搭建了一个"数字梦工厂"。

最聪明的是Google的推广策略。他们选择在全球100多个国家同步推出这些服务,但都通过Google Labs这个实验平台进行。这种做法既能快速获取用户反馈,又能控制风险。每个工具都像是在进行一场"全球创意实验",而创作者们则是这场实验的参与者和见证者。

更值得注意的是安全性的考量。所有AI生成的内容都会被植入SynthID水印,这不仅是为了防伪,更是为了在即将到来的AI创意时代建立一个可信任的内容生态系统。

这让我不禁要问:当一家公司同时掌握了视频生成、图像创作和创意实验这三张王牌时,未来的创意产业会变成什么样?是不是我们正在见证一个新的创意平台巨头的诞生?

THE END
分享
二维码
< <上一篇
下一篇>>