Veo 3 AI视频引爆社交媒体:深度解析其惊人一致性与创作潜能

Veo 3打造的AI广告爆火,凭借惊人角色一致性和音画同步,预示AI视频创作进入全新阶段。

原文标题:一个气泡水广告,为何几十万人围观?原来整个都是Veo 3生成的

原文作者:机器之心

冷月清谈:

最近,一个完全由AI(更具体说是Veo 3模型)制作的气泡水广告在社交媒体上广受关注。这个由“Too Short for Modeling”团队为概念性目的创作的影片,展示了Veo 3在AI视频生成领域的突破——_**音画同步功能**_,将AI视频创作带入一个全新的声画一体化阶段,大幅降低了视频制作的门槛。

该广告片不仅笑点密集,其真正的亮点在于_**惊人的“角色一致性”**_。尽管视频在短短一分钟内切换了10个场景,核心人物和道具依然保持完美衔接,整体连贯性出色。主创团队透露,这得益于“超精细提示(Hyper-specific Prompting)”的使用,即为模型提供极其详尽、具体且包含大量上下文细节的指令。

文章进一步探讨了AI生成视频在细节上常出现“翻车”的技术原因:模型缺乏对世界的“理解”而仅限于“概率统计”;局部生成与全局和谐之间的矛盾;从图像到视频的帧间“失忆”;以及训练数据本身存在的缺陷。尽管AI作为强大的“执行者”表现出色,但创意、策略与审美依然由人类主导。

最后,文章展望了AI在创意领域的巨大潜力,认为它将是“创意催化剂”,例如为电影制作平行宇宙、融合不同IP创作新内容,或高效制作概念影片等,鼓励探索AI的更多创新玩法。

怜星夜思:

1、文章中提到“超精细提示”是保持AI视频角色一致性的秘诀。在实际应用中,除了对文字提示词的精细打磨,是否有其他维度的“提示”能有效提高AI视频的生成质量和一致性?比如前期素材、风格参考图,或者更结构化的指令?
2、AI生成视频的逼真度越来越高,未来是否会大量出现难以辨别真伪的内容?这会对社会信任、新闻传播等领域产生哪些影响?我们又该如何应对这种潜在挑战?
3、文章提到AI是强大的“执行者”,人类主导“创意、策略与审美”。随着AI技术持续迭代,你认为AI是否有可能在未来某一天,在“创意”层面也能展现出超越人类的惊喜?这会是进步还是隐忧?

原文内容

机器之心报道

机器之心编辑部


最近,一个完全由 AI 制作的广告在社交媒体上爆火,在 X 上有三十多万人观看。



这是一个叫 Too Short for Modeling 的团队发布在 LinkedIn 上的作品,不过它并不是一个商业作品,而是该团队为一直想合作的品牌制作的概念影片。


距离 Veo 3 发布已经过去一个半月了,虽然此前模型视频生成已经能达到很逼真的状态,但 Veo 3 的「音画同步」功能,引领 AI 视频创作进入了全新的声画一体化阶段。同时它也让 AI 视频生成进入了更有实践意义的阶段,极大地降低了视频创作的门槛。


我们先来看看这个广告效果怎么样。


来源: https://www.linkedin.com/posts/arielyoriginal_veo3-aicreative-fakeads-activity-7346271275020902400-P9fd


人物1:下午好,小伙子。 (Good afternoon, son.)

人物2:想猜猜我为什么让你靠边停车吗? (Wanna take a guess why I pulled you over?)

人物1:哦,不是你想的那样。 (Oh, it's not what you think.)

人物1:这是“液态死亡”。是苏打山泉水。 (It's liquid death. They're sparkling mountain water.)

人物2:嗯。哇。你没开玩笑。 (Mmm. Wow. You weren't kidding.)

人物2:确实很清爽。 (That is refreshing.)

人物2:但这不是我让你靠边停车的原因。 (But it's not why I pulled you over.)

人物1:哦,天哪。 (Oh boy.)

人物1:是因为破损的尾灯吗? (Is it the busted taillight?)

人物2:不是。 (Uh-uh.)

人物1:是因为车牌吗? (Is it because of the license plate?)

人物2:不是。 (Nope.)

人物1:该死,伙计。是那个死人,对吧? (Shit, man. It's the dead guy, right?)

人物2:不,先生。 (No, sir.)

人物1:也许是人口贩卖? (Is it the human trafficking, perhaps?)

人物2:不是。 (Uh-uh.)

人物1:伙计,是卡车的事吗? (Man, is it the truck thing?)

人物2:我不这么认为。 (I don't think so.)

人物1:好吧,那到底是什么? (Well, what is it then?)

人物1:抢劫案? (The robbery?)

人物2:不。 (No.)

人物1:是保险杠贴纸? (The bumper sticker?)

人物2:不。 (No.)

人物1:是被车撞死的动物,对不对? (It's the roadkill, isn't it?)

人物2:没听说过。 (Haven't heard of it.)

人物1:是化学废料? (The chemical waste?)

人物2:不是。 (Uh-uh.)

人物1:是过山车座位吗? (Is it the roller coaster seat?)

人物1:是邪教的事吗? (Is it the cult thing?)

人物2:绝对不是。当然不。 (Absolutely not. Hell no.)

人物1:好吧,我放弃了。 (All right, I give up.)

人物1:到底是什么? (What is it?)

人物2:因为今天是你的生日。 (It's because it's your birthday.)

人物2:生日快乐,凯文。 (Happy birthday, Kevin.)

人物1:爸爸,你还记得。 (Dad, you remembered.)

人物2:祝你生日快乐,祝你生日快乐,祝你生日快乐。 (Happy birthday to you, Happy Birthday to you, Happy Birthday to you.)

视频字幕,上下滑动查看。


这个广告的笑点密集,令人捧腹。但其真正的亮点在于惊人的「角色一致性。在一分钟内,视频流畅地切换了10个场景,每个画面的风格都保持了高度统一,核心人物和道具也完美衔接。尽管在车窗、内饰等细节上能察觉到微小的跳跃,但这丝毫未影响其出色的整体连贯性。


要知道 AI 生成视频中经常出现容貌突变、物体错乱等问题。


主创团队分享了他们保持一致性的秘诀——超精细提示 (Hyper-specific Prompting):为模型提供极其详尽、具体且包含大量上下文细节的指令或问题。


这种提示的设计目的是为了最大限度地减少模型的自由发挥空间,引导它生成高度精确、符合特定格式和要求的输出。



相关的提示词优化方法,在我们之前的文章中也提到过,读者可以参考:


值得一提的是,创意、策略与审美依然由人类主导。从最初的灵感、脚本,到由剪辑师完成的最终效果呈现,人的价值贯穿始终。AI 是强大的「执行者」,但遵循的是概率而非远见——至少在今天,这道边界依然清晰。



AI为何总在细节上「翻车」?


关于「角色一致性」的问题,技术层面来讲,并非模型「犯了糊涂」,而是主流视频生成模型背后的核心技术——扩散模型本身的工作原理、训练数据以及从图像到视频的技术跨越之中,主要是以下几点原因:



  • 模型没有「理解」世界,只有「概率统计」模型并非真正理解「人有五根手指」这类事实,而是通过学习海量数据,知道「五指的手」是最高概率的模式。当生成过程中出现随机偏差时,由于缺乏常识性规则的约束,它可能会生成一个概率上虽低但仍有可能的「六指」结果。


  • 局部生成与全局和谐的矛盾模型更擅长生成逼真的局部细节(如皮肤纹理),但对整体结构(如完整的身体解剖)的把握较弱。它可能会因为专注于让局部「看起来对」,而忽略了其在整体画面中的逻辑是否合理,导致「只见树木,不见森林」的结构性错误。


  • 从图像到视频的挑战视频的本质是连续的图像序列,而模型在生成每一帧时都可能存在微小的随机差异。这种帧与帧之间的「失忆」累积起来,就会导致角色外观、服饰或背景等元素在时间线上发生不连贯的漂移和变化,破坏了时间一致性。


  • 训练数据的「不完美」模型的知识完全来源于它所学习的训练数据。网络数据本身就包含大量错误、低质量和不合逻辑的内容。模型会将这些「坏数据」也一并学会,并在生成时复现出来,可谓「垃圾进,垃圾出」。


探索AI的创意玩法


当前,,正是 AI 技术被「降维使用」的体现。真正值得我们探索的,是 AI 作为「创意催化剂」的巨大潜力。


下面这些会不会是 AI 的正确打开方式?


  • 为你喜欢的电影制作一个平行宇宙。



  • 让初音未来进入老头环的世界,会不会是下一个爆款游戏的灵感?



  • 为公司做一个网站。



  • 或者做一个超炫酷的概念影片。



你觉得 AI 还能为我们的创意带来什么惊喜?欢迎在评论区留下你的脑洞。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

说到AI生成内容的真伪辨别,这确实是个很严肃的问题。当AI技术发展到极致,Deepfake级别的视频可能真的会泛滥,到时虚假新闻、政治宣传、甚至个人名誉攻击会变得防不胜防。社会信任体系会被严重侵蚀,人们对信息的获取和判断将面临前所未有的挑战。我觉得应对策略需要多方联动:技术上,发展更先进的AI识别工具和数字内容溯源技术(比如数字水印);法律上,要加快相关法规的制定,明确生成内容的责任归属;公众教育上,也要提升大家的媒介素养和批判性思维能力,学会辨别信息真伪。

哈哈哈,难不难辨别真伪?现在不都一样了吗?朋友圈里哪条不是精修得亲妈认不出来?AI只是把修图P图的门槛降得更低、效率更高了。要我说,以后看新闻,不仅要看来源,还得看是不是真的“人”说的。耳听为虚眼见为实?以后可能得“脑看为实”了。不过,也许这会逼着大家重新审视信息的价值和独立思考的能力,也未尝不是好事。反正我是越来越相信眼见也不一定为实了。

关于“AI是否能在创意层面超越人类”这个问题,从一个乐观的技术信仰者角度来看,我认为是完全有可能的!“创意”很多时候是基于现有元素的重新组合和意外碰撞。AI通过学习海量的作品数据,其潜在的组合模式远超人类大脑。它可以在我们意想不到的地方建立联系,甚至生成我们从未设想过的新范式。现在它还是“执行者”,但当它的“理解”能力和“联想”能力达到一个临界点,甚至能自我迭代和评估创意时,突破“执行者”的边界是必然的。这会是巨大的进步,因为它能拓展人类想像力的边界。

我觉得这只是技术发展必经的一个阶段。就像PS刚出来的时候,大家也担心照片造假。但随着时间推移,技术也在不断进步,比如现在已经有专门的AI鉴别工具来识别Deepfake。未来可能会发展出更成熟的内容认证标准,比如每个AI生成的内容都自带一个“AI生成”的元数据标签,或者像Web3一样,内容版权和生成信息是公开透明可查的。总会有办法的,人类的智慧是无穷的!你看现在好多视频平台也开始提示“AI生成内容”了,这是个好兆头。

我个人觉得,至少在可预见的未来,AI还无法替代人类在“创意”层面的核心地位。创意不仅仅是元素的排列组合,它还包含了情感、历史、文化、直觉、共情,以及对人类经验深层次的理解和表达。这些是冷冰冰的数据和算法难以复制的。AI可能能生成“技术上的完美”,但缺乏灵魂和无法感知人类的情绪起伏。它永远是工具,是翅膀,但飞翔的意志和方向,仍掌握在人类手中。与其说是隐忧,不如说是我们如何更好地驾驭这个工具,让它服务于更深刻的创意表达。

从技术角度看,这确实是个很好的方向。现在很多模型都开始支持多模态输入,这意味着你可以通过提供草图、参考视频片段,甚至音频情绪来引导AI生成。更进一步,结构化的指令流(比如先描述场景,再描述人物动作,最后描述情绪和运镜)或者分层的提示词策略,都能更精准地锁定生成结果。这本质上是把一个复杂的概念分解成多个细小的、可控的步骤,让AI逐层处理,从而减少不确定性和提高复现性。

这就像我们争论锤子能不能“打败”人类一样。AI不是来“打败”或“超越”我们的,它是来“赋能”我们的。未来最好的创意很可能是“人机协作”的产物。人类提供灵感和方向,AI进行快速的迭代和实验。就像这个气泡水广告,脚本和创意是人想的,AI去执行。当人类能更好地利用AI这个“脑洞放大器”时,我们会看到更多前所未有的惊喜,而不是谁取代谁。我觉得这更是一种双赢的进步,是人类创意力的延伸。

可不就是!光靠文字提示,AI有时候就像个“脑补怪”,给你整出些奇奇怪怪的东西。最好是把分镜、角色设计图都甩给它,恨不得手把手教它每一帧怎么拍。就跟带实习生一样,前期投入越大,后面省心越多。不过话说回来,这不也是另一种形式的“提示词”嘛,只不过从文字变成了图像、视频。总之,能让AI“看懂”的、越是具体的参考,效果就越好!