Veo 3打造的AI广告爆火,凭借惊人角色一致性和音画同步,预示AI视频创作进入全新阶段。
原文标题:一个气泡水广告,为何几十万人围观?原来整个都是Veo 3生成的
原文作者:机器之心
冷月清谈:
该广告片不仅笑点密集,其真正的亮点在于_**惊人的“角色一致性”**_。尽管视频在短短一分钟内切换了10个场景,核心人物和道具依然保持完美衔接,整体连贯性出色。主创团队透露,这得益于“超精细提示(Hyper-specific Prompting)”的使用,即为模型提供极其详尽、具体且包含大量上下文细节的指令。
文章进一步探讨了AI生成视频在细节上常出现“翻车”的技术原因:模型缺乏对世界的“理解”而仅限于“概率统计”;局部生成与全局和谐之间的矛盾;从图像到视频的帧间“失忆”;以及训练数据本身存在的缺陷。尽管AI作为强大的“执行者”表现出色,但创意、策略与审美依然由人类主导。
最后,文章展望了AI在创意领域的巨大潜力,认为它将是“创意催化剂”,例如为电影制作平行宇宙、融合不同IP创作新内容,或高效制作概念影片等,鼓励探索AI的更多创新玩法。
怜星夜思:
2、AI生成视频的逼真度越来越高,未来是否会大量出现难以辨别真伪的内容?这会对社会信任、新闻传播等领域产生哪些影响?我们又该如何应对这种潜在挑战?
3、文章提到AI是强大的“执行者”,人类主导“创意、策略与审美”。随着AI技术持续迭代,你认为AI是否有可能在未来某一天,在“创意”层面也能展现出超越人类的惊喜?这会是进步还是隐忧?
原文内容
机器之心编辑部
最近,一个完全由 AI 制作的广告在社交媒体上爆火,在 X 上有三十多万人观看。
这是一个叫 Too Short for Modeling 的团队发布在 LinkedIn 上的作品,不过它并不是一个商业作品,而是该团队为一直想合作的品牌制作的概念影片。
距离 Veo 3 发布已经过去一个半月了,虽然此前模型视频生成已经能达到很逼真的状态,但 Veo 3 的「音画同步」功能,引领 AI 视频创作进入了全新的声画一体化阶段。同时它也让 AI 视频生成进入了更有实践意义的阶段,极大地降低了视频创作的门槛。
我们先来看看这个广告效果怎么样。
来源: https://www.linkedin.com/posts/arielyoriginal_veo3-aicreative-fakeads-activity-7346271275020902400-P9fd
人物1:下午好,小伙子。 (Good afternoon, son.)
人物2:想猜猜我为什么让你靠边停车吗? (Wanna take a guess why I pulled you over?)
人物1:哦,不是你想的那样。 (Oh, it's not what you think.)
人物1:这是“液态死亡”。是苏打山泉水。 (It's liquid death. They're sparkling mountain water.)
人物2:嗯。哇。你没开玩笑。 (Mmm. Wow. You weren't kidding.)
人物2:确实很清爽。 (That is refreshing.)
人物2:但这不是我让你靠边停车的原因。 (But it's not why I pulled you over.)
人物1:哦,天哪。 (Oh boy.)
人物1:是因为破损的尾灯吗? (Is it the busted taillight?)
人物2:不是。 (Uh-uh.)
人物1:是因为车牌吗? (Is it because of the license plate?)
人物2:不是。 (Nope.)
人物1:该死,伙计。是那个死人,对吧? (Shit, man. It's the dead guy, right?)
人物2:不,先生。 (No, sir.)
人物1:也许是人口贩卖? (Is it the human trafficking, perhaps?)
人物2:不是。 (Uh-uh.)
人物1:伙计,是卡车的事吗? (Man, is it the truck thing?)
人物2:我不这么认为。 (I don't think so.)
人物1:好吧,那到底是什么? (Well, what is it then?)
人物1:抢劫案? (The robbery?)
人物2:不。 (No.)
人物1:是保险杠贴纸? (The bumper sticker?)
人物2:不。 (No.)
人物1:是被车撞死的动物,对不对? (It's the roadkill, isn't it?)
人物2:没听说过。 (Haven't heard of it.)
人物1:是化学废料? (The chemical waste?)
人物2:不是。 (Uh-uh.)
人物1:是过山车座位吗? (Is it the roller coaster seat?)
人物1:是邪教的事吗? (Is it the cult thing?)
人物2:绝对不是。当然不。 (Absolutely not. Hell no.)
人物1:好吧,我放弃了。 (All right, I give up.)
人物1:到底是什么? (What is it?)
人物2:因为今天是你的生日。 (It's because it's your birthday.)
人物2:生日快乐,凯文。 (Happy birthday, Kevin.)
人物1:爸爸,你还记得。 (Dad, you remembered.)
人物2:祝你生日快乐,祝你生日快乐,祝你生日快乐。 (Happy birthday to you, Happy Birthday to you, Happy Birthday to you.)
视频字幕,上下滑动查看。
这个广告的笑点密集,令人捧腹。但其真正的亮点在于惊人的「角色一致性」。在一分钟内,视频流畅地切换了10个场景,每个画面的风格都保持了高度统一,核心人物和道具也完美衔接。尽管在车窗、内饰等细节上能察觉到微小的跳跃,但这丝毫未影响其出色的整体连贯性。
要知道 AI 生成视频中经常出现容貌突变、物体错乱等问题。
主创团队分享了他们保持一致性的秘诀——超精细提示 (Hyper-specific Prompting):为模型提供极其详尽、具体且包含大量上下文细节的指令或问题。
这种提示的设计目的是为了最大限度地减少模型的自由发挥空间,引导它生成高度精确、符合特定格式和要求的输出。
相关的提示词优化方法,在我们之前的文章中也提到过,读者可以参考:
值得一提的是,创意、策略与审美依然由人类主导。从最初的灵感、脚本,到由剪辑师完成的最终效果呈现,人的价值贯穿始终。AI 是强大的「执行者」,但遵循的是概率而非远见——至少在今天,这道边界依然清晰。
AI为何总在细节上「翻车」?
关于「角色一致性」的问题,技术层面来讲,并非模型「犯了糊涂」,而是主流视频生成模型背后的核心技术——扩散模型本身的工作原理、训练数据以及从图像到视频的技术跨越之中,主要是以下几点原因:
-
模型没有「理解」世界,只有「概率统计」:模型并非真正理解「人有五根手指」这类事实,而是通过学习海量数据,知道「五指的手」是最高概率的模式。当生成过程中出现随机偏差时,由于缺乏常识性规则的约束,它可能会生成一个概率上虽低但仍有可能的「六指」结果。
-
局部生成与全局和谐的矛盾:模型更擅长生成逼真的局部细节(如皮肤纹理),但对整体结构(如完整的身体解剖)的把握较弱。它可能会因为专注于让局部「看起来对」,而忽略了其在整体画面中的逻辑是否合理,导致「只见树木,不见森林」的结构性错误。
-
从图像到视频的挑战:视频的本质是连续的图像序列,而模型在生成每一帧时都可能存在微小的随机差异。这种帧与帧之间的「失忆」累积起来,就会导致角色外观、服饰或背景等元素在时间线上发生不连贯的漂移和变化,破坏了时间一致性。
-
训练数据的「不完美」:模型的知识完全来源于它所学习的训练数据。网络数据本身就包含大量错误、低质量和不合逻辑的内容。模型会将这些「坏数据」也一并学会,并在生成时复现出来,可谓「垃圾进,垃圾出」。
探索AI的创意玩法
当前,,正是 AI 技术被「降维使用」的体现。真正值得我们探索的,是 AI 作为「创意催化剂」的巨大潜力。
下面这些会不会是 AI 的正确打开方式?
-
为你喜欢的电影制作一个平行宇宙。
-
让初音未来进入老头环的世界,会不会是下一个爆款游戏的灵感?
-
为公司做一个网站。
-
或者做一个超炫酷的概念影片。
你觉得 AI 还能为我们的创意带来什么惊喜?欢迎在评论区留下你的脑洞。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]