Gemini Omni Flash 上手:谷歌视频生成新模型很强,但 Seedance 2.0 更抢风头

谷歌 Gemini Omni Flash 亮相,视频编辑能力强,但多项实测不敌 Seedance 2.0。

原文标题:谷歌I/O发布会最大的赢家,不是谷歌?

原文作者:机器之心

冷月清谈:

谷歌在 I/O 大会上推出原生多模态模型 Gemini Omni Flash,支持用文本、图像、音频、视频、草图等输入生成和编辑视频,并能进行连续修改、保持上下文与角色一致性。它还强调物理世界理解、知识整合、数字分身生成,以及 SynthID 隐形水印验证。早期用户测试显示,该模型在科普解说、场景迁移、表情控制、多视角镜头切换等方面表现不错,但也暴露出远景人物细节模糊、参考图还原不足、物体消失、配额限制严格等问题。与 Seedance 2.0 的多组同提示词对比中,Gemini Omni Flash 在动作场景、人物一致性、动漫节奏和物理效果上普遍落后,整体更适合知识型与编辑型视频,而非高强度动态生成。

怜星夜思:

1、如果 Gemini Omni Flash 真的内置到 YouTube Shorts,普通创作者会更受益,还是更容易被 AI 内容淹没?
2、文章里多次提到 Seedance 2.0 在动作和人物一致性上更强,你觉得 AI 视频模型的核心竞争力到底是“懂世界”,还是“画面稳定”?
3、Gemini Omni Flash 强调 SynthID 水印验证,AI 视频越来越逼真后,平台应该强制标注 AI 生成内容吗?
4、从这篇实测看,Gemini Omni Flash 更像创作工具还是生产力工具?它最可能先在哪些行业落地?

原文内容

图片
编辑|杨文

5 月 20 日凌晨,谷歌 I/O 大会一口气推出了各种模型,其中就包括原生多模态大模型 Gemini Omni Flash


该模型支持任意输入(视频、图像、音频、文本、草图等)来生成和编辑视频。


我们只需用自然语言下指令,就能对视频进行多次、连续修改,模型能够保持角色一致性、符合物理规律,并记住之前的上下文。


视频来自:X博主@venturetwins


它对现实世界也有深度理解,不仅能理解重力、动能、流体力学等物理规律,还能结合历史、科学和文化背景进行深度的画面叙述。


例如,上传膝盖 MRI 图像后直接询问「如何治疗前交叉韧带撕裂」,模型便能给出专业解读。


甚至我们可以借助自己的声音和形象创建数字分身,生成外观与声音都高度还原本人的内容。



Gemini Omni 生成的所有视频均内嵌不可见的 SynthID 数字水印,可通过 Gemini 应用、Chrome 或谷歌搜索便捷验证。


目前,Gemini Omni Flash 已上线,全球付费用户可在 Gemini 应用和 Google Flow 中率先体验。


本周内,该功能还将免费内置到 YouTube Shorts 和 YouTube Create App,面向普通创作者开放。


开发者与企业客户则可在接下来几周内通过 Gemini API 正式接入。


网友实测:亮点与槽点同在


社交媒体上已有大量网友晒出测试结果,我们就来盘一盘。


沃顿商学院副教授 Ethan Mollick 拿到了早期访问权限,用一段颇具挑战性的提示词进行了压力测试:


Prompt:sea otter in a pilot's uniform explains why Spirit Airlines went bankrupt to a river otter who is distracted by their laptop while they are in a hot air balloon over NYC. in the next balloon over, william shakespeare fights a robot made of pizza.(一只穿着飞行员制服的海獭,在纽约上空的热气球里,向一只被笔记本电脑分心的河獭解释 Spirit Airlines 为何破产,而旁边的另一个热气球里,威廉・莎士比亚正在和一个用披萨做成的机器人打架。)


视频来自:X博主@emollick


我们可以看到,它生成的镜头切换丝滑,指令遵循度也较高。Ethan Mollick 评价道「一个真正聪明的模型能直接处理视频,创作空间大大扩展了」。



网友 @WolfRiccardo 用 Gemini Omni 做了一条偷拍被抓的假新闻,画面质感不错,光影处理自然,人物被当场抓包时的动作与表情也颇为真实,但最后一秒手机凭空消失,明显穿帮。


图片

视频来自:X博主@WolfRiccardo


@a16z 合伙人 Justine Moore 则重点测试了模型的「世界知识」整合能力。比如上传一张当前站立位置的照片,直接询问该地的历史沿革,模型无需额外提示便能结合图像与已有知识库给出准确、详尽的回答。


视频来自:X博主@venturetwins


创作者 @jerrod_lew 测试了模型的视频编辑能力,将同一段跑步素材无缝迁移到不同环境、服装与场景中,Gemini Omni flash 在大幅修改画面风格的同时,完整保留了原始动作的连贯性。


图片

视频来自:X博主@jerrod_lew


网友 @LexnLin 尝试了多视角快速切换:在 10 秒的生成视频中,镜头在正面中景、低角度仰拍、侧脸特写、极近距离面部大特写、高空俯拍与远景全景之间流畅切换,非常酷炫、电影化。


图片

视频来自:X博主@LexnLin


但是它也有大多数 AI 视频模型的通病,近景能做得比较精细,一旦镜头拉远,主角的脸部细节就糊在一起,看不清五官和纹理。



网友 @aimikoda 测试了 Gemini Omni flash 面部表情控制能力,生成了一段节拍同步肖像视频:一个戴白色棒球帽的短发女孩在节拍切换中依次呈现好奇、害羞、调皮、惊讶、梦幻、眨眼等 16 种精确表情,全部硬切在节拍上,非常精准且富有表现力。


视频来自:X博主@aimikoda


当然,也有测试反映了明显的控制力不足。上传参考图后,模型未能有效按参考内容生成对应画面,对输入图像的还原度较弱。



图片

视频来自:X博主@sergeantsref


另有用户吐槽 Gemini 的新使用限制太严格,仅生成 5 个视频便会耗尽配额,导致连 Pro 和 Flash 模式都不能用了,体验大打折扣。


视频来自:X博主@LexnLin


Seedance 2.0 正面交锋


Gemini Omni flash 发布后,互联网老哥们都关心一个问题:它与当下表现亮眼的 Seedance 2.0 相比究竟如何?


多位创作者用相同提示词进行了同台对比,结果颇为一边倒。


网友 @cipherwebthree 的对比测试中,Gemini Omni Flash 出现了明显的面部一致性问题,明星在出场瞬间出现换脸现象,一眼可辨。Seedance2.0 生成效果几乎无可挑剔,我瞪着眼来来回回看了 N 遍,也没找到穿帮的点。大家一起来找找茬,在评论区聊聊。


视频来自:X博主@cipherwebthree


AI 创作者 @JSFILMZ0412 专门测试了打斗场景的生成效果,直言「谷歌宣传 Gemini Omni Flash 会改变游戏规则,但与 Seedance 2.0 并排对比后,根本不是一个量级,Seedance 完胜。希望 Veo 4 能来救场。」


视频来自:X博主@JSFILMZ0412


网友 @AIWarper 进行了日漫风格对比,双方整体效果都不错,但 Seedance 2.0 生成的是 15 秒视频更具传统动漫的「on 2s」节奏感,即每秒 12 帧的经典日漫节奏,流畅之余保留了那种独特的轻微跳帧韵律。


视频来自:X博主@AIWarper


而 Gemini Omni Flash 的 10 秒视频则更偏向 3D 质感,动画帧率风格不够纯正。


网友 @NACHOS2D_的对比更直观。


Gemini Omni Flash 生成的画面光影尚可,但武术动作迟缓无力,如慢镜头般拖沓,水花与物理效果模糊失真,整体有明显的 AI 感。


视频来自:X博主@NACHOS2D_


Seedance 2.0 的动作则流畅有力、节奏连贯,拳脚速度与力道俱佳,水花飞溅等动态效果高度自然,配合快速切镜、特写与低角度镜头语言,打斗场景极具动作片质感。


综合来看,Gemini Omni Flash 在科普解说类视频的生成、视频编辑方面表现可圈可点,但在动态场景、人物一致性等维度上均与 Seedance 2.0 存在明显差距,整体表现略优于 Veo 3.1,但仍低于外界预期。


参考链接:

https://x.com/venturetwins/status/2056793856843366789?s=20

https://x.com/emollick/status/2056788122369712148?s=20

https://x.com/WolfRiccardo/status/2056812463350235220?s=20

https://x.com/jerrod_lew/status/2056865054130319828?s=20

https://x.com/LexnLin/status/2056837898796769791?s=20

https://x.com/aimikoda/status/2056861958247194897?s=20

https://x.com/sergeantsref/status/2056818170057679231?s=20

https://x.com/LexnLin/status/2056846325979693465?s=20

https://x.com/cipherwebthree/status/2057049421234483588

https://x.com/JSFILMZ0412/status/2056864860240011411?s=20

https://x.com/AIWarper/status/2056796127245316271?s=20

https://x.com/NACHOS2D_/status/2056774932520989091?s=20



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

回答“要不要强制标注”:要,不然以后我妈在家族群看到“外星人降落菜市场”的视频,又要问我是不是真的了。技术再先进,也得给普通人留个识别入口。

1 个赞

关于“会受益还是被淹没”,我偏悲观一点。现在短视频平台已经够卷了,如果再来一堆一键生成的猎奇视频,信息噪音只会更大。最后可能不是创作者变轻松,而是大家都得用 AI 才能维持更新频率,不用就像赤手空拳进战场。

3 个赞

我回答“Gemini Omni Flash 进 Shorts 会怎样”这个问题:短期看肯定利好普通创作者,尤其是不会剪辑、不会做特效的人,门槛会降很多。但长期看,平台会被大量低成本 AI 视频填满,真正稀缺的反而是选题、审美和个人表达。工具普及以后,拼的不是谁会生成,而是谁知道生成什么。

3 个赞

我对强制标注有点纠结。标注 AI 当然有必要,但如果以后剪辑、调色、补帧、配音都用了 AI,到底用到什么程度才算 AI 内容?一刀切可能会把正常创作也搞得很麻烦。也许应该分级,比如“AI 辅助编辑”和“AI 生成主体内容”分开标。

2 个赞

这个问题我站“画面稳定”。AI 视频最先被用户感知到的是视觉结果,不是模型脑子里有没有世界模型。一个镜头里人物脸崩了,哪怕它背后推理再高级,普通观众也只会说一句:这 AI 味太冲。

1 个赞