字节跳动「随变」硬刚Sora?多维度实测对比

字节“随变”上手体验:快速生成情感短视频,但长视频能力待提升。Sora仍是标杆,Oiioii创意落地快。

原文标题:Sora的对手来了?我们实测了字节新品”随变” | 模力工场

原文作者:AI前线

冷月清谈:

本文对字节跳动新推出的AI视频生成应用“随变”进行了详细的测评,并与OpenAI的Sora以及国内的Oiioii进行了横向对比。 “随变”的优势在于生成速度快,情感渲染能力强,且用户界面与抖音高度相似,易于上手,尤其适合快速生成情感化的短视频。但其在复杂指令的执行和场景连贯性方面存在不足,难以支持长视频创作。Sora在物理模拟和复杂叙事理解上具有显著优势,能够生成高质量的电影感视频,但生成速度较慢,且情感表达略显不足。Oiioii则在宏大场景生成和镜头语言运用上展现出创意,适合快速可视化创意概念,但在细节逻辑和生成质量稳定性方面有待提升。总的来说,三款应用各有侧重,用户可根据自身需求选择。

怜星夜思:

1、“随变”App的出现,是否会改变短视频内容创作的格局?它会吸引哪些类型的用户?
2、Sora在物理世界的模拟上具有明显优势,但情感表达略显不足,你认为AI视频生成在情感表达方面还有哪些提升空间?
3、文章提到Oiioii在宏大场景和镜头语言上颇具想象力,但细节逻辑存在错误,你认为在AI视频生成中,宏观创意和细节把控哪个更重要?

原文内容



Sora的对手来了?

我们实测了

字节新品”随变


2026 January.


“随变” 来了


2026年初,字节默默整了个新活——「随变」APP突然上线了。懂得都懂,这摆明是要在AI视频生成领域再造一个“抖音”,正面硬刚 OpenAI 的明星产品 Sora。



作为每天 5Ga 冲浪的抖音资深用户,本小A必然不能错过这新的玩法!



打开「随变」第一眼:好家伙,界面完全是抖音那味儿——只是顶上只剩“关注”和“推荐”俩标签。


仔细一看,抖音那些花里胡哨的滤镜全被阉割掉了,只留下两个入口:创作合拍


不同于Sora的文生视频形式,在使用「随变」之前,你需要给自己捏一个 AI 形象——作为”你在随变里的数字分身”。

 左右滑动查看更多


点开创作功能,它提供了图片、动图和视频三种格式。仔细一看,里面集合的模板挺眼熟的——像蓝调摄影滤镜、渐变色光影这些热门滤镜,还有粘土风、治愈日漫风这类在小某书上很火的风格,甚至“变身”“帅哥来抱我”这类视频模板也都有。感觉上,它和「剪映」在功能和模板上确实有不少重叠。


(图源随变AI生成)


合拍这一点做得挺有意思的。只要我捏出专属形象,就能和一些经典角色——比如企鹅或蒙娜丽莎——搭在一起,组个CP,玩出点互动感。

它还提供了一些预设的提示词模板,像是过年相关的“包饺砸🧨”,或者“企鹅跳舞”这种简单场景。



不过实测下来,确实还是有点小遗憾。目前它生成视频的方式比较固定,只能采用“已有模板图+预设提示词”的组合来做图生视频,还不支持完全自由文本生成,也不能混合多种元素进行更个性化的创作。




                场景测试


除此之外,「模力工场测评团」还拉来了 Sora 等国内外热门的 AI 视频工具,给「随变」来了场硬核的“横向测评”。本次测评将围绕两个场景、三个核心维度展开,测试「随变」的 AI 生视频能力


场景一:动作合理性与流畅度


prompt:


以照片中的人物为创作对象。画面一开始,他站在原地,神情冷静而克制,身体微微前倾,周围气氛紧张。随后他猛地甩出金箍棒,动作有力量但不过分夸张。而后顺势腾空而起,向远处飞去,镜头跟随他短暂上升,然后停留在原地,看着他消失在空中。整体画面偏电影感,动作连贯,避免夸张特效和卡通化表现。


▲随变表现


▲Sora表现


Oiioii表现


场景二:复杂叙事理解与形态转换的想象力


prompt:

画面从远景开始:悟空独自站在荒废的古战场中央,环境阴暗而厚重,残破的石像与风沙围绕四周,整体气氛压抑而肃穆。


镜头缓慢向前推进,逐渐拉近到中景与近景。在推进过程中,悟空始终保持沉默,但他的气质在悄然变化:从压抑、疲惫的人性状态,逐渐显露出属于猴的野性与警觉。


随后,悟空缓缓睁开双眼,目光由混沌转为清醒,仿佛记忆被唤醒。此刻无需夸张特效,只通过眼神与姿态传达齐天大圣的神性回归。


最后,悟空转身踏出一步,身形在远处的风沙中逐渐模糊,画面停留在未完成的觉醒状态,整体保持写实、电影感,避免卡通化与过度特效。


▲随变表现


▲Sora表现


Oiioii表现



实测结论


模力工场测评团通过实际测评,将这三款应用的能力维度作如下拆解:



· 随变:情感渲染大师
优势:

1.  在人物微表情、情绪递进上表现惊艳。

2.  10秒级生成速度重新定义了用户预期,契合短视频消费节奏。

3.  零门槛无缝上手,完全继承抖音交互逻辑,用户无需任何学习即可直观操作。

劣势:

  1. 多指令执行完整度不够,牺牲了一些复杂动作合理性、场景连贯性。

  2. 难以支撑复杂叙事和长片创作,工具属性大于创作平台属性。


· Sora:专业创作的“预可视化引擎”

优势:

  1. 物理世界的优等生:在动作流畅性、物体运动轨迹和物理合理性上具有断层式领先。

  2. 复杂叙事的理解者:能较好理解并执行包含多步骤、场景转换的长文本指令。

  3. 画面质感的保障:输出视频的稳定性、一致性和电影感画质处于行业第一梯队。

劣势:

  1. 情感表达略“机械感”,微表情不够细腻。

  2. 生成耗时较长,无法满足即时分享的冲动。

  3. 使用门槛存在,需科学上网。


· Oiioii:创意快速落地的“快剪导演”

优势:

  1. 在生成宏大场景、氛围渲染和镜头语言(如远景切换)上颇具想象力,能快速搭建出“故事感”画面。

  2. 独创“快速生成”与“故事短片”双模式,结合分镜编辑与自动音频生成。

  3. 适合用于快速脑暴、概念可视化及对完整性和效率要求高于细节精度的创作。

劣势:

  1. 细节逻辑有误,在物体互动、手部细节、空间关系上频繁出现明显错误。



  1. 生成质量不稳定:复杂视频生成速度慢,且质量波动较大,“开盲盒”属性较强。



总而言之,随变在生成速度与情绪表达上表现突出,适用于需要快速产出情感化短视频的场景。Sora在复杂指令执行与物理模拟方面保持优势,适合对逻辑性与完成度要求较高的创作。Oiioii通过分镜编辑等功能降低了完整短片制作门槛,为创意可视化提供了可行路径。如果你已经是抖音的老玩家,又希望体验AI视频生成的即时效果与社交玩法,「随变」会是一个很不错的选择。我们也附上了模力工场五星推荐官的实际使用测评,置于文末,供大家在体验时对照参考。





欢迎在关注我们并在我们的小程序页面评论,与开发者深度链接~


END.



小程序


模力工场

我觉得短时间内还是娱乐为主吧。毕竟现在AI生成的内容质量参差不齐,用在营销上容易翻车,而且版权问题也说不清楚。但是以后说不定可以用来做一些低成本的创意广告,或者给独立音乐人做MV,想象空间还是很大的。

我觉得Sora这种工具最大的颠覆在于,它可能会让独立电影人更容易实现自己的想法。以前需要耗费大量资金和人力的特效场景,现在可能只需要几个prompt就能搞定。当然,这也会加剧行业竞争,逼着大家不断提升创意水平。

伦理问题肯定少不了。比如,如果AI伪装成真人进行诈骗,谁来负责?如果AI的情感建议导致用户做出错误决定,谁来承担责任?这些问题都需要提前考虑。

Sora在技术上确实很强大,但在情感方面确实还有提升空间。我觉得可以尝试加入更多对人类情感的理解,比如通过分析文本描述的情感倾向,然后让AI在生成视频时更注重面部表情、肢体动作和背景音乐的配合,从而更好地传递情感。

从技术角度来看,“随变”的出现降低了AI视频创作的门槛,让更多人可以参与到内容创作中来。但是,高质量的内容仍然是核心竞争力。如果“随变”能够提供更多优质的模板和素材,同时优化AI生成算法,或许能够吸引更多的专业创作者,从而改变短视频的生态。

我觉得这是个“鸡生蛋,蛋生鸡”的问题。宏观创意可以激发人们的兴趣,吸引他们观看视频。而细节把控则可以提升视频的质量,让用户留下深刻的印象。只有两者兼顾,才能创作出真正优秀的AI视频作品。

对我来说,我会更看重细节。毕竟,AI生成的视频再有创意,如果细节上出现明显的错误,也会让人感觉很出戏,影响观看体验。相反,即使创意平平,但细节处理得当,也能让人感觉很舒服。

我觉得宏观创意和细节把控都很重要,但它们的重要性取决于具体的应用场景。如果是用于快速脑暴或者概念可视化,宏观创意可能更重要,因为它可以帮助我们快速捕捉灵感。但如果是用于制作高质量的视频内容,细节把控就至关重要,因为它可以直接影响视频的质量和用户体验。

个人认为短时间内很难撼动现有格局。“随变”的优势在于和抖音的无缝衔接,但这种同质化也可能成为它的限制。如果它不能在内容和玩法上做出差异化,用户很容易审美疲劳。感觉它更像是字节在AI视频领域的一次试水,未来还有很多不确定性。

我觉得“随变”可能会吸引一部分追求快速、便捷创作的用户,特别是那些已经习惯了抖音操作方式的人。他们可能更看重情绪表达和即时分享,而不是复杂场景和精细的物理模拟。至于是否会改变短视频创作格局,我觉得还需要看它后续的功能迭代和用户反馈,毕竟现在还只是一个初步的产品。

AI的情感表达问题,本质上还是数据的问题。如果能够收集到更多包含情感信息的视频数据,并用于训练AI模型,相信AI的情感表达能力会得到显著提升。但是,这涉及到伦理和隐私问题,需要谨慎处理。

我倒是觉得情感的表达很主观,很难用算法来完全模拟。与其追求完美的情感表达,不如让用户有更多的自定义空间,让他们可以根据自己的理解来调整视频的情感基调。比如,可以提供一些情感滤镜或者情绪调节工具,让用户可以更好地表达自己的情感。