字节跳动发布视频生成工具ATI:轨迹引导,让视频创作更自由

字节跳动开源ATI,一款通过手绘轨迹控制视频生成的工具,让用户“画到哪,动到哪”,实现更自由的视频创作。模型已在Hugging Face开源。

原文标题:画到哪,动到哪!字节跳动发布视频生成「神笔马良」ATI,已开源!

原文作者:机器之心

冷月清谈:

字节跳动发布了一种名为ATI的新型视频生成框架,旨在解决当前视频生成方法在运动控制方面的瓶颈。ATI允许用户通过在输入图像上手绘轨迹来控制物体和摄像机的运动,将用户的创意转化为实际的视频内容。该框架通过高斯运动注入器将手绘轨迹编码为潜在空间中的运动向量,并将其注入扩散生成流程,从而引导生成过程呈现出用户期望的运动效果。ATI支持对象级动作、局部身体部位运动和摄像机视角变化,并且可以应用于多种艺术风格,具有良好的跨领域泛化能力。目前,ATI的Wan2.1-I2V-14B模型版本已在Hugging Face社区开源,并有相应的ComfyUI插件和教学视频,方便用户使用。

怜星夜思:

1、ATI通过手绘轨迹控制视频生成,那么这种方式相比于传统的参数调节或者预设模板,优势体现在哪些方面?在实际应用中,这种交互方式会给用户带来哪些新的创作体验?
2、ATI目前支持多种艺术风格的视频生成,那么在实际应用中,如何保证生成视频的风格与参考图像风格的一致性?如果参考图像本身风格不明确,ATI会如何处理?
3、ATI已经开源,并且有ComfyUI插件和教学视频,那么对于想要尝试使用ATI的用户,你有什么建议?在使用过程中可能会遇到哪些问题,又该如何解决?

原文内容


Angtian Wang 是字节跳动的研究员,研究方向包括视频生成、3D 视觉、differentiable rendering。博士毕业于约翰霍普金斯(Johns Hopkins University)大学。师从 Dr. Alan Yuille。


近年来,随着扩散模型(Diffusion Models)、Transformer 架构与高性能视觉理解模型的蓬勃发展,视频生成任务取得了令人瞩目的进展。从静态图像生成视频的任务(Image-to-Video generation)尤其受到关注,其关键优势在于:能够以最小的信息输入生成具有丰富时间连续性与空间一致性的动态内容。


然而,尽管生成质量不断提升,当前主流方法普遍面临一个关键瓶颈:缺乏有效、直观、用户友好的运动控制方式。


用户在创作动态视频时,往往具有明确的运动意图,例如人物要往哪个方向奔跑、镜头如何推进拉远、动物的跳跃轨迹等。但现有方法普遍依赖于预设模板、动作标签或风格提示,缺少一种既自由又精准的方式来指定对象与摄像机的运动路径。尤其是在存在多个主体或复杂场景交互的情况下,这种控制能力的缺失,极大限制了生成系统的创意表达能力与实际应用价值。


为了解决这一问题,字节跳动提出了 ATI ——一种全新的、以「轨迹为指令」的可控视频生成框架。ATI 的核心理念是:将用户在输入图像上手绘的任意轨迹,转化为驱动物体与摄像机运动的显式控制信号,并以统一的潜在空间建模方式注入视频生成过程。这使得视频创作从「参数调控」转变为「可视化创意」,让用户「画到哪,动到哪」,以直观方式实现帧级精准控制。



  • Title:ATI: Any Trajectory Instruction for Controllable Video Generation

  • Paper:https://arxiv.org/pdf/2505.22944

  • Project page:https://anytraj.github.io/

  • Github:https://github.com/bytedance/ATI

  • Hugging Face:https://huggingface.co/bytedance-research/ATI

  • ComfyUI:https://github.com/kijai/ComfyUI-WanVideoWrapper


方法

ATI 接受两个基本输入:一张静态图像和一组用户手绘轨迹。这些轨迹可以在图像上自由绘制,支持任意形状,包括直线、曲线、折线、回环乃至抽象形状。ATI 通过高斯运动注入器(Gaussian Motion Injector)将这些轨迹编码为潜在空间中的运动向量,再注入至扩散生成流程中,进而引导生成过程逐帧呈现对应的物体运动与视角变换。



如上图所示,我们希望让视频生成模型「理解」用户画出的运动轨迹,并在后续帧里按照这条轨迹产生动作。为此,我们在模型的输入特征空间上,对每一个轨迹点都注入一个「高斯权重」。使得模型就能在特征图上「看到」一颗颗从时刻 0 到 t 按轨迹移动的小「亮点」,并在训练中逐步理解输入轨迹在输入特征上和 denoise 生成视频的关联。



编码图像:先用一个「编码器」把原始图片转换成一张低分辨率的特征图。 


采样特征:对于轨迹的起始点,从特征图上精确地(通过双线性差值,保持小数位置精度)取出一个特征向量。 


生成高斯权重:在每一帧,对应轨迹点的位置,都用一个小圆形「高斯」亮点去覆盖周围的像素,越靠近圆心的像素,权重越高。


注入特征:把起始点的特征向量,按照这些高斯权重「软」地分配到特征图上的邻近区域,并在模型在生成视频时输入给模型。


这样一来,当我们给生成器喂入图像和这组「高斯掩码+特征」,模型就能直观地「看懂」在每一帧里,哪儿应该动、怎样动,从而生成符合用户手绘轨迹的连贯动画效果。借助高斯运动注入器(Gaussian Motion Injector)与像素级通道拼接策略(Pixel-wise Channel Fusion),ATI 能够统一控制对象级动作、局部身体部位运动与摄像机视角变化,无需切换模型或模块结构,即可高效支持多目标、多风格、多任务的视频生成需求。同时 ATI 支持多个视频生成模型,可以在 Seaweed-7B 以及 Wan2.1-I2V-14B 等不同结构以及大小的模型上均有稳定的表现。


结果展示


图片


用户仅需在原图上以手指或鼠标拖拽绘制任意轨迹,ATI 即可实时捕捉该轨迹路径并将其注入扩散模型。借助高斯运动注入器,无论直线、曲线还是复杂回环,均能被转化为连贯自然的动态视频——画到哪儿,动到哪儿。


图片


在人物或动物肖像场景中,用户可以指定奔跑、跳跃、挥臂等关键动作的轨迹。ATI 对每一帧中的关键点进行细粒度采样与编码,准确还原关节弧度与质心移动,生成符合生物力学规律的自然运动序列。


图片


当场景包含多个目标时,ATI 最多可并行处理 8 条独立轨迹。系统通过空间掩码和通道分离策略,保证各对象身份信息互不干扰,从而呈现复杂群体互动时的连贯动态。


图片


ATI 不仅支持对象级运动控制,还能同步驱动摄像机视角。用户可在原图上绘制推拉、平移、旋转等镜头轨迹,将其与对象轨迹共同注入潜在空间,生成包含摇镜、跟随和俯仰等电影级镜头语言的视频。


图片


在同一推理过程中,物体与摄像机轨迹可同时注入,借助像素级通道拼接策略实现多条运动指令的无缝融合。系统无需模块化切换,即可在潜在特征中并行呈现角色动作、群体互动与镜头切换,输出丰富而连贯的动态叙事。


图片


ATI 展示出良好的跨领域泛化能力,覆盖写实电影、卡通插画、油画质感、水彩渲染、游戏美术等多种艺术风格。通过更换参考图与输入轨迹,系统能够在保留原始风格特征的基础上生成对应的运动视频,满足多元化的应用需求。


图片


用户可在潜在空间中绘制超越物理边界的轨迹,以生成飞天、伸缩、扭曲等非现实动作效果,为科幻或魔幻场景提供无限创意空间。


图片


基于 Wan2.1-I2V-14B 的高精度模型,ATI 可生成与实拍媲美的视频短片,精准还原面部表情、服饰材质与光影细节;同时提供轻量级 Seaweed-7B 版本,以满足资源受限环境中的实时交互需求。


模型开源


目前,ATI 的 Wan2.1-I2V-14B 模型版本已在 Hugging Face 社区正式开源,为研究人员与开发者提供了高质量、可控的视频生成能力。围绕该模型的社区生态也在快速完善:Kijai 开发的 ComfyUI-WanVideoWrapper 插件支持 FP8 量化模型(如 Wan2_1-I2V-ATI-14B_fp8_e4m3fn.safetensors),显著降低显存需求,方便在消费级 GPU 上进行推理部署。同时,Benji 在 YouTube 发布的教学视频《ComfyUI Wan 2.1 任意轨迹指令运动控制教程》为创作者提供了详尽的实操指南。完整代码与模型请参阅 GitHub(bytedance/ATI)及 Hugging Face 模型库。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

个人理解,风格一致性这块,主要靠参考图。ATI更像是把参考图“动”起来,而不是重新生成一个视频。所以,参考图是啥风格,出来的视频大概率也是啥风格。

如果参考图风格不明确,那出来的东西可能就比较“大众脸”吧。毕竟现在AI模型都喜欢生成符合大众审美的结果。真想搞出个性化的东西,还得靠自己调。

ATI最大的优势在于直观性和灵活性。传统的参数调节需要用户理解复杂的参数含义,预设模板则限制了用户的创作自由。而ATI通过手绘轨迹的方式,让用户可以像在纸上绘画一样,直接表达自己的运动意图,无需深入了解底层技术细节,创作体验更加流畅自然。

从创作体验上来说,ATI降低了视频创作的门槛,让更多人可以参与到视频创作中来。用户可以更加专注于创意本身,而不是被复杂的参数和操作所困扰。这种交互方式也更容易激发用户的灵感,创造出更具个性化的作品。

抛开工程实现,从理论上讲,风格迁移是一个经典的计算机视觉问题。现在比较流行的做法是使用对抗学习,训练一个判别器来判断生成图像的风格是否与参考图像一致。ATI可能也采用了类似的技术,通过对抗学习来保证生成视频的风格一致性。

对于风格不明确的参考图像,ATI可能需要借助一些额外的技术手段,比如风格识别模型,来确定参考图像的风格,然后再进行视频生成。

从技术角度来说,使用ATI需要一定的计算机基础,比如Python、深度学习框架等。如果对这些技术不熟悉,可以先学习一些基础知识,然后再来尝试使用ATI。

在使用过程中,可能会遇到各种各样的问题,比如代码错误、模型加载失败、显存溢出等。遇到问题时,可以先查看官方文档和社区论坛,看看是否有人遇到过类似的问题。如果实在解决不了,可以尝试提问,寻求帮助。总之,保持耐心和积极的心态,才能成功使用ATI。

从学术角度讲,ATI将用户意图以一种更自然、更直接的方式融入到视频生成过程中。传统的参数调节和预设模板本质上是间接控制,而ATI的手绘轨迹是直接控制。这种直接控制的方式,更符合人类的认知习惯,也更容易实现精确控制。而且这种交互方式,也为未来的可控视频生成研究提供了一种新的思路,比如可以探索基于自然语言轨迹描述的视频生成方法。

要保证风格一致性,ATI应该是在模型训练时就下了功夫的。通过大量不同风格的图像和视频数据进行训练,让模型学习到不同风格的特征表达。在生成视频时,模型会根据参考图像的特征,自动调整生成过程,从而保持风格一致性。

如果参考图像风格不明确,ATI可能会生成一个偏向于平均风格的视频,或者受到训练数据中dominant风格的影响。这时,用户可以通过手动调整一些风格相关的参数(如果ATI提供了这些参数),来调整生成视频的风格。

我的建议是:不要怕!大胆尝试!AI工具就是用来玩的,玩多了就熟练了。

可能会遇到的问题:
1. 环境配置:参考官方文档,一步一步来。
2. 显卡性能:如果显卡不行,就用云GPU或者降低分辨率。
3. 生成效果:多换图,多尝试不同的轨迹,找到感觉。

记住,AI不是魔法,需要你付出时间和精力去学习和探索。

谢邀,人在工位,刚用上ATI。

对比参数调节和预设模板,我觉得ATI最大的不同是“所见即所得”。以前调参数,改一下,跑一下,看看效果,不满意再改,非常耗时。ATI直接画轨迹,就能大概知道视频会怎么动,省了很多时间。

创作体验方面,感觉像是玩游戏,很有趣。以前做视频是工程师的事情,现在感觉人人都能上手,说不定以后短视频平台会多一个“手绘轨迹”的玩法,大家来比比谁画的轨迹更骚气。

首先,强烈建议去看一下官方的教学视频,跟着视频一步一步操作,可以快速上手。ComfyUI插件是个好东西,可以降低显存需求,让更多人可以在自己的电脑上运行ATI。

在使用过程中,可能会遇到显存不足的问题,可以尝试降低生成视频的分辨率或者使用FP8量化模型。另外,如果生成的视频效果不理想,可以尝试调整轨迹的绘制方式或者更换参考图像。最重要的是多尝试、多学习,才能真正掌握ATI的使用技巧。