线稿驱动:Sketch3DVE实现三维场景视频的自由编辑

Sketch3DVE:用线稿实现3D视频编辑,所见即所得,兼顾真实感与一致性。

原文标题:妙笔生维:线稿驱动的三维场景视频自由编辑

原文作者:机器之心

冷月清谈:

核心痛点在于现有三维视频编辑方法受限于预定义模型、难以融入光影环境或有效填补移除后空白。Sketch3DVE提供了一种基于线稿的创新解决方案,让用户能以简单线条自由增添、移除或替换三维场景视频中的物体。该方法能够处理复杂光影(如阴影与反射),并确保编辑内容在大幅度相机运动下仍保持三维几何一致性。此外,它还支持从单张静态图片生成视角可控视频后进行高效编辑。Sketch3DVE通过结合MagicQuill进行首帧编辑、DUSt3R进行三维重建、以及基于深度图的点云与三维掩码传播,最终利用点云引导的条件控制网络在预训练视频模型(如CogVideoX)基础上生成最终视频。这大大降低了三维视频编辑的专业门槛,在VR/AR和短视频创作领域潜力巨大。

怜星夜思:

1、Sketch3DVE这种线稿驱动的三维视频编辑技术,未来除了专业人士,普通视频创作者能用上吗?它对于短视频制作、游戏开发或者虚拟形象设计有什么颠覆性的影响?
2、Sketch3DVE虽然很强大,但它在处理一些视频内容,比如快速运动、透明物体或者水面波光粼粼这种极其复杂的光影时会不会遇到瓶颈?
3、类似Sketch3DVE这种对现有视频的“精确编辑”和Sora那种“凭空生成”视频,未来会怎么发展?它们会融合,还是各有侧重?

原文内容


刘锋林,中科院计算所泛在计算系统研究中心博士研究生(导师:高林研究员),研究方向为计算机图形学与生成式人工智能,在ACM SIGGRAPH\TOG,IEEE TPAMI,IEEE TVCG,IEEE CVPR等期刊会议上发表论文10余篇,其中5篇为第一作者发表于SIGGRAPH和CVPR,4篇论文收录于中科院一区期刊ACM Transaction on Graphics,第一作者研究工作连续两年入选SIGGRAPH亮点工作宣传片(Video Trailer)。曾获得国家奖学金、中国计算机学会CAD&CG凌迪图形学奖学金等荣誉。


随着移动摄影设备的普及,基于手机或相机等可以快速获取带有丰富视角变换的三维场景视频。如何高效、自由地编辑这些三维内容成为一个关键挑战。例如,在视频中无缝添加新物体、精准去除不需要的元素,或者自然替换已有部分,这些能力在虚拟现实 (VR)、增强现实 (AR) 以及短视频创作中具有广泛的应用前景。


然而,现有的经典方法,通常只能添加预定义的三维模型库中的物体,极大地限制了用户的个性化创意表达。更关键的是,让新加入的物体融入原有场景的光影环境,生成逼真的阴影,以达到照片级的真实感,是具有挑战性的难题。同样,移除物体后,如何合理地填补空缺区域并生成视觉连贯合理的内容,也需要更优的解决方案。


近期,研究人员提出了一种基于线稿的三维场景视频编辑方法 Sketch3DVE [1],相关技术论文发表于 SIGGRAPH 2025,并入选 Video Trailer。它赋予用户基于简单线稿即可重塑三维场景视频的能力。无论是为视频场景个性化地添加全新物体,还是精细地移除或替换已有对象,用户都能通过绘制关键线稿轻松实现。



  • 论文标题:Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing

  • 论文地址:https://dl.acm.org/doi/10.1145/3721238.3730623

  • 项目主页: http://geometrylearning.com/Sketch3DVE/

  • Github: https://github.com/IGLICT/Sketch3DVE


此外,即使是单张静态图片,用户也能自由规划虚拟相机路径(指定相机轨迹),首先生成具有视角变化的动态视频,随后再进行任意编辑。


现在,就让我们一同探索 Sketch3DVE 如何将简单的线稿笔画,转化为重塑三维世界的钥匙!


图 1 基于线稿的三维场景视频编辑结果


图 2 视角可控的视频生成及编辑结果


Part 1 背景


近年来,视频生成基础模型(如 Sora、Kling、Hunyuan Video、CogVideoX 和 Wan 2.1 等)在文本到视频和图像到视频生成方面取得了显著进展。精确控制生成视频中的相机轨迹因其重要的应用前景而受到广泛关注。


现有方法主要分为两类:一类工作 [2, 3] 直接将相机参数作为模型输入,利用注意力机制或 ControlNet 结构来实现对生成视频视角的控制;另一类工作 [4, 5] 则从单张输入图像构建显式的三维表示(如 NeRF),通过指定相机轨迹渲染出新视角图像,并以此作为控制信号引导视频生成。


尽管这些方法能够生成视角可控的视频,如何对已存在的、包含大幅度相机运动的真实视频进行精确编辑,仍然是一个有待解决的研究问题。


视频编辑任务与视频生成有本质区别,它需要保持原始视频的运动模式与局部特征,同时根据用户指令合成新的内容。早期的视频编辑方法 [6, 7] 通常基于 Stable Diffusion 等图像扩散模型,对视频帧进行逐帧处理,并通过引入时序一致性约束来生成编辑结果。


进一步地,研究者开始利用视频生成模型进行编辑,例如一些方法 [8] 从输入视频中提取注意力特征图以编码运动信息,另一些方法 [9] 则采用 LoRA 对预训练视频模型进行微调以捕捉特定视频的运动模式。然而,这些方法主要擅长外观层面的编辑(如风格化、纹理修改),在几何结构层面的编辑效果较差,并且难以有效处理包含大幅度相机运动的场景。


线稿(Sketch)作为一种直观的用户交互方式,已被广泛应用于图像、视频和三维内容的生成与编辑中。基于线稿的视频编辑方法也已出现,例如 VIRES [10] 通过优化 ControlNet [11] 结构实现了基于线稿引导的视频重绘,而 SketchVideo [12] 则设计了一种关键帧线稿传播机制,允许用户仅提供少量帧(1-2 帧)的线稿即可编辑整个视频。


尽管如此,现有的基于线稿的视频编辑方法主要面向通用场景。如何处理包含显著相机视角变化的视频,并在编辑过程中保持新内容的三维几何一致性,仍是当前研究面临的关键挑战。


Part 2 算法原理


图 3 Sketch3DVE 的编辑流程和网络架构图


给定输入的三维场景视频后,用户首先选定第一帧图像。在该帧上,用户绘制一个掩码(Mask)标记需要编辑的区域,并绘制线稿(Sketch)来指定新物体的几何形状。


同时,用户输入文本描述来定义新物体的外观特征。系统采用 MagicQuill [13] 图像编辑算法(或其他兼容的基于图像补全的编辑方法)处理第一帧,生成该帧的编辑结果。


随后,系统利用 DUSt3R [14] 三维重建算法处理整个输入视频,对场景进行三维分析。该方法输出第一帧对应的场景点云(Point Cloud)以及每一帧对应的相机参数(Camera Parameters),为后续的视频编辑传播提供几何基础。


接下来,需要将第一帧图像上的编辑操作传播到其对应的三维点云上。系统采用基于深度图的点云编辑方法:首先,使用 DUSt3R 或 DepthAnything [15] 等方法预测编辑后第一帧图像的深度图(Depth Map)。由于预测得到的是相对深度值,需要将其与原始场景的尺度对齐。


为此,系统利用掩码外部(非编辑区域)的像素,通过逐像素的对应关系计算深度值的平移和缩放参数。应用这些参数对预测深度图进行变换,并将编辑区域的深度值融合到原始场景的深度图中。最后,通过反投影(Back-projection)处理融合后的深度图,得到编辑后的三维点云。


为了减少用户交互,掩码只需在第一帧绘制。为了将第一帧的掩码精确传播到后续不同视角的帧上,系统设计了一个基于三维感知的掩码传播算法。


该算法在三维空间中构建一个网格模型来表示三维掩码(3D Mask):利用编辑前后帧提供的深度信息和相机参数,将每个像素位置反投影到三维空间,形成网格顶点;根据像素邻域关系连接这些顶点,构建出表示编辑区域前表面的网格面片;后表面则使用平面结构并通过侧面连接,最终形成一个封闭的三维网格模型。该三维掩码模型可根据不同帧的相机参数渲染出对应的二维掩码。


最后,系统构建了一个基于三维点云引导的视频生成模型,其思路类似于 [11, 12]。该模型在预训练的 CogVideoX 模型基础上,额外引入了一个条件控制网络。


该网络以三种信息作为输入引导视频生成:1) 编辑后的第一帧图像;2) 由编辑后点云渲染得到的多视角视频(提供三维几何一致性约束);3) 原始输入视频(但移除了掩码区域的内容,用于保持非编辑区域的时空一致性)。通过融合这些条件信息,模型最终输出具有精确三维一致性的场景编辑视频。


Part 3 效果展示


如图 4 所示,用户可以在首帧绘制线稿并标记编辑区域,该方法可以生成高质量的三维场景视频编辑结果,实现物体的添加、删除和替换等操作,所生成新的物体具有良好的三维一致性。


图 4 基于线稿的三维场景视频编辑结果


如图 5 所示,当视频中存在阴影和反射等较为复杂的情景时,由于该工作使用了真实视频作为数据集进行训练,也能在一定程度处理上述情况,并生成相对合理的视频编辑结果。


图 5 阴影和反射等情况的场景编辑效果


如图 6 所示,给定真实拍摄的三维场景视频后,用户可以标记指定编辑区域,并绘制颜色笔画指定新生成内容的外观。该工作可以生成较为真实自然的三维场景视频编辑结果。


图 6 基于颜色笔画的三维场景视频编辑结果


如图 7 所示,该工作也支持不以线稿作为输入,而直接使用图像补全方法对首帧进行编辑,相关编辑效果也可以合理应用至三维场景。


图 7 基于图像补全方法的三维场景视频编辑结果


Part 4 结语


随着大模型和生成式人工智能的迅速发展,三维场景视频编辑问题也有了新的解决范式。传统的模型插入方法存在难以个性化定制、渲染结果不够真实、无法去除已有物体等问题。


Sketch3DVE 则提出了一种有效的解决方案,通过线稿定制化生成三维物体,合成高真实感的三维场景视频编辑效果,并支持基于单目图像的三维视频合成和二次编辑。


借助该方法,用户无需掌握复杂的专业三维处理和视频处理软件,也无需投入大量时间和精力,仅凭几笔简单的线稿勾勒,便可以将想象中的物体带到现实,构建出灵感和现实的桥梁。该项工作已经发表在SIGGRAPH 2025。


有关论文的更多细节,及论文、视频、代码的下载,请浏览项目主页。


参考文献:

[1] Feng-Lin Liu, Shi-Yang Li, Yan-Pei Cao, Hongbo Fu, Lin Gao*. “Sketch3DVE: Sketch-based 3D-Aware Scene Video Editing.” In ACM SIGGRAPH. 2025. 

[2] Zhouxia Wang, Ziyang Yuan, Xintao Wang, Yaowei Li, Tianshui Chen, Menghan Xia, Ping Luo, and Ying Shan. MotionCtrl: A Unified and Flexible Motion Controller for Video Generation. In ACM SIGGRAPH. 2024. 

[3] Yuelei Wang, Jian Zhang, Peng-Tao Jiang, Hao Zhang, Jinwei Chen, and Bo Li. 2024c. CPA: Camera-pose-awareness Diffusion Transformer for Video Generation. CoRR abs/2412.01429 (2024). 

[4] Wangbo Yu, Jinbo Xing, Li Yuan, Wenbo Hu, Xiaoyu Li, Zhipeng Huang, Xiangjun Gao, Tien-Tsin Wong, Ying Shan, and Yonghong Tian. 2024. ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis. CoRR abs/2409.02048 (2024). 

[5] Zekai Gu, Rui Yan, Jiahao Lu, Peng Li, Zhiyang Dou, Chenyang Si, Zhen Dong, Qifeng Liu, Cheng Lin, Ziwei Liu, Wenping Wang, and Yuan Liu. 2025. Diffusion as Shader: 3D-aware Video Diffusion for Versatile Video Generation Control. CoRR abs/2501.03847 (2025).

 [6] Shaoteng Liu, Yuechen Zhang, Wenbo Li, Zhe Lin, and Jiaya Jia. Video-P2P: Video Editing with Cross-Attention Control. In IEEE CVPR 2024. 8599–8608.

 [7] Shuai Yang, Yifan Zhou, Ziwei Liu, and Chen Change Loy. Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation. In ACM SIGGRAPH, 2023. 95:1–95:11. 

[8] Max Ku, Cong Wei, Weiming Ren,Harry Yang, and Wenhu Chen.2024. AnyV2V: A Plug and-Play Framework For Any Video-to-Video Editing Tasks. CoRR abs/2403.14468 (2024). [9] Wenqi Ouyang, Yi Dong, Lei Yang, Jianlou Si, and Xingang Pan. 2024a. I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models. In ACM SIGGRAPH Asia, Takeo Igarashi, Ariel Shamir, and Hao (Richard) Zhang (Eds.). 95:1–95:11. 

[10] Shuchen Weng, Haojie Zheng, Peixuan Zhang, Yuchen Hong, Han Jiang, Si Li, and Boxin Shi. VIRES: Video Instance Repainting with Sketch and Text Guidance. IEEE CVPR 2024. 

[11] Zhang, Lvmin, Anyi Rao, and Maneesh Agrawala. "Adding conditional control to text-to-image diffusion models." ICCV 2023. 

[12] Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao*. “SketchVideo: Sketch-based Video Generation and Editing.” IEEE CVPR 2025 

[13] Zichen Liu, Yue Yu, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Wen Wang, Zhiheng Liu, Qifeng Chen, and Yujun Shen. 2024d. MagicQuill: An Intelligent Interactive Image Editing System. CoRR abs/2411.09703 (2024). 

[14] Shuzhe Wang, Vincent Leroy, Yohann Cabon, Boris Chidlovskii, and Jérôme Revaud. DUSt3R: Geometric 3D Vision Made Easy. In IEEE CVPR 2024. 20697–20709. 

[15] Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, and Hengshuang Zhao. 2024b. Depth Anything V2. CoRR abs/2406.09414 (2024).



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得吧,针对“未来发展”这个问题,这俩玩意儿,一个负责“起步”,一个负责“装修”。Sora就像个万能的造梦机器,你给它一句话,它就能给你造个世界出来。但那个世界可能不是你想要的每一个细节都对。这时候Sketch3DVE就上场了,它就像个精装修团队,帮你把Sora造出来的屋子里的家具摆好,墙漆换个颜色,甚至加个秘密通道。所以呢,以后大概就是Sora先给你整个毛坯房,然后Sketch3DVE帮你把它装潢成豪宅!

关于“Sketch3DVE能否被普通创作者广泛应用”这个问题,我认为关键在于其用户界面的友好度和计算资源的门槛。目前看来,它大幅降低了三维编辑的专业壁垒,让非专业人士通过直观的线稿就能操作。对于短视频,这意味着更高阶的定制化内容将普及;对游戏开发,它可以加速场景原型构建和内容迭代;而虚拟形象设计则能实现更灵活的道具与环境融合。这无疑会催生更多创意,推动内容生产模式的民主化。

就您提出的“Sketch3DVE在处理复杂场景(如快速运动、折射反射)时可能遇到的瓶颈”问题,理论上,此类基于几何重建和扩散模型的编辑方法,其效果上限会受到原始视频质量、3D重建精度及扩散模型对复杂光影语义理解能力的限制。快速运动可能导致稀疏点云重建不准;透明或反射物体则因其表面光学特性复杂,传统深度估计和点云反投影难以有效捕捉,这需要更先进的物理渲染或神经辐射场(NeRF)结合来解决。虽然文章提到在一定程度上可以处理,但极限情况仍是挑战。

嗯,对于“处理复杂光影会不会遇到瓶颈”这个问题,这个确实是个问题。你看电影里那些水的特效、玻璃的反射,做得跟真的一样都费老鼻子劲了。这种AI自己生成的,要是光影特别复杂,比如水面波光粼粼或者一个玻璃杯里装着半杯水,再加个东西进去,它能处理得那么自然吗?我觉得可能还需要点时间,毕竟现在的AI处理“真实世界”的物理规律,多少还是有些挑战的。

哈哈,针对“未来怎么发展”这个问题,这就像一个是“创世神”,一个是“装修工”。创世神(Sora)说:要有光,于是就有了光,顺带生成了一堆宇宙尘埃。装修工(Sketch3DVE)说:这尘埃有点碍眼,不如P个猫上去。所以,未来可能就是,你跟AI说:给我一个赛博朋克风的未来都市,有飞车有霓虹。Sora刷刷刷给你弄好了。然后你再跟AI说:等等,那辆飞车我觉得红色的不好看,帮我改成亮蓝色,或者换个款式。Sketch3DVE就变身设计师了。这不就是“定制人生”的节奏嘛!

你问它能不能处理水面波光粼粼?我猜它可能把我P进去的宇宙飞船也给弄得波光粼粼的,哈哈!开玩笑啦。不过说真的,针对“复杂光影”这种细节处理一直是老大难问题。要是它能完美处理水波和反射,那它不就是《流浪地球》特效团队的救星了吗?别说,也许真能,指不定下次再看电影,好多特效都是AI画的线稿搞定的,那可真是要失业一片了!

你问普通人能不能用?我觉得看这技术,首先你得有个像样的显卡吧?别P了几笔草图,结果电脑直接罢工了。不过要是真能做到像演示里那么丝滑,那以后人人都是特效大师,谁还去电影院看3D大片啊,自己手机里就能整!到时候,直播带货估计都得开始炫酷的AR效果了,卖个口红直接在屏幕上给你变出个虚拟代言人,想想就刺激!

关于您提出的“Sketch3DVE这类‘精确编辑’与Sora这类‘凭空生成’的未来发展”问题,我认为二者并非互相替代,而是相辅相成,走向深度融合是必然趋势。Sora代表从零开始、创意无限的生成能力,擅长宏观叙事和场景构建;而Sketch3DVE则聚焦于真实视频的微观、精确、个性化调整。未来的复合型工具可能具备以下特点:首先通过类似Sora的模型快速生成一个符合大纲的初步视频,随后利用像Sketch3DVE这样的接口进行精细化修饰,例如替换某个道具、调整角色服装或增加特定视觉元素,实现“粗粒度生成”与“细粒度编辑”的无缝衔接,这将极大提高创作效率和内容质量。

哎呀,针对“普通人能用吗”的问题,这技术简直是我的梦想啊!想想看,以前弄个3D视频,光是建模、打光、渲染就得弄死个人。现在只要画几笔,就能在我的Vlog里加个跑车或者把不想要的背景一键抠掉,简直是短视频创作的神器!以后我拍Vlog,想加啥就加啥,再也不用愁素材不够酷了!游戏开发者肯定也乐疯了,省了多少美工的活儿啊!