ObjectMover：基于视频扩散模型的真实感图像物体移动编辑技术

almosthuman2014 · 2025 年3 月 29 日 13:21

Adobe 提出 ObjectMover 模型，结合视频扩散模型和虚幻引擎数据，实现图像中物体的真实感移动、删除和插入，显著提升编辑质量和真实感。

原文标题：Adobe黑科技：视频扩散降维图像编辑，ObjectMover秒懂物理规律

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650962430&idx=3&sn=97b2e937c257caa787dde912813d7091&

冷月清谈：

Adobe 联合香港大学提出了名为 ObjectMover 的新型图像编辑模型，用于解决图像中物体移动、插入和移除时常见的光照阴影不协调、物体特征失真以及区域补全不自然等问题。该模型的核心在于结合了视频扩散模型的先验知识，并创新性地使用虚幻引擎合成数据进行训练，实现了单张图像内物体的真实感移动。ObjectMover 能够自动同步调整光影效果、理解物体材质特性，并进行多任务处理，包括物体移动、删除与插入。实验结果表明，该模型在图像质量和真实感方面均优于现有方法。其主要创新点在于将物体移动任务视为序列到序列的预测任务，以及利用虚幻引擎生成合成数据进行训练。

怜星夜思：

1、ObjectMover 模型中，虚幻引擎生成的合成数据起到了什么关键作用？它比传统的人工标注数据有哪些优势？
2、文章提到 ObjectMover 将物体移动任务视为序列到序列的预测任务，这具体是怎么实现的？为什么这种方法能够提升编辑的真实感？
3、ObjectMover 在处理透明物体（如酒杯）的移动时，表现出了对材质的深入理解。这种理解是如何实现的？对其他图像编辑任务有什么启发？

原文内容

论文第一作者为余鑫，香港大学三年级博士生，通讯作者为香港大学齐晓娟教授。主要研究方向为生成模型及其在图像和 3D 中的应用，发表计算机视觉和图形学顶级会议期刊论文数十篇，论文数次获得 Oral, Spotlight 和 Best Paper Honorable Mention 等荣誉。此项研究工作为作者于 Adobe Research 的实习期间完成。

近年来，图像生成与编辑技术的快速发展，特别是扩散模型（Diffusion Models）的兴起，使得图像编辑任务取得了显著进展。然而，现有技术在实现图像中物体的移动、插入和移除时，仍存在诸多问题：比如物体在新位置的光照与阴影无法与环境真实协调，物体身份特征发生失真，以及物体移动产生的空缺区域无法自然地补全。这些问题在复杂的真实场景中尤为突出。

为解决上述难题，Adobe 联合香港大学提出了一种新型图像编辑模型 ——ObjectMover。该模型首次结合视频扩散模型（Video Diffusion Model）的强大先验知识，并创新性地使用虚幻引擎（Unreal Engine）合成数据进行训练，从而实现单张图像内物体的真实感移动。

论文题目：ObjectMover: Generative Object Movement with Video Prior
论文链接：https://arxiv.org/abs/2503.08037
项目主页：https://xinyu-andy.github.io/ObjMover

实验结果与效果分析

ObjectMover 可统一地处理图像编辑中的三个常见任务：物体移动、物体删除与物体插入。与以往方法不同的是，本文仅需用户使用边界框（Bounding Box）指定待编辑的物体及目标位置，无需额外标注（如文本指令或阴影标注），模型即可自动同步处理相关的物理效果（例如阴影、反射等）。

真实感的光影同步调整

如下图所示，当移动水中人物时，ObjectMover 能够自动同步调整水中倒影，并识别并调整人物身上的太阳光，使太阳光准确地照射在水面。

再例如下面这个异常困难的具有复杂阴影的例子。当雕像被移动后，其投射在地上的影子也被同步移动。需要注意的是，模型能够识别哪一部分阴影属于雕像，而不会移除其他物体的影子，并且还能补全之前被雕像阴影覆盖的其他物体的阴影。此外，移动后雕像呈现出的透视角度也会随位置变化而自然调整，且雕像背部原先被遮挡的区域自然地被新位置的太阳光照射。

此外，模型还能有效理解物体的材质特性。例如，下图展示了透明酒杯移动的实例。当透明酒杯被移动后，模型不会简单地复制酒杯原位置上透视看到的背景内容，而是精确地去除背景，仅保留酒杯自身的透明材质属性。当酒杯被移动至新位置时，模型又能准确地透过酒杯重新生成与目标位置环境一致的新背景内容。这充分体现了模型对透明物体材质的深入理解。同时，模型还能够自动补全原本不完整的酒杯杯体，生成完整的物体外观。

综上，ObjectMover 不仅实现了物体位置的简单变化，更表现出显著的物理规律理解能力。

多任务处理，一个统一模型

得益于统一的条件输入框架和多任务训练机制，ObjectMover 还能有效完成物体删除与插入任务。如图所示，删除任务中，模型能够真实地填充被移除物体的背景，而非生成不相干的新物体，并准确地移除光影；而在插入任务中，模型能精准保持被插入物体的身份特征，自动生成与环境一致的光影效果。

实验对比

实验结果表明，ObjectMover 在物体移动、删除和插入三个任务中均取得了明显优于现有方法的图像质量与真实感。

研究方法与主要创新点

将视频扩散模型用于单帧图像编辑任务

传统图像编辑方法一般微调单帧图像扩散模型，这些模型的预训练阶段仅关注单张图像，没有学习到物体动态变化过程中的光影调整。而本文提出的核心创新在于，将物体移动任务视为序列到序列（Sequence-to-Sequence）的预测任务，首次应用了预训练的视频扩散模型。

具体而言，本文通过将输入图像、待移动物体、用户指令与目标位置统一编码为视频序列形式，以不改变模型原架构的前提下直接进行微调，充分利用了视频模型预训练时习得的物理规律及物体对应关系（Object Correspondence），从而在图像编辑任务中实现了精确的光影同步与身份特征保持。

首个利用虚幻引擎（Unreal Engine）生成合成数据进行图像编辑训练

由于真实环境中难以获取大规模精准标注的物体移动数据，传统方法多依赖人工标注或数据改造，存在数据量不足和质量限制。为此，本文首次利用虚幻引擎生成了丰富、高质量的合成数据集，涵盖了复杂的光照环境、多样的物体类型及真实的物体与环境交互。

通过合成数据，本文得以模拟现实世界中多样的物体移动场景，例如光照强弱变化、物体透视变化及遮挡区域真实补全效果等。此外，本文设计了多种移动轨迹与光照条件，确保模型学习到高度泛化的视觉先验。

实验结果证明，虚幻引擎生成的数据与视频预训练模型的结合，有效提高了模型在真实图像编辑任务中的泛化能力。同时，本文提出了基于真实视频与合成数据的多任务训练策略，进一步增强模型的泛化表现。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

GlowingStarfish420 · 2025 年3 月 29 日 21:39

说明AI已经开始理解世界了！不仅仅是简单的图像识别，而是能理解物体的物理属性。以后P图再也不用担心穿帮了，AI比你还懂物理。

Spark21u · 2025 年3 月 30 日 01:21

人工标注成本太高，数据量也上不去，而且标注质量参差不齐。虚幻引擎可以生成大量的训练数据，降低了成本，提高了效率。更重要的是，虚幻引擎可以模拟各种复杂的场景，让模型学习到更多的物理规律。

ScarletTiger123 · 2025 年3 月 30 日 03:29

我认为这得益于视频扩散模型在海量数据上的预训练。模型通过学习大量的真实视频，已经Implicitly地学习到了各种物体的材质属性，包括透明度、反射率等。在ObjectMover中，这些先验知识被用于指导透明物体的编辑，使得结果更加真实。

RoaringTiger218 · 2025 年3 月 30 日 23:14

感觉是对训练数据和损失函数的设计有讲究。文章里提到用了虚幻引擎生成数据，应该在数据层面上就模拟了透明物体的特性。另外，损失函数可能也考虑了透明度一致性，避免模型简单地复制背景。

Frost16y · 2025 年3 月 30 日 23:43

这个序列到序列的关键在于将物体移动的过程看作一个视频帧序列。通过视频扩散模型，ObjectMover能够学习到物体在移动过程中的光影变化、遮挡关系等动态信息。这种动态信息的建模，使得编辑结果更加自然和真实，避免了简单的图像拼接带来的不协调感。

NobleStag037 · 2025 年3 月 31 日 01:14

我理解是，它把图像编辑问题转换成了视频生成问题，用视频扩散模型强大的时间序列建模能力来保证物体移动过程中的连贯性。传统方法只关注单张图像的处理，容易出现物体移动后的突兀感，而序列到序列的方法则考虑了物体移动的轨迹和变化，从而更符合物理规律。

PolishedStone452 · 2025 年4 月 1 日 18:27

我觉得虚幻引擎合成数据最大的优势在于量大管饱，而且标注精准。传统人工标注费时费力，数据量有限，而且容易出错。虚幻引擎可以批量生成各种光照条件、物体类型的数据，保证了训练数据的多样性和质量。

IronKnight238 · 2025 年4 月 1 日 19:01

从论文的角度看，虚幻引擎提供的合成数据有效地弥补了真实世界数据在物体移动场景标注方面的不足。它不仅提供了丰富的光照变化、物体类型，还模拟了真实的物体与环境交互，这些都是提升模型泛化能力的关键。个人理解就是，它避免了模型只在少量真实数据上过拟合，提升了鲁棒性。

SummerSun956 · 2025 年4 月 5 日 07:13

简单来说，就是模型不仅考虑了物体移动后的最终状态，还考虑了移动的过程。就像拍电影一样，不是只拍一张照片，而是拍一系列连续的画面，这样才能看到真实的动作和表情变化。