云天励飞联合多高校发布Señorita-2M:大规模高质量视频编辑数据集

云天励飞等机构发布Señorita-2M数据集,包含200万高质量视频编辑对,涵盖18种任务。实验证明,该数据集能有效提升视频编辑模型的质量。

原文标题:18项任务200万视频编辑对,云天励飞联合多高校打造出大规模编辑数据集

原文作者:机器之心

冷月清谈:

研究团队联合推出了Señorita-2M,一个包含200万高质量视频编辑对的大规模数据集,涵盖18种视频编辑任务。该数据集通过训练专家模型生成编辑视频,并结合计算机视觉模型进行标注。研究者还提出了多种专家模型,用于风格转换、物体编辑、物体替换和物体移除等任务,并利用LLM生成指令。通过严格的数据清洗和过滤,确保数据集的可靠性。实验结果表明,基于Señorita-2M训练的编辑模型在视频一致性、文本对齐和用户偏好度方面均有显著提升,证明了该数据集在视频编辑模型训练中的有效性。

怜星夜思:

1、Señorita-2M数据集的构建方法中,专家模型起到了关键作用。那么,这种利用多个专家模型协同工作的方式,在其他AI训练数据生成领域是否也具有借鉴意义?这种方式的优势和局限性是什么?
2、文章提到使用LLM辅助生成指令,以增强数据集的多样性。在视频编辑领域,指令的质量对模型的效果至关重要。你认为未来LLM在生成高质量、多样化的视频编辑指令方面,还存在哪些挑战和提升空间?
3、文章中使用了多种过滤算法来清洗数据集,保证视频质量。在你的经验中,清洗数据还有哪些行之有效的方法?

原文内容


目前的视频编辑算法主要分为两种:一种是利用 DDIM-Inversion 完成视频编辑,另一种是利用训练好的编辑模型。然而,前者在视频的一致性和文本对齐方面存在较大缺陷;后者由于缺乏高质量的视频编辑对,难以获得理想的编辑模型。


为了解决视频编辑模型缺乏训练数据的问题,本文作者(来自香港中文大学、香港理工大学、清华大学等高校和云天励飞)提出了一个名为 Señorita-2M 的数据集该数据集包含 200 万高质量的视频编辑对,囊括了 18 种视频编辑任务。


数据集中所有编辑视频都是由经过训练的专家模型生成,其中最关键的部分由作者提出的视频编辑专家模型完成,其余部分则由一些计算机视觉模型标注,例如 Grounded-SAM2 和深度图检测模型等。



  • 论文标题:Señorita-2M: A High-Quality Instruction-based Dataset for General Video Editing by Video Specialists

  • 论文地址: https://arxiv.org/abs/2502.06734

  • 项目地址: https://senorita-2m-dataset.github.io


数据分布见下图。




专家模型的开发和数据集的构造


除了常见的计算机视觉模型,作者提出的视频编辑专家模型一共有 4 个,负责五种编辑任务。


第一个编辑专家模型称为 Global Stylizer,负责对输入视频进行风格转换,它基于现有的视频生成基模型开发


然而,作者发现视频生成基模型在接受风格信息方面存在不足,因此无法利用 ControlNet 的思想进行风格转换。


为了解决这一问题,作者首先利用图像 ControlNet 对首帧进行处理,然后使用视频 ControlNet 对剩余的帧进行处理,将首帧的风格信息推广到剩余的视频帧中。在训练过程中,采用了两阶段策略,并通过冻结部分层以降低成本。在第一阶段,模型在低分辨率视频上训练;在第二阶段,微调模型以提高分辨率。


在生成数据阶段,作者采用 Midjourney 和 Stable Diffusion 常用的 290 种风格 prompt,对视频进行风格转换,并使用 LLM 对风格 prompt 转换成指令。


第二个编辑专家模型称为 Local Stylizer,与 Global Stylizer 不同的是,它负责对某些物体进行风格方面的编辑


由于对物体进行风格编辑,不需要接受复杂的风格指令,因此这个模型不使用首帧引导。除此之外,作者使用与 Global Stylizer 相同的 ControlNet 架构,并引入了 inpainting 的思想,保证只有物体本身被修改。


在生成数据阶段,作者采用 LLM 对物体进行改写并产生指令。在获取新的信息后,使用作者的模型对物体进行重绘。


第三个专家模型是 Text-guided Video Inpainter,用来完成物体的替换


在实践中,作者发现直接开发一个视频 inpainter 的效果会远远弱于基于首帧引导的视频 inpainter。因此,作者使用 Flux-Fill 这一高效的图像 inpainter 对首帧进行处理,并使用作者的 inpainter 对剩下的视频进行补全。这样做的好处是将作者的视频 inpainter 只负责将首帧的视频补全内容推广到剩余的视频帧,减少了编辑的难度。


为了进一步减小视频标注过程中引入的数据噪声,作者将编辑的视频作为源视频,将原始视频作为目标视频。这样做的好处是避免基于数据集训练的视频编辑模型学到扭曲和抖动。作者利用 LLM 对源物体和目标物体进行组合并产生用于编辑的指令。


第四个专家模型是 Object Remover。作者用这个专家模型来完成物体去除和物体添加两部分的数据构造。物体添加任务为物体去除任务的逆任务,只需要将标注视频当作源视频,原始视频当作目标视频即可完成数据对的构造。


对于这个专家模型的构造,作者提出了一种反转训练的策略,将训练的 90% 数据的 mask 替换为与视频内容无关的 mask,训练视频恢复的背景和 mask 形状无关。这样可以有效避免视频 remover 根据 mask 形状再次生成物体。


作者还将 10% 的数据设置为和视频物体严格一致的 mask,这样可以训练 remover 产生物体,在推理时将这一条件设置为负 prompt 来避免去除区域内的物体的产生。作者使用 LLM 对使用的 prompt 转换成用于物体去除和物体添加的指令。


除此之外,作者还使用了多种计算机视觉模型对视频进行标注。例如,使用了 Grounded-SAM2 来标注经过 Grounding 的视频,目的是用来训练模型对物体的感知能力,帮助编辑模型对区域的编辑。作者还使用了其他多种专家模型,这些模型一共标注了 13 种视频编辑任务。相似的,这些数据对应的指令也使用 LLM 进行增强。



数据集的清洗 


为了保证视频对的可靠性,作者使用多种过滤算法对生成的视频进行清洗。


具体来讲,首先训练了一个检测器用来检测编辑失败的数据,去除那些有害的视频。其次,使用 CLIP 对文本和视频的匹配度进行检测,丢弃匹配度过小的数据。最后,比对了原始视频和编辑视频的相似度,丢弃掉没有明显编辑变化的视频。


基于 Señorita-2M 数据集的编辑模型训练


作者使用 CogVideoX-5B-I2V 作为基模型,利用首帧引导的方式,使用 Señorita-2M 训练了一个编辑模型。这个模型和之前方法的实验比较结果表明,基于该数据集训练的模型具有更强的一致性、文本视频对齐,以及更好的用户偏好度。


为了进一步证明数据的有效性,作者做了消融实验,使用了相同数据量的 InsV2V 和 Señorita-2M 视频对 CogVideoX-5B-T2V 进行微调。结果发现,使用了 Señorita-2M 的数据,可以大大增强文本匹配度。


另外,增加了训练数据的数量后,这些指标会有明显的改善。这些实验证明了该数据集可以有效地训练出高质量的视频编辑器。更多实验数据详见表 1。


表 1. 基于 Señorita-2M 训练的模型和其他编辑方法的对比


另外,作者还探索了目前的一些编辑架构,采用和 instruct-pix2pix 以及 controlnet 相同的架构,并基于 CogVideoX-5B 来构建视频编辑模型。另外,作者还采用 omni-edit 图像编辑对这基于两个架构的视频编辑模型进行增强。结果发现,使用图像数据增强的模型会有更好的文本匹配度以及用户偏好度。


除此之外,作者还采用了首帧引导的方式进行编辑模型。实验结果证明,在视频编辑中,使用 ControlNet 相比于 Instruct-pix2pix 会有更好的编辑效果,基于首帧引导的编辑模型可以比非首帧引导的模型获得更好的编辑效果。具体实验结果详见表 2。


表 2. 不同编辑架构之间的对比


总结 


作者训练了一系列视频编辑专家模型,用它们和其他计算机视觉模型创建了一个高质量的、基于指令的视频编辑数据集。这个数据集中包含了 18 种不同的视频编辑任务,拥有 200 万的视频编辑对。作者使用了一系列的过滤算法对产生的数据进行筛选,并使用 LLM 对指令进行生成和增强。


实验证明,该数据集可以有效地训练出高质量的视频编辑模型,在视觉效果帧间一致性和文本对齐度等指标上有着较大的提升。除此之外,作者采用了不同的编辑架构对视频编辑进行探索,并得出了一系列结论。作者还设计了消融实验,证明使用相同基础模型的情况下,使用该数据集的数据会大大提升编辑模型的编辑能力。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]



LLM在视频编辑指令生成方面,最大的挑战是理解视觉世界的复杂性。语言是线性的,但视觉信息是高度并行的。如何将视觉信息有效地编码成语言指令,并让模型能够理解和执行,是一个需要深入研究的问题。另外,LLM的“幻觉”问题也需要关注,它可能会生成一些与视频内容不符的指令,导致编辑结果不理想。

指令生成这块儿我觉得挺有意思。现在的LLM虽然很强大,但有时候还是会生成一些模棱两可或者不切实际的指令。比如,让模型把视频里的“汽车变成独角兽”,这指令就有点太抽象了。未来的挑战在于,如何让LLM更好地理解视频内容,生成更具体、更可执行的指令,同时还要保证指令的多样性,避免模型学到的东西太局限。

同意楼上的观点,专家模型协同确实能提升效率和准确性。但是,如何保证各个模型之间的无缝衔接和数据一致性是个挑战。感觉有点像软件工程中的模块化设计,模块之间如果接口定义不清晰,就会出现各种问题。此外,这种方式也可能增加维护成本,因为需要维护多个模型。

从工程实践的角度来看,数据清洗流程的自动化非常重要。可以搭建一个数据质量监控平台,定期检查数据的各项指标,如果发现异常就自动触发清洗流程。另外,还可以建立一个数据版本管理系统,记录每次数据清洗操作,方便回溯和修复问题。

数据清洗是个体力活儿啊!除了文章里提到的,我觉得还可以用一些统计方法,比如检测异常值。如果某个视频的帧率明显低于其他视频,或者分辨率明显偏低,那可能就是个坏数据。另外,还可以人工抽查一部分数据,看看有没有明显的错误或者噪声,毕竟有些问题机器很难发现。

这个问题很有意思!我觉得专家模型协同的方式绝对有借鉴意义。优势很明显,各个击破复杂问题,降低了单个模型的训练难度,而且能针对特定任务进行优化。但局限性也很明显,需要精心设计各个专家模型的职责,以及它们之间的协作方式,否则容易出现瓶颈或者误差传递。举个例子,在自动驾驶领域,可以用一个专家模型负责感知,另一个负责决策,再用一个负责控制,但如果感知模型出了错,后面的模型就可能做出错误的判断。

从学术角度来说,这种“分而治之”的思想在很多领域都有应用。关键在于如何定义“专家”,以及如何设计专家之间的“接口”。如果专家划分不合理,或者接口设计不清晰,反而会降低效率。而且,专家模型越多,复杂度越高,训练和维护成本也会相应增加。所以,在应用这种方法时,需要仔细权衡利弊。

我也觉得指令质量是关键。从技术角度看,可以尝试结合视觉信息,比如利用图像识别技术识别视频中的物体和场景,然后让LLM根据这些信息生成指令。此外,还可以借鉴自然语言处理中的prompt engineering技术,设计更好的prompt,引导LLM生成更优质的指令。另一个方向是引入人类反馈,让用户对生成的指令进行评价和修改,从而不断提升LLM的指令生成能力。

补充一个,可以考虑使用主动学习的方法。先用少量数据训练一个模型,然后用这个模型去预测剩余的数据,把那些模型预测不确定性高的数据挑出来,人工进行标注和清洗。这样可以更有针对性地清洗数据,提高效率。