国产视频大模型VDC+VBench双榜夺冠:强化学习赋能,性能超越Sora、Pika

复旦大学等机构的国产视频大模型,通过强化学习优化,在VDC和VBench双榜超越Sora、Pika等模型,显著提升视频生成质量。

原文标题:VDC+VBench双榜第一!强化学习打磨的国产视频大模型,超越Sora、Pika

原文作者:机器之心

冷月清谈:

复旦大学等机构的研究团队在视频生成领域取得了突破性进展。他们提出的Cockatiel模型在VDC榜单上超越了包括通义千问2-VL、Gemini-1.5在内的多个主流多模态大模型,该模型通过集成人类偏好对齐的高质量合成数据,实现了更精准、更可靠的视频细粒度描述能力。此外,团队还首创了迭代式强化学习偏好优化方法IPOC,并在VBench视频生成评测榜单中荣登榜首,领先于Sora、Pika等知名模型。IPOC通过迭代式的强化学习优化,有效提升了视频生成在时序一致性和结构合理性方面的表现,同时降低了对训练数据和算力的需求。

怜星夜思:

1、Cockatiel模型在视频细粒度描述上表现出色,它集成了哪些模型的优势?这种集成思路对其他多模态模型的开发有什么启发?
2、IPOC方法是如何解决强化学习在视频生成中训练不稳定问题的?它依赖少量数据和算力的策略,对AI普及有什么意义?
3、文章提到IPOC兼容Diffusion-DPO和Diffusion-KTO两种偏好优化算法,这两种算法有什么区别?在实际应用中应该如何选择?

原文内容

机器之心发布

机器之心编辑部


随着 Deepseek 等强推理模型的成功,强化学习在大语言模型训练中越来越重要,但在视频生成领域缺少探索。复旦大学等机构将强化学习引入到视频生成领域,经过强化学习优化的视频生成模型,生成效果更加自然流畅,更加合理。并且分别在 VDC(Video Detailed Captioning)[1] 和 VBench [2] 两大国际权威榜单中斩获第一。


视频细粒度文本描述


视频细粒度文本描述模型(video detailed caption)为视频生成模型提供标签,是视频生成的基础。复旦大学等机构提出了 Cockatiel 方法 [3],该方法在权威的 VDC(Video Detailed Captioning 视频细粒度文本描述评测集)榜单上获得第一名,超过了包括通义千问 2-VL、VILA1.5、LLaVA-OneVision,Gemini-1.5 等在内的多个主流视频理解多模态大模型。




  • 论文标题:Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption

  • 项目主页: https://sais-fuxi.github.io/projects/cockatiel/

  • 论文地址: https://arxiv.org/pdf/2503.09279

  • Github: https://github.com/Fr0zenCrane/Cockatiel


Cockatiel 的核心思路是:基于人类偏好对齐的高质量合成数据,设计三阶段微调训练流程,系统集成了多个在不同描述维度上表现领先的模型优势。通过这一方法,以单机的训练成本训练出了一套在细粒度表达、人类偏好一致性等方面均表现卓越的视频细粒度描述模型,为后续视频生成模型的训练和优化打下了坚实基础,模型细节如下(更多详情可参考论文和开源 github):



  • 阶段一:构造视频细粒度描述的人类偏好数据:分别对视频描述的对象、对象特征、动态特征、镜头动作和背景的文本描述质量进行人工标注。

  • 阶段二:基于打分器的多模型集成训练:基于人工标注数据训练奖励函数(reward model),并多个模型合成的视频描述计算奖励(reward),最终对 13B 的多模态大语言模型进行人类偏好对齐优化。

  • 阶段三:蒸馏轻量化模型:基于上一步训练的 13B 的多模态大语言模型蒸馏 8B 模型,方便后续在下游任务中低成本推理。


实验结果显示基于 Cockatiel 系列模型生成的视频细粒度描述,具备维度全面、叙述精准详实以及幻觉现象较少的显著优势。如下图所示,与 ViLA,LLaVA 和 Aria 的基线模型相比,Cockatiel-13B 不仅能够准确复现基线模型所描述的细节(以黄底高亮部分表示),还能捕捉到基线模型遗漏的关键信息(以红底高亮部分表示)。而 Cockatiel 生成的描述则大量避免了幻觉性内容,Cockatiel 展现了更高的可靠性和准确性。



强化学习加强的视频生成技术


在视频生成领域,该团队首次提出了迭代式强化学习偏好优化方法 IPOC [4],在权威视频生成评测榜单 VBench (2025-04-14) 上,IPOC 以 86.57% 的总分强势登顶,领先通义万相、Sora、HunyuanVideo、Minimax、Gen3、Pika 等众多国内外知名视频生成模型。




  • 论文标题:IPO: Iterative Preference Optimization for Text-to-Video Generation

  • 论文地址:https://arxiv.org/pdf/2502.02088

  • 项目主页:https://yangxlarge.github.io/ipoc//

  • GitHub 地址:https://github.com/SAIS-FUXI/IPO


研究者通过迭代式强化学习优化方式,避免了强化学习中训练不稳定的问题。同时只需要依赖少量的训练数据和算力,以低成本实现效果优化。 模型细节如下(更多详情可参考论文和开源 github):



阶段一:人工偏好数据标注:IPO 方法通过逐视频打分(Pointwise Annotation)与成对视频排序(Pairwise Annotation)两种方式进行人工标注。标注过程中,标注者不仅需要提供评分或排序结果,还需详细阐述评分理由,以构建具有思维链(Chain-of-Thought, CoT)风格的标注数据。这种标注形式有助于模型深入理解视频内容与文本描述之间的语义一致性,从而形成高质量的人类偏好数据集。


阶段二:奖励模型训练:IPO 方法进一步引入了一种基于多模态大模型的 “奖励模型”(Critic Model)。奖励模型仅通过少量人工标注数据和少量算力即可高效训练完成,随后可自动实现对单个视频的评分以及对多个视频的对比排序。这种设计无需在每次迭代优化时都重新进行人工标注,显著提高了迭代优化效率。此外,奖励模型具备出色的通用性和 “即插即用” 特性,可广泛适配于各类视频生成模型。


阶段三:迭代强化学习优化:IPO 方法利用当前的视频生成(T2V)模型生成大量新视频,并由已训练的奖励模型对这些视频进行自动评价与标注,形成新的偏好数据集。随后,这些自动标注的数据用于进一步优化 T2V 模型。这一过程持续迭代循环,即:“视频生成采样 → 样本奖励计算 → 偏好对齐优化”。此外,我们提出的 IPO 框架同时兼容当前主流的偏好优化算法,包括基于对比排序的 Diffusion-DPO 方法与基于二分类评分的 Diffusion-KTO 方法,用户可灵活选择训练目标,其中两种人类偏好对齐方法(DPO 和 KTO)的训练目标为:


  • DPO (Direct Preference Optimization):



  • KTO (Kahneman-Tversky Optimization):



实验结果显示经过优化后,视频生成模型在时序一致性上实现了显著提升。相比于 CogVideoX-2B(左图),IPOC-2B 生成的视频(右图)中,狮子的行走动作更加自然连贯,整体动态流畅度有了明显改善。


Prompt: An astronaut in a sandy-colored spacesuit is seated on a majestic lion with a golden mane in the middle of a vast desert. The lion's paws leave deep prints in the sand as it prowls forward. The astronaut holds a compass, looking for a way out of the endless expanse. The sun beats down mercilessly, and the heat shimmers in the air.


视频生成模型在结构合理性提升明显。相比于 CogVideoX-2B(左图),IPOC-2B 生成的视频(右图)中,人物和猛犸象具有更好结构合理性。


Prompt: A young girl in a futuristic spacesuit runs across a vast, icy landscape on a distant planet, with a towering mammoth-like creature beside her. The mammoth's massive, shaggy form and long tusks contrast with the stark, alien environment. The sky above is a deep, star-filled space, with distant planets and nebulae visible. 


视频生成模型在动态程度和美学度都有明显提升,相比于 CogVideoX-2B(左图),IPOC-2B 生成的视频(右图)中,人物动作更加流畅,人物和背景更好美观。


Prompt: A woman with flowing dark hair and a serene expression sits at a cozy The café, sipping from a steaming ceramic mug. She wears a soft, cream-colored sweater and a light brown scarf, adding to the warm, inviting atmosphere. The The café is dimly lit with soft, ambient lighting, and a few potted plants add a touch of greenery. 


相关内容:


[1].Chai, Wenhao, Enxin Song, Yilun Du, Chenlin Meng, Vashisht Madhavan, Omer Bar-Tal, Jenq-Neng Hwang, Saining Xie, and Christopher D. Manning. "Auroracap: Efficient, performant video detailed captioning and a new benchmark." arXiv preprint arXiv:2410.03051 (2024).Project Page:https://wenhaochai.com/aurora-web/

[2].Huang, Ziqi, Yinan He, Jiashuo Yu, Fan Zhang, Chenyang Si, Yuming Jiang, Yuanhan Zhang et al. "Vbench: Comprehensive benchmark suite for video generative models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 21807-21818. 2024.Project Page:https://vchitect.github.io/VBench-project/

[3].Qin, Luozheng, Zhiyu Tan, Mengping Yang, Xiaomeng Yang, and Hao Li. "Cockatiel: Ensembling Synthetic and Human Preferenced Training for Detailed Video Caption." arXiv preprint arXiv:2503.09279 (2025).Porject Page:https://sais-fuxi.github.io/projects/cockatiel/

[4].Yang, Xiaomeng, Zhiyu Tan, and Hao Li. "Ipo: Iterative preference optimization for text-to-video generation." arXiv preprint arXiv:2502.02088 (2025). Porject Page:https://yangxlarge.github.io/ipoc//


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

Cockatiel的集成思路让我想到了“专家系统”。每个模型就像一个领域的专家,通过集成可以获得更全面的知识。但挑战在于如何有效地进行集成,避免模型之间的冲突和冗余。感觉需要一个强大的“调度器”来协调各个模型的工作,确保输出结果的一致性和准确性。 这种集成思路启发我们,在构建复杂系统时,可以考虑将不同的“专家”模块组合起来,每个模块负责特定的任务,最终通过协调来实现整体目标。这在软件工程、机器人控制等领域都有广泛的应用前景。

这让我想到了“农村包围城市”的战略。IPOC没有一开始就追求最好的效果,而是通过迭代的方式,逐步提升性能。这种策略很适合资源有限的情况。 依赖少量数据和算力的策略,对于AI的普及来说,简直是福音。以后人人都可以用自己的电脑训练AI模型了,想想就觉得激动!

DPO和KTO的区别,让我想到了“打分制”和“淘汰制”。DPO就像淘汰制,每次都要选出最好的一个,比较残酷;KTO就像打分制,只要达到及格线就可以,更宽松一些。 在实际应用中,如果目标是追求卓越,那就用DPO;如果目标是保证质量,那就用KTO。当然,也可以根据实际情况灵活调整,比如先用KTO筛选出合格的样本,再用DPO在合格的样本中选出最好的。

这让我想起最近看的电影《头号玩家》。主角需要收集不同的线索和技能才能通关。Cockatiel模型的集成就像是收集不同的“技能”,组合起来才能更好地描述视频。这种思路对于其他多模态模型的开发来说,提示我们可以从不同的角度去提取信息,然后整合起来。 感觉以后AI模型的发展方向就是“模块化”和“集成化”,不同的模块负责不同的任务,然后通过一个“中央处理器”进行协调和整合。

IPOC解决训练不稳定问题的方式,有点像中医的“循序渐进”。强化学习就像猛药,用不好容易出问题。IPOC的迭代优化,相当于把猛药分成小剂量,逐步调整,减少了副作用。 这种依赖少量数据和算力的策略,让我想到了“开源”。AI的普及需要开源的精神,只有把技术和资源分享出来,才能让更多的人受益。IPOC的低成本优化,为开源AI项目提供了新的可能性。

这个问题问得好!Cockatiel模型的核心在于“集成”,它不是完全依赖于单一模型,而是集成了多个在不同描述维度上表现领先的模型的优势。具体来说,它会考虑视频描述的对象、对象特征、动态特征、镜头动作和背景等多个维度,并针对每个维度选择最擅长的模型进行集成。对于其他多模态模型的开发,这种思路的启发在于:与其追求一个“全能”模型,不如专注于不同维度的优势集成,形成一个“博采众长”的系统。 例如,在语音识别领域,可以将擅长处理噪声环境的模型与擅长识别特定口音的模型结合,从而提高整体识别准确率。

IPOC的妙处在于“迭代式”强化学习。传统的强化学习在视频生成中容易出现训练不稳定的问题,主要是因为奖励信号稀疏、探索空间巨大。IPOC通过迭代的方式,逐步优化模型,避免了一步到位的激进策略。 每次迭代,IPOC都会利用奖励模型对生成的视频进行评价和标注,形成新的偏好数据集,然后利用这些数据进一步优化T2V模型。这种“小步快跑”的策略,使得模型能够逐步逼近最优解,降低了训练难度。 依赖少量数据和算力的策略,对于AI普及的意义重大。这意味着即使没有强大的计算资源和海量的数据,也可以训练出高质量的视频生成模型。这极大地降低了AI应用的门槛,使得更多的人和机构能够参与到AI的开发和应用中来。

这个问题有点专业了,我理解下来就是,DPO是“精益求精”,KTO是“够用就好”。选择哪个,取决于你的需求和预算。 如果你是土豪,那就选DPO,追求极致的体验;如果你是普通用户,那就选KTO,性价比更高。

DPO(Direct Preference Optimization)和KTO(Kahneman-Tversky Optimization)都是偏好优化算法,但它们在优化目标和实现方式上有所不同。 DPO直接优化策略,通过最大化首选样本的概率与非首选样本的概率之比,来学习人类的偏好。它是一种基于对比排序的方法,需要成对的偏好数据。 KTO则基于前景理论,认为人们对损失的厌恶程度大于对收益的喜好。它通过构建二分类器,区分“好”和“不好”的样本,从而学习人类的偏好。KTO是一种基于评分的方法,只需要对单个样本进行评分。 在实际应用中,如何选择DPO和KTO取决于以下因素: 数据类型:如果能够获取成对的偏好数据,DPO可能更适合。如果只能获取单个样本的评分,KTO则更合适。 计算资源:DPO的计算复杂度通常高于KTO。如果计算资源有限,KTO可能是一个更好的选择。 任务类型:对于需要精细控制生成结果的任务,DPO可能更有效。对于只需要生成“足够好”的结果的任务,KTO可能就足够了。 总的来说,DPO和KTO各有优缺点。在实际应用中,需要根据具体情况进行选择和调整。也可以尝试将两者结合起来,取长补短。