Flow-GRPO:在线强化学习赋能流匹配模型,组合生图能力超越GPT-4o

Flow-GRPO将在线强化学习引入流匹配模型,显著提升了图像生成效果,组合生图能力超越GPT-4o。为流匹配模型在多模态生成任务中开辟新范式。

原文标题:首次!流匹配模型引入GRPO,GenEval几近满分,组合生图能力远超GPT-4o

原文作者:机器之心

冷月清谈:

香港中文大学与快手可灵等团队联合提出了 Flow-GRPO,这是首个将在线强化学习引入流匹配模型的工作。该方法通过ODE-SDE等价转换和去噪步数“减负”提效两项关键策略,克服了在线RL与流匹配模型内在特性之间的矛盾,并提升了训练效率。实验结果表明,Flow-GRPO 显著提升了 SD3.5 Medium 在 GenEval 基准测试中的准确率,使其在组合式生图能力上超越了 GPT-4o,同时在文字渲染和人类偏好对齐任务上也取得了显著进步。该研究揭示了利用在线强化学习持续提升流匹配生成模型性能的可行路径,为未来进一步释放流匹配模型在图像、视频、3D等多模态生成任务中的潜力提供了新的范式。

怜星夜思:

1、Flow-GRPO通过将ODE转换为SDE来引入随机性,从而能够进行强化学习。这个转换具体是如何实现的?这样做的好处是什么?除了SDE,还有没有其他方式为ODE引入随机性?
2、文章提到Flow-GRPO在训练时减少了去噪步数,推理时则使用完整步数。这个策略是如何保证性能不下降的?
3、Flow-GRPO在GenEval基准测试中表现出色,但在实际应用中,你认为它还面临哪些挑战?

原文内容


本文由香港中文大学与快手可灵等团队联合完成。第一作者为香港中文大学 MMLab 博士生刘杰,他的研究方向为强化学习和生成模型,曾获 ACL Outstanding Paper Award。


流匹配模型因其坚实的理论基础和在生成高质量图像方面的优异性能,已成为图像生成(Stable Diffusion, Flux)和视频生成(可灵,WanX,Hunyuan)领域最先进模型的训练方法。然而,这些最先进的模型在处理包含多个物体、属性与关系的复杂场景,以及文本渲染任务时仍存在较大困难。与此同时,在线强化学习因其高效探索与反馈机制,在语言模型领域取得显著进展,但在图像生成中的应用仍处于初步阶段。


为此,港中文 MMLab、快手可灵、清华大学等团队联合提出 Flow-GRPO,首个将在线强化学习引入 Flow Matching 模型的工作。在 Flow-GRPO 加持下,SD3.5 Medium 在 GenEval 基准测试中的准确率从 63% 提升到 95%,组合式生图能力超越 GPT4o,这说明流匹配模型还有很大提升空间,Flow-GRPO 的成功实践,为未来利用 RL 进一步解锁和增强各类流匹配生成模型(包括但不限于图像、视频、3D 等)在可控性、组合性、推理能力方面的潜力,开辟了充满希望的新范式



  • 论文标题:Flow-GRPO: Training Flow Matching Models via Online RL

  • 论文链接:https://www.arxiv.org/pdf/2505.05470

  • 代码地址:https://github.com/yifan123/flow_grpo

  • 模型地址:https://huggingface.co/jieliu/SD3.5M-FlowGRPO-GenEval


作者团队也会尽快提供 Gradio 在线 demo 和包含大量生成 case,强化学习训练过程中图片变化的网页,帮助读者更好地体会 RL 对于流匹配模型的极大提升。


一.核心思路与框架概览


Flow-GRPO 的核心在于两项关键策略,旨在克服在线 RL 与流匹配模型内在特性之间的矛盾,并提升训练效率:


  1. ODE-SDE 等价转换: 流匹配模型本质上依赖确定性的常微分方程(ODE)进行生成。为了强化学习探索所需的随机性,作者采用了一种 ODE 到随机微分方程(SDE)的转换机制。该机制在理论上保证了转换后的 SDE 在所有时间步上均能匹配原始 ODE 模型的边缘分布,从而在不改变模型基础特性的前提下,为 RL 提供了有效的探索空间。

  2. 去噪步数「减负」提效: 在 RL 训练采样时,大胆减少生成步数(例如从 40 步减到 10 步),极大加速数据获取;而在最终推理生成时,仍然使用完整步数,保证高质量输出。在极大提升 online RL 训练效率的同时,保证性能不下降。


图 1 Flow-GRPO 框架


二. ODE to SDE


GRPO 的核心是依赖随机采样过程,以生成多样化的轨迹批次用于优势估计和策略探索。但对于流匹配模型,其确定性的采样过程不满足 GRPO 要求。为了解决这个局限性,作者将确定性的 Flow-ODE 转换为一个等效的 SDE,它匹配原始模型的边际概率密度函数,在论文附录 A 中作者提供了详细的证明过程。原始的 flow matching 模型 inference 的时候按照如下公式:


图片


转变成 SDE 后,最终作者得到的采样形式如下:


图片


之后就可以通过控制噪声水平的参数很好地控制 RL 策略的探索性。


三.Denoising Reduction


为了生成高质量的图像,流模型通常需要大量的去噪步骤,这使得在线强化学习的训练数据收集成本较高。作者发现,对于在线强化学习训练,较大的时间步长在样本生成时是多余的,只需要在推理时保持原有的去噪步骤仍能获得高质量的样本。作者在训练时将时间步长设置为 10,而推理时的时间步长保持为原始的默认设置 40。通过这样的「训练时低配,测试时满配」的设置,达到了在不牺牲最终性能的情况下实现快速训练。


四.核心实验效果


Flow-GRPO 在多个 T2I(文本到图像)生成任务中表现卓越:


  • 复杂组合生成能力大幅提升: 在 GenEval 基准上,将 SD3.5-M 的准确率从 63% 提升至 95%,在物体计数、空间关系理解、属性绑定上近乎完美,在该评测榜单上效果超越 GPT-4o! 


图 2 Flow-GRPO 训练过程中的性能持续上升


图 3 GenEval 各项指标详细结果


图 4 在 GenEval 基准上的定性比较


  • 文字渲染精准无误: 视觉文本渲染准确率从 59% 大幅提升至 92%,可以较为准确地在图片中渲染文字。



  • 更懂人类偏好: 在人类偏好对齐任务上也取得了显著进步。



  • 奖励黑客行为显著减少: Flow-GRPO 在性能提升的同时,图像质量和多样性基本未受影响,有效缓解 reward hacking 问题。



五.总结与展望


作为首个将在线强化学习引入流匹配模型的算法,Flow-GRPO 通过将流模型的确定性采样机制改为随机微分方程(SDE)采样,并引入 Denoising Reduction 技术,实现了在流匹配模型上的高效在线强化学习。实验结果显示,即便是当前最先进的 flow matching 模型,在引入强化学习后依然有显著的性能提升空间。Flow-GRPO 在组合式生成、文字渲染和人类偏好等任务上,相比基线模型均取得了大幅改进。


Flow-GRPO 的意义不仅体现在指标上的领先,更在于其揭示了一条利用在线强化学习持续提升流匹配生成模型性能的可行路径。其成功实践为未来进一步释放流匹配模型在可控性、组合性与推理能力方面的潜力,尤其在图像、视频、3D 等多模态生成任务中,提供了一个充满前景的新范式。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

虽然Flow-GRPO在GenEval上表现很好,但我认为实际应用中还是有很多挑战的。比如,GenEval主要测试的是组合生成能力,但实际应用中,用户可能更关注生成图像的真实感、美观度和多样性。Flow-GRPO在这方面是否也能保持优势,还需要进一步验证。

另外,Flow-GRPO的训练需要在线强化学习,这使得训练成本可能会很高。如何降低训练成本,也是一个需要解决的问题。

最后,Flow-GRPO的可控性如何?用户能否精确控制生成图像的细节?这也是实际应用中非常重要的一个方面。

除了楼上说的,我觉得还有一个挑战是“奖励黑客”(reward hacking)问题。文章提到Flow-GRPO已经有效缓解了这个问题,但是reward hacking在强化学习中是一个非常普遍的问题,很难彻底解决。如果模型为了追求奖励,生成一些不符合人类常识或者审美的图像,那也是不可接受的。

所以,如何设计一个合理的奖励函数,让模型真正学到人类想要的东西,是一个非常重要的挑战。

关于Flow-GRPO中ODE到SDE的转换,文章提到附录A有详细的证明过程,建议去找来看看。这个转换的关键在于保证SDE在所有时间步上都匹配原始ODE模型的边缘分布,这样既引入了随机性,又不改变模型的基础特性,让RL可以有效地探索。好处就是既享受了ODE生成高质量图像的特性,又引入了RL的探索能力,一举两得。

至于其他方式为ODE引入随机性,理论上应该还有很多方法,比如直接在ODE的每一步计算中添加噪声,或者使用其他的随机过程建模。但是这些方法可能很难保证不改变模型的边缘分布,效果可能不如SDE好。这部分我也不清楚,需要查阅一些额外的文献才能回答。

我觉得最大的挑战是泛化性。GenEval是一个特定的benchmark,Flow-GRPO在这个benchmark上表现很好,并不代表它在所有场景下都能表现很好。实际应用中,用户输入的文本prompt千奇百怪,模型需要能够理解各种各样的prompt,并生成高质量的图像。这需要模型具有很强的泛化能力,而这正是当前生成模型普遍面临的挑战。

这个就跟我们平时debug代码一个道理嘛!训练的时候减少步数,相当于是快速跑一个demo,看看大方向有没有问题。如果demo跑通了,说明大方向没问题,然后再用完整步数跑一遍,看看细节有没有问题。这样可以大大提高debug效率!

楼上说得对,ODE转SDE的核心是保持边缘分布不变,这样才能保证生成质量。我觉得这个思路很妙,既能利用RL的探索能力,又能保持流匹配模型原有的优势。

关于其他引入随机性的方法,我想到了GAN。GAN也是通过噪声输入来生成图像,但是GAN的训练和控制都比较困难,不如Flow-GRPO这种方式稳定和可控。而且GAN生成图像的多样性也不如Flow-GRPO,因为GAN的噪声空间是被discriminator限制住的。Flow-GRPO的SDE可以提供更广阔的探索空间。

我觉得可以从loss landscape的角度来理解。减少去噪步数相当于在loss landscape上走了一步比较大的step,虽然不一定能走到optimal点,但是可以快速的探索loss landscape的不同区域。增加去噪步数相当于走更小的step,可以更精细的在loss landscape上搜索,从而达到更好的performance。所以,训练的时候减少步数是为了exploration,推理的时候增加步数是为了exploitation。

抛开论文细节不谈,从直觉上理解,ODE和SDE的区别就像是“按部就班地执行指令”和“带点随机性地摸索前进”。

ODE就像一个严谨的机器人,你告诉它每一步怎么走,它就一步不差地执行。好处是结果稳定可预测,但坏处也很明显——缺乏探索新路径的能力。

SDE则像一个有点迷糊的探险家,它在探索过程中会受到一些随机因素的干扰,可能走弯路,但也有可能意外发现新的宝藏。Flow-GRPO巧妙地利用了SDE的这个特性,让模型在生成图像的过程中,能够探索更多可能性,从而提升生成效果。

这个策略其实是挺有意思的trade-off。我的理解是,训练的时候,RL主要负责探索方向,快速迭代,找到一个大致正确的参数空间。而推理的时候,需要精雕细琢,把图像质量做到最好。所以训练的时候可以牺牲一些质量,用更少的步数快速训练,推理的时候再用更多的步数把质量补回来。

analogy一下,就像是画画的时候,先用粗线条快速勾勒轮廓(训练),然后再用细线条慢慢填充细节(推理)。