T2I-R1:基于双层次CoT推理与强化学习的文生图模型

港中文发布T2I-R1,一种基于双层次CoT推理与强化学习的文生图模型,显著提升图像生成质量与文本对齐度。

原文标题:文生图进入R1时刻:港中文MMLab发布T2I-R1

原文作者:机器之心

冷月清谈:

香港中文大学MMLab提出了T2I-R1,一种基于双层次CoT推理框架与强化学习的新型文本生成图像模型。该模型通过Semantic-CoT(图像全局结构设计)和Token-CoT(图像Token逐块生成),实现了跨模态文本与图片的对齐和细粒度的视觉细节生成。为协调与融合这两个层次的CoT,研究团队提出了BiCoT-GRPO,一种使用强化学习的方法来联合优化ULM的两个层次的CoT。实验结果表明,T2I-R1在T2I-CompBench和WISE的Benchmark上分别比baseline模型提高了13%和19%的性能,并在处理不寻常场景时展现出增强的鲁棒性。

怜星夜思:

1、T2I-R1中提到的Semantic-CoT和Token-CoT分别侧重于图像生成的哪个方面?它们之间是如何协同工作的?
2、文章中提到使用多个视觉专家模型的集成作为奖励模型,这样做的好处是什么?除了文中提到的两个目的,还有没有其他潜在的优势?
3、T2I-R1在处理不寻常场景时展现出增强的鲁棒性,这背后可能的原因是什么?这种鲁棒性对于文生图模型的实际应用有何意义?

原文内容


姜东志,香港中文大学MMLab博士,研究方向为理解与生成统一的多大模型及多模态推理。在ICML, ICLR, NeurIPS, ECCV, ICCV等顶级会议上发表过论文。


最近的大语言模型(LLMs)如 OpenAI o1 和 DeepSeek-R1,已经在数学和编程等领域展示了相当强的推理能力。通过强化学习(RL),这些模型在提供答案之前使用全面的思维链(CoT)逐步分析问题,显著提高了输出准确性。最近也有工作将这种形式拓展到图片理解的多模态大模型中(LMMs)中。然而,这种 CoT 推理策略如何应用于自回归的图片生成领域仍然处于探索阶段,我们之前的工作 Image Generation with CoT(https://github.com/ZiyuGuo99/Image-Generation-CoT)对这一领域有过首次初步的尝试。


与图片理解不同,图片生成任务需要跨模态的文本与图片的对齐以及细粒度的视觉细节的生成。为此,我们提出了 T2I-R1—— 一种基于双层次 CoT 推理框架与强化学习的新型文本生成图像模型。



  • 论文标题:T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT

  • 论文地址:https://arxiv.org/pdf/2505.00703 

  • 代码地址:https://github.com/CaraJ7/T2I-R1

  • 机构:港中文 MMLab、上海 AI Lab


方法介绍


具体而言,我们提出了适用于图片生成的两个不同层次的 CoT 推理



Semantic-CoT 


  • Semantic-CoT 是对于要生成的图像的文本推理,在图像生成之前进行。

  • 负责设计图像的全局结构,例如每个对象的外观和位置。

  • 优化 Semantic-CoT 可以在图片 Token 的生成之前显式地对于 Prompt 进行规划和推理,使生成更容易。


Token-CoT 


  • Token-CoT 是图片 Token 的逐块的生成过程。这个过程可以被视为一种 CoT 形式,因为它同样是在离散空间中基于所有先前的 Token 输出后续的 Token,与文本 CoT 类似。

  • Token-CoT 更专注于底层的细节,比如像素的生成和维持相邻 Patch 之间的视觉连贯性。

  • 优化 Token-CoT 可以提高生成图片的质量以及 Prompt 与生成图片之间的对齐。



然而,尽管认识到这两个层次的 CoT,一个关键问题仍然存在:我们怎么能协调与融合它们? 


当前主流的自回归图片生成模型如 VAR 完全基于生成目标进行训练,缺乏 Semantic-CoT 推理所需的显式文本理解。虽然引入一个专门用于提示解释的独立模型(例如 LLM)在技术上是可行的,但这种方法会显著增加计算成本、复杂性和部署的困难。最近,出现了一种将视觉理解和生成合并到单一模型中的趋势。在 LMMs 的基础上,这些统一 LMMs(ULMs)不仅可以理解视觉输入,还可以从文本提示生成图像。然而,它们的两种能力仍然是解耦的,通常在两个独立阶段进行预训练,没有明确证据表明理解能力可以使生成受益。


鉴于这些潜力和问题,我们从一个 ULM(Janus-Pro)开始,增强它以将 Semantic-CoT 以及 Token-CoT 统一到一个框架中用于文本生成图像



我们提出了 BiCoT-GRPO,一种使用强化学习的方法来联合优化 ULM 的两个层次的 CoT:


我们首先指示 ULM 基于 Image Prompt 来想象和规划图像来获得 Semantic-CoT。然后,我们将 Image Prompt 和 Semantic-CoT 重新输入 ULM 来生成图片以获得 Token-CoT。我们对于一个 Image Prompt 生成多组 Semantic-CoT 和 Token-CoT,对于得到的图像计算组内的相对奖励,从而使用 GRPO 的方法来在一个训练迭代内,同时优化两个层次的 CoT。


与图片的理解任务不同,理解任务有明确定义的奖励规则,图像生成中不存在这样的标准化的规则。为此,我们提出使用多个不同的视觉专家模型的集成来作为奖励模型。这种奖励设计有两个关键的目的:


  • 它从多个维度评估生成的图像以确保可靠的质量评估

  • 作为一种正则化方法来防止 ULM 过拟合到某个单一的奖励模型



根据我们提出的方法,我们获得了 T2I-R1,这是第一个基于强化学习的推理增强的文生图模型。


实验


根据 T2I-R1 生成的图片,我们发现我们的方法使模型能够通过推理 Image Prompt 背后的真实意图来生成更符合人类期望的结果,并在处理不寻常场景时展现出增强的鲁棒性。




同时,定量的实验结果也表明了我们方法的有效性。T2I-R1 在 T2I-CompBench 和 WISE 的 Benchmark 上分别比 baseline 模型提高了 13% 和 19% 的性能,在多个子任务上甚至超越了之前最先进的模型 FLUX.1。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


我觉得除了文章里说的,集成奖励模型可能还能带来以下好处:
1. 更鲁棒的奖励信号:单一奖励模型可能存在偏差或漏洞,集成多个模型可以减少这些问题的影响,提供更稳定和可靠的奖励信号。
2. 鼓励多样性:不同的奖励模型可能关注图像的不同方面,集成它们可以鼓励生成器探索更多样化的图像生成方式。
3. 自动化特征工程:每个奖励模型都可以看作是对图像的一种特征提取器,集成它们相当于自动进行了特征工程,有助于提升生成器的性能。

使用多个视觉专家模型的集成作为奖励模型,可以从多个维度评估生成的图像,确保评估的可靠性和全面性,避免单一模型的片面性。同时,它还可以作为一种正则化方法,防止ULM过拟合到某个单一的奖励模型。此外,这种集成方式可能还能提高模型的泛化能力,使其在面对不同的图像风格和内容时都能给出合理的评价。也许还能降低对抗攻击的风险,毕竟想同时骗过多个专家模型还是很难的。

从我的理解来看,Semantic-CoT像是项目经理,负责整体规划和任务分配,确保生成图像的全局语义一致性。Token-CoT则像是工程师,负责具体实现,逐像素地构建图像细节,保证视觉连贯性。两个CoT的协同工作,类似于项目经理和工程师的配合,共同完成高质量的图像生成任务。如果缺乏Semantic-CoT,图像可能缺乏整体结构和语义连贯性;如果缺乏Token-CoT,图像可能细节粗糙,视觉效果不佳。

个人认为,增强的鲁棒性可能得益于以下几点:
1. 更强的语义理解:Semantic-CoT让模型能够更深入地理解文本描述的含义,即使描述包含不常见的元素或组合,也能抓住核心要点。
2. 更好的泛化能力:通过强化学习,模型接触了更多样化的训练数据,提升了对未知场景的泛化能力。
3. 更灵活的生成策略:Token-CoT允许模型在生成过程中根据具体情况进行调整,避免生硬地套用模板,从而更好地适应不寻常的场景。
这种鲁棒性使得文生图模型可以应用于更广泛的领域,比如艺术创作、游戏开发、虚拟现实等,为用户提供更自由、更富有创意的图像生成体验。

Semantic-CoT主要负责图像的全局结构设计,比如对象的外观和位置,相当于先打个草稿,确定大方向。而Token-CoT则侧重于底层的细节,比如像素生成和维持视觉连贯性,就像是在草稿的基础上进行精细的雕琢。协同工作就是先用Semantic-CoT规划好蓝图,再由Token-CoT逐步实现细节,让生成的图像既有整体的合理性,又有细节的精致度。有点像盖房子,先设计框架,再填充砖瓦。

T2I-R1的鲁棒性增强可能源于其双层次CoT推理和强化学习机制。Semantic-CoT使模型能够更好地理解prompt的意图,从而在面对不寻常场景时也能进行合理的规划。强化学习则使模型能够不断地从错误中学习,提高其对各种场景的适应能力。这种鲁棒性对于实际应用至关重要,因为它意味着模型可以在更广泛的场景下生成高质量的图像,而不需要针对每个特定场景进行微调。这大大降低了使用门槛,提高了模型的实用性。

就好像一个经验丰富的画家,即使面对再离奇的场景,也能通过自己的理解和技巧,画出像模像样的作品。T2I-R1的鲁棒性就体现在这里,不管你给它什么奇葩的prompt,它都能尽力理解并生成合理的图像。这种鲁棒性意味着我们可以用文生图模型来创造更多前所未有的视觉体验,比如生成科幻电影的概念图、设计奇幻世界的场景等等。想想就觉得很 exciting!

这就像是给生成的图片请了一堆评委,有的评委看构图,有的评委看色彩,还有的评委看细节。这样综合下来,就能更客观地评价图片的质量,避免出现“一俊遮百丑”的情况。而且,不同的评委可能会有不同的偏好,这也迫使模型生成更多样化的图像,而不是一味地迎合某个评委的口味。万一某个评委打分不靠谱,也有其他评委可以纠正,相当于增加了容错率。

这俩CoT就好像文生图界的阴阳二气,Semantic-CoT主“意”,负责图像的整体构思和语义逻辑;Token-CoT主“形”,负责图像的像素细节和视觉呈现。两者相辅相成,才能生成既有意境又有细节的图像。简单来说,Semantic-CoT保证图画说的是人话,Token-CoT保证图画长得像人样。