图像生成也用CoT推理!港中文提出文生图o1推理和Inference Scaling新范式

港中文团队将CoT推理引入文生图,提出PARM和PARM++奖励模型,显著提升图像生成质量和文本一致性。

原文标题:图像生成迎来CoT时刻!港中文首次提出文生图的o1推理和Inference Scaling新范式!

原文作者:机器之心

冷月清谈:

香港中文大学、北京大学和上海人工智能实验室的研究人员探索了将思维链(CoT)推理应用于图像生成,特别是文生图任务。研究发现,由于自回归图像生成与LLM/LMM在数据表示和推理架构上的相似性(离散Token表示和逐步解码),CoT推理可以有效提升图像生成质量和文本一致性。

研究团队提出了一种名为“潜力评估奖励模型(PARM)”的新方法,以及其增强版PARM++。PARM通过清晰度判断、潜力性评估和最佳选择三个步骤来提升图像生成质量。PARM++则引入了反思机制,使模型能够根据错误描述进行自我修正,进一步优化生成结果。

此外,研究还探索了直接偏好优化(DPO)和测试时验证等策略。DPO使用大规模排名数据训练模型,使其生成结果更符合人类偏好。测试时验证则通过奖励模型对生成过程进行评估和筛选。实验结果表明,将这些策略结合起来可以显著提升图像生成效果,在GenEval基准上取得了明显的改进。

怜星夜思:

1、文中提到的PARM和PARM++奖励模型,与传统的图像生成评估指标(如FID、IS)相比,有什么优势和局限性?
2、CoT推理在文生图领域的应用还处于早期阶段,未来有哪些可能的研究方向?
3、文章中提到自回归图像生成与LLM/LMM的相似性,这种相似性是否意味着未来可以构建一个统一的模型来处理文本和图像生成任务?

原文内容

图片
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

第一作者,郭子瑜,是香港中文大学 MiuLar Lab 的博士生,本科毕业于北京大学,曾在 Amazon、Roblox、上海人工智能实验室、腾讯等机构实习,研究多模态大模型和 3D 视觉,一作代表作有 Point-LLM、PointCLIP、SAM2Point 等。

随着 OpenAI o1 向社区展示了思维链 Chain-of-Thought(CoT)对于大模型推理能力的强大提升,各种基于强化学习 RL 和提升 test-time 推理成本的方案已经在大模型理解领域取得了很大的进展。然而,在图像生成(Image Generation)领域,例如文生图(Text-to-Image)与文生视频(Text-to-Video),我们是否也可以借鉴 CoT 相关的策略,来提升图片或视频的质量和文本一致性呢?

来自香港中文大学、北京大学、和上海 AI Lab 的研究者们通过 Verify 和 Reinforce 的方案,系统地探索了「CoT 推理 + 文生图」的结合与潜力。研究结果表明,这些方法能够有效提升自回归(Autoregressive)图像生成的质量,作者也提出了两种专门针对该任务的新型奖励模型 —— 潜力评估奖励模型(Potential Assessment Reward Model, PARM) 及其增强版本 PARM++,后者引入了反思机制(Reflection Mechanism),进一步优化了图像生成质量。

 
  • 论文标题:Can We Generate Images with CoT? Let’s Verify and Reinforce Image Generation Step by Step
  • 论文地址:https://arxiv.org/pdf/2501.13926
  • 项目地址:https://github.com/ZiyuGuo99/Image-Generation-CoT

研究背景与挑战

目前,CoT 推理已广泛应用于大语言模型(LLM)和多模态大模型(LMM),尤其在数学推理、科学计算等任务上展现出卓越的能力。然而,在自回归图像生成任务中,如何有效地验证(Verify)和强化(Reinforce)图像生成过程,仍是一个尚未解决的问题。

下图左边部分是目前领域使用「CoT 推理 + 解数学题」的方案概述,而右边部分则是本文对于「CoT 推理 + 文生图」的全面探索。研究团队观察到,自回归图像生成与 LLM/LMM 具有类似的推理架构,即:

  1. 离散化 Token 表示:无论是语言还是图像数据,自回归模型都将其量化为离散 Token,并通过逐步预测的方式进行生成。
  2. 逐步解码(Step-by-Step Decoding):类似于 CoT 在数学问题上的逐步推理,自回归图像生成也可以逐步生成中间图像,并在生成过程中进行验证与优化。

 
CoT 如何应用于图像生成?

考虑到 Autoregressive 图像生成和 LLM 在数据表征和推理架构的相似性,论文调研了包括使用 ORM 和 PRM 的 Test-time Verification、构造 Preference Ranking Data、和通过 DPO 进行偏好对齐等方案,首次证明了「CoT + 文生图」的可行性!本文也提出了两种新型的 reward model,PARM 和 PARM++,来优化图像生成质量。如下图所示,通过本文探索的推理策略,大幅度提升了 Autoregressive Image Generation 的效果。

 
具体方案

本文的探索以「文生图」为任务场景,并使用了 Show-o 来作为 baseline 模型,主要分为 3 个部分:

1、测试时验证(Test-time Verification)

首先,论文探索如何使用奖励模型(Reward Model, RM) 来进行 Test-time Verification,实现了 Outcome Reward Model(ORM,下图左边部分)和 Process Reward Model(PRM,下图中间部分)方案,并在两者的基础上提出了一种全新的针对于图像生成任务的 Potential Assessment Reward Model(PARM,下图右边部分)。

 
1.1. 结果奖励模型(Outcome Reward Model, ORM)

论文提出了 2 种方案,均使用 Best-of-N 的方式进行验证,即进行多次完整路径的生成,并从中选择出质量最高的最终图片。

Zero-shot ORM:基于 LLaVA-OneVision 强大的图像理解能力,作者使用了其 7B 模型,直接作为 zero-shot ORM 使用,并通过下面的 prompt 来激发其作为文生图质量评估的能力:

 
Fine-tuned ORM:为了进一步增强 ORM 的专业性能,作者也构建了大规模的图文 reward data 来得到 fine-tuned ORM,数据形式如下图所示:

 
1.2. 过程奖励模型(Process Reward Model, PRM):

作者使用了类似 ORM 的方案,同样尝试了 Zero-shot 和 Fine-tuned 两种方案,并对每个 step 进行 Best-of-N 的方案,即逐步选择出质量最高的中间阶段的生成图片。然而,作者发现这种 naive 的 PRM 无法对图像生成有显著的提升。通过可视化,作者发现:PRM 在早期生成阶段由于图像模糊而难以评估,而在后期生成阶段不同路径的图片趋于相似,导致辨别能力受限,如下图所示。

 
1.3. 潜力评估奖励模型(Potential Assessment Reward Model, PARM):

为了同时结合 ORM 的简洁和有效性,以及 PRM 细粒度逐个 step 验证的思想,作者提出了一个专门针对 Autoregressive 图像生成任务的 reward model:Potential Assessment Reward Model(PARM)。PARM 通过以下三步提升图像生成质量:

  1. 清晰度判断(Clarity Judgment):识别哪些中间步骤的图像已经足够清晰,可用于后续评估。
  2. 潜力性评估(Potential Assessment):分析当前步骤是否有潜力生成高质量的最终图像。
  3. 最佳选择(Best-of-N' Selection):在高潜力路径中选择最佳的最终图像。

  

1.4. 潜力评估奖励模型 ++(Potential Assessment Reward Model++,PARM++)

如下图所示,在 PARM 的基础上,作者提出了 PARM++,使模型能够在生成错误时进行自我修正。具体来说,基于 PARM 选出的最终图片,作者首先使用 PARM++ 评估生成图片是否符合文本描述;若图片不符合要求,会要求 RM 提供详细的错误描述,并根据该描述,要求生成模型进行自我修正(Self-correction),即模型接收反馈,并参考错误信息重新生成结果。结果表明,PARM++ 进一步提升 GenEval +10%。如下图右边所示,生成结果在物体数量、颜色、空间关系等方面更加准确。



2、直接偏好优化(Direct Preference Optimization, DPO)Alignment:

作者进一步引入 DPO 偏好对齐,即使用大规模排名数据训练模型,使其生成结果更符合人类偏好。研究团队构建了 288K 条图文排名数据(Text-to-Image Ranking Data)用于训练。具体来说,训练过程是采用最大似然优化,调整模型输出,使其更偏向人类偏好。同时,论文也进一步使用迭代 DPO(Iterative DPO),在模型优化后重新生成新数据进行再次训练。结果表明,初次 DPO 训练使模型在 GenEval 性能提升 +9%,而迭代 DPO 进一步提高至 +12%,超越 Fine-tuned ORM。

3、Test-time Verification + DPO Alignment:

在前述两种方法的基础上,作者探索了将 Test-time Verification 与 DPO 对齐相结合的策略,以实现端到端的优化。在 DPO 训练的模型基础上,进一步应用 Test-time Verification 进行筛选,使生成图像质量更高,文本一致性更强。实验结果表明,结合 DPO 和 Test-time Verification 后,模型在 GenEval 指标上的整体提升达 +27%,超越单独使用 DPO 或 Test-time Verification 的方案。

 
总体效果对比

下表展示了模型在 GenEval 基准上的总体性能比较,相比于现有的扩散模型和自回归模型,结果证明了在文本生成图像任务中使用 CoT 推理策略的潜力。

 
结论

本研究首次系统性探索了 CoT 推理策略在自回归图像生成中的适应性及潜力。通过全面的实验分析证明了不同的推理策略(如测试时验证、偏好对齐及其结合)能够有效提升图像生成质量。基于这些观察,本文进一步提出了两种专门针对自回归图像生成的奖励模型 —— 潜在评估奖励模型(PARM)PARM++,前者能够对逐步生成过程进行自适应奖励评分,后者则结合了反思机制(Self-reflection),实现自我修正的图像生成。实验结果表明,CoT 推理在自回归图像生成任务中展现出了巨大的潜力,为该领域的发展开辟了新的方向,也为大模型推理能力的进一步提升奠定了基础!

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]

我觉得与其构建一个完全统一的模型,不如探索如何让不同模态的模型之间更好地协同工作,就像文中提到的CoT推理一样,可以将文本理解模型和图像生成模型结合起来,各自发挥优势,最终实现更好的效果。

构建统一模型的挑战在于如何有效地融合不同模态的信息,以及如何设计一个通用的架构来处理不同类型的任务。不过,如果能够成功构建这样的模型,将会对人工智能领域产生巨大的影响。

我觉得PARM++引入的反思机制很有意思,有点像给模型加了个“检查员”,可以让它自己发现并纠正错误。相比之下,FID和IS更像“评分员”,只给出最终的分数,不管过程如何。不过,这个“检查员”的能力也取决于训练数据的质量,如果训练数据不好,“检查员”也可能误判。

文中提到了DPO,感觉未来可以结合更多强化学习的方法来训练奖励模型,让模型的“自我反思”能力更强。另外,可以探索如何将CoT推理与其他图像生成技术结合,例如GAN或扩散模型,看看能不能产生一些新的火花。

我觉得可以研究如何将CoT推理应用于更复杂的图像生成任务,例如根据故事生成一系列连贯的图像,或者生成3D模型等。还可以探索如何提高CoT推理的效率,降低计算成本。

PARM/PARM++的优势在于它更关注生成过程中的潜力评估和错误修正,而不只是最终结果的质量。传统的指标像FID/IS主要关注生成图像的整体分布和多样性,对生成过程中的细节关注较少。不过,PARM/PARM++的局限性可能在于它依赖于奖励模型的质量,如果奖励模型本身存在偏差,评估结果也会受到影响。另外,它的计算成本也可能比传统指标更高。

我比较关注的是如何让CoT推理更好地理解用户的意图,比如用户输入的文本描述可能比较模糊,如何让模型生成更符合用户期望的图像?这可能需要结合一些用户反馈机制,让模型不断学习和改进。

从文中来看,PARM/PARM++更注重生成图像与文本描述的一致性,而FID/IS更关注生成图像的质量和多样性,两者各有侧重。PARM/PARM++的优势在于能够更精细地指导生成过程,而FID/IS的优势在于评估结果更客观,更容易比较不同模型的性能。

理论上是可行的,而且现在已经有像DALL-E 2、Stable Diffusion这种多模态模型可以同时处理文本和图像。未来的研究方向可能是如何构建更强大的统一模型,能够更好地理解和生成不同模态的数据,并且在不同任务之间实现知识迁移。