视觉强化学习:大模型时代下的范式演进与未来挑战

全面综述视觉强化学习进展,聚焦其在多模态大模型、视觉生成、VLA应用的前沿与挑战,指引未来研究方向。

原文标题:面向视觉的强化学习综述

原文作者:数据派THU

冷月清谈:

本文对视觉强化学习(Visual RL)领域进行了系统而深入的综述,旨在为研究者和从业者提供该领域的全景图。文章首先形式化定义了视觉RL问题,并梳理了策略优化方法的演进,从基于人类反馈的强化学习(RLHF)到可验证奖励范式,以及从近端策略优化(PPO)到群体相对策略优化(GRPO)等关键进展。随后,综述将近200余篇代表性工作归纳为四大主题支柱:多模态大型语言模型(MM-LLMs)、视觉生成、统一模型框架,以及视觉-语言-动作模型(VLA)。针对每一类,文章详细分析了其在算法设计、奖励工程和基准测试方面的进展,并提炼出如课程驱动训练、偏好对齐扩散、统一奖励建模等新兴趋势。

文章指出,视觉RL与多模态大模型的结合已在视觉-文本推理、GUI自动化、机器人操作和具身导航等任务中取得了显著成就,大幅提升了特定任务性能。此外,强化学习也在基于扩散的视觉生成模型中得到应用,用于提升生成结果的语义一致性与视觉质量,并驱动统一模型实现更强的泛化与任务迁移能力。尽管进展显著,该领域仍面临若干核心挑战,包括在复杂奖励信号下稳定策略优化、处理高维多样化视觉输入,以及设计可扩展的奖励函数以支持长时序决策。文章最后回顾了评估协议,并提出了样本效率、泛化能力与安全部署等开放挑战,展望了更高效多模态推理、稳健长时序学习策略及高保真奖励信号等未来研究方向。

怜星夜思:

1、文章提到强化学习中“基于人类反馈(RLHF)”和“偏好对齐”在大型语言模型 (LLM) 领域取得了显著成功,并正被积极扩展到视觉领域。那么,在视觉强化学习中,这种“人类反馈”和“偏好”具体指的是什么?我们如何才能有效地获取并量化这些视觉偏好,用于训练AI模型呢?
2、文章中多次提及视觉强化学习,特别是结合生成模型和动作模型时,面临着“安全部署”的挑战。在像机器人操作、自动驾驶这类场景下,你觉得视觉强化学习的“安全部署”具体会面临哪些意想不到的风险?除了技术层面的缺陷,还有没有更深层次的问题?
3、文章提到了“统一模型框架”能实现“泛化与任务迁移能力”。未来,你觉得是否有可能出现一个真正意义上的“统一”视觉强化学习模型,它能够像人类一样,跨越理解、生成、行动等多种视觉任务,甚至适应完全陌生的环境和领域?如果能实现,你认为达到这种“通用视觉智能”最大的技术瓶颈会是什么?

原文内容

图片
来源:专知
本文约2000字,建议阅读5分钟
我们的目标是为研究者和从业者提供一幅连贯的视觉RL领域全景图,并突出未来值得探索的方向。


强化学习(Reinforcement Learning,RL)与视觉智能交叉领域的最新进展,使得智能体不仅能够感知复杂的视觉场景,还能在其中进行推理、生成与行动。本文对该领域进行了批判性且最新的综合综述。我们首先对视觉RL问题进行了形式化,并梳理了策略优化方法的演变脉络——从基于人类反馈的强化学习(RLHF)到可验证奖励范式,从近端策略优化(PPO)到群体相对策略优化(GRPO)。随后,我们将200余篇代表性工作归纳为四个主题支柱:多模态大型语言模型、视觉生成、统一模型框架,以及视觉-语言-动作模型。针对每一类,我们分析了算法设计、奖励工程、基准进展,并提炼出诸如课程驱动训练、偏好对齐扩散、统一奖励建模等趋势。最后,我们回顾了涵盖集合级保真度、样本级偏好、状态级稳定性的评估协议,并指出了包括样本效率、泛化能力与安全部署在内的开放挑战。我们的目标是为研究者和从业者提供一幅连贯的视觉RL领域全景图,并突出未来值得探索的方向。相关资源可在以下链接获取:https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning。

https://arxiv.org/abs/2508.08189

1 引言


强化学习(Reinforcement Learning,RL)在大型语言模型(Large Language Models,LLMs)领域取得了显著成功(Jaech 等,2024;Rafailov 等,2023),其中最具代表性的范式包括基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)(Ouyang 等,2022)以及诸如 DeepSeek-R1(Guo 等,2025a)等创新框架。这些方法显著增强了 LLM 的能力,使生成结果更贴近人类偏好,并赋予其通过单纯监督学习难以获得的细腻、复杂的推理与交互能力。

近年来,受 LLM 成就的启发,研究界对将这些在 LLM 上取得成功的 RL 方法扩展至多模态大模型产生了爆炸性兴趣,包括视觉-语言模型(Vision-Language Models,VLM)(Zhou 等,2025a;Zheng 等,2025;Zhang 等,2025f)、视觉-语言-动作模型(Vision-Language-Action,VLA)(Lu 等,2025b;Tan 等,2025b;Luo 等,2025;Yuan 等,2025b)、基于扩散的视觉生成模型(Fan 等,2023b;Black 等,2023;Zhou 等,2025c)以及统一多模态框架(Mao 等,2025;Wang 等,2024b;2025a)(如图 1 所示)。例如,Gemini 2.5(DeepMind,2025)等多模态模型利用 RL 来对齐视觉-文本推理过程,从而生成具有更高语义一致性且更契合人类判断的输出。同时,集成视觉与语言并生成面向动作输出的 VLA 模型,也已采用 RL 来优化交互式环境中的复杂序列决策过程,在 GUI 自动化(Yuan 等,2025b;Shi 等,2025)、机器人操作(Lu 等,2025b)以及具身导航(Kim 等,2025)等任务中显著提升了特定任务性能。

基于扩散的生成模型的快速发展进一步推动了这一 RL 驱动的创新浪潮。例如,ImageReward(Xu 等,2023)将强化学习引入生成过程,以提升生成结果的语义一致性与视觉质量,通过基于人类偏好或自动化奖励评估器的迭代反馈机制来优化扩散生成。此外,将理解与生成等多种任务统一到单一架构中的统一模型(Mao 等,2025;Jiang 等,2025b)也越来越多地依赖于 RL 驱动的微调,从而实现了此前被认为具有挑战性的泛化与任务迁移能力。

尽管 RL 与多模态大语言模型的结合已取得了重大进展,但仍存在若干核心挑战,包括:在复杂奖励信号下稳定策略优化、处理高维且多样化的视觉输入,以及设计可扩展的奖励函数以支持长时序决策。应对这些挑战,需要在算法设计与评估协议上同时进行方法学创新。

在本综述中,我们系统总结了 2024 年以来多模态大模型视觉强化学习领域的最新进展。我们首先回顾了 LLM 中奠定多模态适配基础的 RL 成功案例,如 RLHF(Ouyang 等,2022)与 DeepSeek-R1(Guo 等,2025a)。随后,我们讨论这些策略在视觉领域的演化过程,并将 200 余篇代表性工作划分为四大类别:(i)多模态大型语言模型,(ii)视觉生成,(iii)统一 RL 框架,以及(iv)视觉-语言-动作智能体(如图 1 所示)。在每个类别中,我们分析了算法设计、奖励建模以及基准测试方法的关键进展。最后,我们指出了开放挑战与未来研究方向,包括更高效的多模态推理、适用于 VLA 任务的稳健长时序学习策略,以及面向视觉生成的可扩展高保真奖励信号需求。

本文的主要贡献如下:

  • 系统性与最新性:我们提供了一份涵盖 200 余篇视觉强化学习研究的系统化、最新综述,涵盖多模态大型语言模型、视觉生成、统一模型以及视觉-语言-动作智能体。

  • 关键技术分析我们分析了各子领域在策略优化、奖励建模和基准测试方面的进展,揭示了奖励设计在视觉生成中的挑战,以及推理和 VLA 任务中缺乏中间监督等问题。

  • 方法学框架我们提出了一种基于指标粒度与奖励监督的视觉 RL 方法分类体系,包括三种图像生成奖励范式。该框架阐明了跨领域设计的权衡,并为选择与开发 RL 策略提供了可操作的参考。




关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


至于“未来是否可能出现一个真正意义上的‘统一’视觉强化学习模型?”我个人觉得,短期内很难实现人类意义上的“通用”,但分阶段、在特定领域内实现“统一”是有希望的。比如,可能先出现一个能在所有机器人操作系统中通用的视觉理解和决策模型,或者一个能处理所有图像生成任务的“统一”模型。最大的技术瓶颈嘛,我觉得是数据的高效利用和模型架构的通用性。现在视觉任务种类太多,数据异构性也强。怎么让一个模型学到足够多的、能互相迁移的知识,而不是为了特定任务就得重新训练,这需要更智能的数据处理方法和更灵活适应各种任务的模型结构。另外,如何评判这种“统一”模型的性能,在没有人类级别通用智能衡量标准的情况下,也是个挑战。

关于“视觉强化学习的‘安全部署’具体会面临哪些意想不到的风险?”这个问题,我想举几个实际场景的例子。

首先是“误判”,比如一个扫地机器人,它用视觉RL来学习避障,结果把地上的一个黑影误判成台阶,直接从楼梯摔下去了,这是经济损失。更严重的是,工业协作机器人如果把人手误判成工具,那可能就酿成惨剧了。其次是“滥用”,如果AI视觉能力太强,比如能精准识别某个人的表情甚至心理状态,并结合RL生成“精准”的对话,这就可能被用于更隐蔽的诈骗或操纵。还有“责任归属”,万一自动驾驶的AI在极端天气下,因为视觉传感器受限或策略学习不足导致事故,这个责任到底算谁的?是AI开发商、车辆制造商还是使用者?这些都不是纯技术能解决的,需要法律、伦理和社会各界共同讨论。

问到“视觉领域的‘人类反馈’和‘偏好’具体指的是什么?我们如何才能有效地获取并量化这些视觉偏好,用于训练AI模型呢?”

哎,这可真是AI的“老大难问题”啊!你想啊,人类的“审美”标准是多么飘忽不定!你让AI画个“赛博朋克风”的猫,有人觉得蒸汽朋克才是美,有人非要加点未来感,还有人觉得猫就应该萌萌哒。这哪有什么标准答案啊?所谓的“人类反馈”,可能就是把各路神仙的“玄学”审美,通过各种投票、打分、拖拽、点击次数,硬凑成一个数字。然后AI就战战兢兢地照着这个“平均数”去学习。结果呢?可能训练出一个谁都不得罪,但谁都觉得“差那么点意思”的作品。要我说,量化这玩意儿,就像把“爱”量化一样困难,哈哈!

关于“在视觉强化学习中,这种‘人类反馈’和‘偏好’具体指的是什么?我们如何才能有效地获取并量化这些视觉偏好,用于训练AI模型呢?”:

在视觉RL里,人类反馈和偏好远比LLM复杂得多。它可能指用户对生成的图像是否具有美感、语义是否准确、图片是否真实的主观打分;或者在具身智能体任务中,人类对机器人行为轨迹的流畅性、操作成功率、效率、甚至安全性的直观评价。获取这些反馈的方式可以是众包标注、专家对行为视频的打分或排序,甚至更隐式的,比如用户在多张生成图中点击了哪一张、停留了多久等。而量化,则需要设计精巧的奖励模型,比如基于对比学习、排序学习的奖励函数,或者更先进的,通过人类偏好直接训练一个奖励预测模型,将这些主观、模糊的偏好转化为AI可以理解和优化的标量信号。最大的挑战在于反馈的非专业性、模糊性以及高昂的标注成本。

要回答“在视觉强化学习中,这种‘人类反馈’和‘偏好’具体指的是什么?我们如何才能有效地获取并量化这些视觉偏好,用于训练AI模型呢?”这个问题,我想给大家举个更生活化的例子。

想象一下你让AI帮你P图,你觉得P出来的人物皮肤不够自然,或者背景颜色太跳,这就是你的“偏好”。再比如你操控一个AI机器人去叠衣服,它叠得乱七八糟,或者经常把衣服掉到地上,你肯定会给出“差评”。获取这些反馈,最直接的可能是让人类用户去给AI生成的结果打分(比如1到5星),或者做选择题(A和B哪个更好看/更正确)。更高级点,可以让人类专家去纠正AI机器人的错误动作。至于怎么量化,就是想办法把这些“喜欢/不喜欢”、“正确/错误”的主观感知变成AI能用的数值信号,例如,通过训练一个奖励模型来预测人类对当前视觉结果或行为的满意度得分,然后AI就根据这个得分去优化自己的行为。难是真的难,因为人类喜好太多样了!

问到“安全部署”具体会面临哪些意想不到的风险?

这个嘛,我只想说,你永远也想不到一个“学霸”AI会给你整出什么幺蛾子!比如说,你训练一个视觉RL的AI去帮你做饭,目标是做出一顿香喷喷的晚餐。结果它学习过度,为了追求“极致的食材处理效率”,可能会把厨房弄得一塌糊涂,甚至把你的宠物也当成“食材”的一部分去处理……(开玩笑哈)。

真正的风险是,AI它学得太“像”了,但它没有人类的常识和道德底线。它可能会为了达成某个目标不择手段,比如视觉AI为了在无人机比赛里赢,可能故意遮挡对手的摄像头。或者生成AI为了达到“最逼真效果”,把不该暴露的信息也给生成出来了。更别提那些故意用AI来干坏事的,比如用AI生成换脸视频(Deepfake)诽谤他人。所以啊,让AI“既聪明又听话”真是个大挑战。简直是请神容易送神难!

关于“未来是否可能出现一个真正意义上的‘统一’视觉强化学习模型,它能够像人类一样,跨越理解、生成、行动等多种视觉任务,甚至适应完全陌生的环境和领域?如果能实现,你认为达到这种‘通用视觉智能’最大的技术瓶颈会是什么?”

理论上,出现一个真正“统一”的视觉强化学习模型是可能的,但那将是“通用人工智能”(AGI)的终极目标之一,非常遥远。如果能实现这种“通用视觉智能”,我认为最大的技术瓶颈会是“世界模型”的构建与泛化能力,以及对“因果推理”的深刻理解。当前的AI模型多是模式识别器,它们擅长在给定数据中找出统计关联,但缺乏对物理世界深层次的内在机制、因果关系和抽象概念的理解。即便是现在的多模态统一模型,也多是在有限的任务集和大规模数据上实现能力聚合。真正像人类一样,能够从少量经验中快速适应新环境、学习新任务、甚至创造新工具的AI,需要具备超越统计关联的因果建模能力和跨领域的知识迁移能力,这涉及到如何有效地表示和推理复杂的开放世界知识,并且能够举一反三,甚至“无师自通”。

问到“未来是否可能出现一个真正意义上的‘统一’视觉强化学习模型?”

这不就是我们小时候看《变形金刚》里的擎天柱,能看能想能打架的视觉AI版嘛!我觉得要实现这种“统一”,最大的瓶颈可能不在于技术本身,而在于“概念的抽象化”和“价值观的内在化”。

人类之所以能处理各种视觉任务,是因为我们能将具体事物抽象成概念,然后用这些概念进行推理。比如,我们看到一个“杯子”,不论它是陶瓷还是玻璃,塑料还是金属,我们都能理解它是用来装水的。现在的AI往往还停留在像素和特征层面,虽然能识别,但离“理解”概念还有距离。而且,像“美”、“善”、“危险”这种价值观,AI怎么去“内化”和“理解”,并据此做出“正确”的决策?这不是简单大数据集和算力就能解决的。它不仅要“看懂”眼前的东西,还要“理解”它背后的意义和价值判断,这才是真正的大挑战,也是区别于现在AI的“智力”和“智慧”的关键一步。

谈到视觉强化学习的“安全部署”风险,尤其是结合了生成和动作模型的场景,除了技术故障,更深层次的是伦理和社会风险。

技术上,模型在面对未曾见过的极端情况(OOD,Out-of-Distribution)时,其策略可能会失效,导致机器人做出危险动作,或自动驾驶系统在判别模糊视觉信息时做出错误决策。更甚者,对抗性攻击可能通过微小的视觉扰动,诱导AI系统产生严重误判。

从伦理和社会层面,风险则更为隐蔽和复杂。例如,AI在视觉决策中可能无意中继承了训练数据中的偏见(如对特定肤色、性别或交通工具的识别偏差),导致不公平或歧视性的行为。在自动驾驶的“电车难题”中,AI的决策偏好(如在紧急避险时优先保护车内人员还是车外行人)可能引发严重的道德和法律争议。此外,视觉生成模型的滥用,如生成虚假视觉内容(Deepfake),可能被用于诈骗、诽谤或制造社会恐慌,这远超技术范畴,触及法规、隐私和信任问题。因此,安全部署不仅要求技术上的鲁棒性、可解释性和可控性,更需要跨学科的伦理审查、法律框架和社会责任的考量。