UI-R1:vivo开源,仅用136张截图,强化学习提升GUI智能体动作预测

vivo开源UI-R1,创新性地将强化学习引入GUI智能体,仅用少量高质量数据即实现动作预测性能显著提升,跨领域泛化能力惊人。

原文标题:UI-R1|仅136张截图,vivo开源DeepSeek R1式强化学习,提升GUI智能体动作预测

原文作者:机器之心

冷月清谈:

vivo和香港中文大学的研究团队,受DeepSeek-R1启发,将基于规则的强化学习(RL)应用于GUI智能体领域,提出了UI-R1模型。该模型通过精心设计的奖励函数(包括动作类型、动作参数和格式规范奖励)和高质量的数据筛选策略,仅使用136个样本就实现了显著的性能提升。模型采用群体相对策略优化算法GRPO,无需额外的评论家模型,通过比较同一问题的多个不同回答来学习。实验结果表明,UI-R1在AndroidControl基准测试中,行为类型准确率和定位准确率均有提升,且在桌面端和网页平台等跨领域数据上表现出色,超越CogAgent-18B等大模型。研究还发现,数据质量比数量重要,困难样本更有价值,且强化微调能有效提升难样本的准确率。未来,研究团队计划将UI-R1从RFT拓展到SFT + RFT的组合,实现大规模UI数据下统一的思考、决策、规划的GUI Agent大模型。

怜星夜思:

1、UI-R1仅用少量数据就能取得如此好的效果,你认为在其他AI领域,这种“小而精”的数据策略是否具有普适性?它的局限性可能是什么?
2、UI-R1在跨领域泛化能力上表现出色,你认为这种能力主要归功于奖励函数的设计还是强化学习的训练方式?或者两者兼有?
3、文章提到UI-R1未来将探索SFT + RFT的组合,你认为这种组合方式能够解决当前RFT方法的哪些问题?又可能带来哪些新的挑战?

原文内容


基于规则的强化学习(RL/RFT)已成为替代 SFT 的高效方案,仅需少量样本即可提升模型在特定任务中的表现。


该方法通过预定义奖励函数规避人工标注成本,如 DeepSeek-R1 在数学求解中的成功应用,以及多模态领域在图像定位等任务上的性能突破(通常使用 IOU 作为规则 reward)。


vivo 与香港中文大学的研究团队受到 DeepSeek-R1 的启发,首次将基于规则的强化学习(RL)应用到了 GUI 智能体领域。



  • 论文标题:UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning

  • 论文地址:https://arxiv.org/abs/2503.21620

  • 项目主页:https://yxchai.com/UI-R1/

  • 项目代码:https://github.com/lll6gg/UI-R1


简介


本研究创新性地将规则 RL 范式拓展至基于低级指令的 GUI 动作预测任务。具体实现中,多模态大语言模型为每个输入生成包含推理标记和最终答案的多条响应轨迹,在训练和测试时的 prompt 设计如下:



随后通过我们设计的奖励函数评估每条响应,并采用 GRPO 等策略优化算法更新模型参数。该奖励函数包含三个维度:


  • 动作类型奖励:根据预测动作与真实动作的匹配度计算;

  • 动作参数奖励(聚焦点击操作):通过预测坐标是否落入真实边界框评估;

  • 格式规范奖励:评估模型是否同时提供推理过程和最终答案。


数据制备方面,仅依据难度、多样性和质量三原则筛选 130 余个移动端训练样本,展现出卓越的数据效率。实验表明,UI-R1 在桌面端和网页平台等跨领域(OOD)数据上均取得显著性能提升,印证了规则 RL 处理跨领域复杂 GUI 任务的潜力。


方法:强化学习驱动的 GUI 智能体



我们提出的 UI-R1 模型采用了三个关键创新:


1. 独特的奖励函数设计


研究团队设计了专门针对 GUI 任务的奖励函数:R = R_T + R_C + R_F


R_T:行为类型奖励(点击、滑动、返回等)

R_C:坐标准确度奖励(点击位置是否准确)

R_F:格式奖励(输出的格式是否正确)


2. 精心筛选的高质量数据


与其使用大量普通数据,我们提出采用了「质量优先」的策略,从三个维度精选训练数据:


质量:选择标注准确、对齐良好的样本

难度:专注于基础模型难以解决的「困难」样本

多样性:确保涵盖各种行为类型和元素类型


最终只使用了 136 个高质量样本,比传统方法少了几百甚至上千倍,就能够训练得到比 SFT 方式更优的效果。


3. 群体相对策略优化算法


UI-R1 采用了一种名为 GRPO(Group Relative Policy Optimization)的算法。这种算法不需要额外的评论家模型,而是通过比较同一问题的多个不同回答来学习什么是「好」的回答。


实验结果


1. 域内效果提升明显



在 AndroidControl 基准测试上,UI-R1-3B 与基础模型 Qwen2.5-VL-3B 相比:


  • 行为类型准确率提高了 15%

  • 定位准确率提高了 10.3%


2. 域外泛化能力惊人



UI-R1 在从未见过的桌面 PC 端和网页界面上表现同样出色:


  • 在 ScreenSpot 测试中,UI-R1-3B 的平均准确率达到 78.6%,超越 CogAgent-18B 等大模型。


  • 在专业高分辨率环境 ScreenSpot-Pro 测试中,UI-R1-3B 达到 17.8% 的平均准确率,提升了与使用 76K 数据训练的 OS-Atlas-7B(18.9%)性能相当。


分析


我们关于 UI-R1 做了一系列分析,研究发现:在 GRPO 的强化学习微调的方式下,数据质量比数据数量重要



  • 困难样本更有价值按难度选择的方法比随机选择的性能显著更好。


  • 数据增长收益递减:随着训练数据量增加,性能提升趋于平缓。


  • 精选小数据集比大数据集更有效:三阶段数据选择方法优于使用整个数据集或者随机筛选相同数量的子集。


此外,我们还发现动作预测的难度与思考的长度之间存在关联:思考长度越长,准确率越低(说明问题越难),但通过 UI-R1 形式的强化学习微调之后,对于难样本的成功率提升也更加明显。



这一现象证明了强化微调的价值,通过让模型自主思考来提升难样本的准确率,这个特性是之前的监督微调所难以获得的。


未来探索方向


UI-R1 初步探索了大模型强化学习和推理技术在 GUI Agent 领域的应用。下一步,我们将尝试将 UI-R1 从 RFT 拓展到 SFT + RFT 的组合,实现大规模 UI 数据下统一的思考、决策、规划的 GUI Agent 大模型。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


同意楼上的观点,奖励函数像是导航系统,强化学习是车辆本身。导航系统指对了路,车辆才能到达目的地。如果导航系统给出的路线是错误的,那么车辆再努力也无法到达正确的目的地。UI-R1在跨领域泛化能力上的表现,很大程度上取决于其奖励函数是否能够引导模型学习到通用的GUI操作模式。

我觉得两者都功不可没。奖励函数的设计引导模型学习到通用的GUI操作原则,而强化学习的训练方式则鼓励模型自主探索和适应不同的环境。两者结合,才能让模型在面对新的GUI界面时,能够快速找到正确的操作方式。

个人觉得“小而精”的数据策略在特定领域是有普适性的,尤其是在数据获取成本高昂或者标注难度大的情况下。比如医疗影像分析、罕见病诊断等领域,高质量数据的价值会非常突出。但是,这种策略的局限性也很明显,它可能难以覆盖所有场景,导致模型泛化能力受限。如果数据选择的偏差较大,也可能导致模型出现偏见。

“小而精”策略,类似知识蒸馏?感觉有点像,都是先用少量高质量数据训练,然后再用大量数据精调。局限性也在这里,首先得有高质量的数据,这个是最难的。其次,这种策略可能只在特定任务上有效,例如GUI这种相对比较规范的任务。

个人倾向于奖励函数的设计更重要。强化学习只是提供了一种学习方式,但模型最终学到什么,很大程度上取决于奖励函数的引导。如果奖励函数设计得不好,模型可能会学到一些奇怪的策略,导致泛化能力下降。UI-R1的奖励函数考虑了动作类型、坐标准确度和格式规范,这三个方面都与GUI操作的本质相关,因此能够提升模型的泛化能力。

“小而精”的数据策略背后的逻辑是提升数据利用率,避免大量低质量数据带来的噪音。这种思路在算力受限或者需要快速迭代的场景下尤其有价值。但长期来看,模型最终还是要见过足够多的“世面”才能真正具备鲁棒性。所以,我觉得“小而精”可以作为一种起步策略,但不能替代大规模数据训练。

我理解SFT + RFT 的组合是为了扬长避短。SFT 擅长学习通用知识,但对特定任务的优化能力有限;RFT 擅长解决特定问题,但对数据质量要求高。两者结合,既可以利用大规模数据提升模型的通用能力,又可以通过强化学习提升模型在特定任务上的表现。新的挑战在于如何设计一个有效的训练流程,让 SFT 和 RFT 两个阶段能够相互促进,而不是相互干扰。

SFT + RFT 的组合,我认为可以解决 RFT 在大规模数据利用上的不足。RFT 对数据质量要求高,难以直接应用到海量数据上。SFT 可以先利用大规模数据进行预训练,让模型具备一定的 GUI 操作基础,然后再用 RFT 进行精调,提升模型在特定任务上的表现。但是,这种组合方式也可能带来新的挑战,比如如何平衡 SFT 和 RFT 两个阶段的学习目标,避免模型在精调过程中忘记预训练的知识。

感觉SFT就像是给模型打个基础,教它GUI的基本概念和操作方式,RFT就像是给模型上个强化班,专门提升解决特定问题的能力。这种组合方式的难点在于如何设计 RFT 的奖励函数,使其能够充分利用 SFT 学习到的知识,同时避免对 SFT 造成负面影响。如果奖励函数设计得不好,可能会导致模型在强化学习过程中“跑偏”,最终效果还不如单独使用 SFT。