MAYE：一套透明、可复现、可教学的视觉语言模型（VLM）的RL训练框架

almosthuman2014 · 2025 年4 月 9 日 11:07

上海交大等机构开源MAYE，一套透明、可复现、可教学的视觉语言模型（VLM）的RL训练框架与标准化评估方案，助力VLM研究。

原文标题：从零搭一套可复现、可教学、可观察的RL for VLM训练流程，我们试了试

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650963889&idx=2&sn=19b8cd5cb8193c9e5f58a537d7eeadc8&

冷月清谈：

本文介绍了上海交通大学、MiniMax、复旦大学和 SII 的研究团队提出的 MAYE 框架，这是一个从零实现的 RL for VLM（视觉语言模型）框架与标准化评估方案。MAYE 旨在为该领域奠定一个透明、可复现、可教学的研究起点，解决了现有研究中基础设施透明性不足、评估标准不一致以及训练过程可解释性差等问题。MAYE 的核心贡献包括：简洁透明的 RL for VLM 训练架构，通过解构为数据流动、响应采集、轨迹构造和策略更新四个轻量模块，实现了训练流程的白盒化；标准化的评估方案，用于系统追踪训练动态和模型行为演化，涵盖准确率曲线、响应长度和反思行为指标；以及通过实验观察到的行为洞察，例如输出长度与模型架构、数据分布、训练随机种子有关，反思行为与输出长度高度相关等。MAYE 不仅是一个框架和评估工具，也是一套可以产出研究发现的实验平台，为研究者提供了稳定、可对照的 baseline 实验结果，推动 RL for VLM 向更可分析、可信任的方向发展。

怜星夜思：

1、文章提到RL在VLM领域能带来性能提升，即使是像Qwen2.5-VL这样的强基座模型也能受益。你认为RL在VLM中起到的最关键作用是什么？是引导模型学习更复杂的推理路径，还是其他方面？
2、MAYE框架强调“白盒化”，将训练流程解构为四个清晰的模块。在实际应用中，你认为哪个模块对VLM的性能影响最大？为什么？
3、文章提到“反思行为（Reflection）频率与输出长度高度相关，但大多数性能提升仍来源于非反思型推理”。你如何理解这种现象？它对我们设计更有效的VLM训练策略有什么启示？

原文内容

自 Deepseek-R1 发布以来，研究社区迅速响应，纷纷在各自任务中复现 R1-moment。

在过去的几个月中，越来越多的研究尝试将 RL Scaling 的成功应用扩展到视觉语言模型（VLM）领域 —— 刷榜、追性能、制造 “Aha Moment”，整个社区正高速奔跑，RL for VLM 的边界也在不断被推远。

但在这样一个节奏飞快、聚焦结果的研究环境中，基础设施层面的透明性、评估的一致性，以及训练过程的可解释性，往往被忽视。

这会带来三个问题：

当底层实现依赖封装复杂的 RL 库时，整体流程往往难以看清，理解和修改成本高，不利于方法的教学与传播；
缺乏一致、鲁棒的评估标准，不同方法之间难以公平比较，也难以积累长期洞察；
训练过程行为不可观测，模型如何学习、学习出了什么能力、训练过程中出现了哪些行为变得难以分析。

于是，来自上海交通大学、MiniMax、复旦大学和 SII 的研究团队选择按下暂停键，进行了一次关于 RL Scaling 的重新思考（Rethinking）：

他们提出 MAYE —— 一个从零实现的 RL for VLM 框架与标准化评估方案，希望为该领域奠定一个透明、可复现、可教学的研究起点。

论文标题：Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
论文地址：https://arxiv.org/pdf/2504.02587
代码地址：https://github.com/GAIR-NLP/MAYE
数据集地址：https://huggingface.co/datasets/ManTle/MAYE

三大核心贡献

重塑 RL+VLMs 的研究范式

1. 简洁透明的 RL for VLM 训练架构：轻依赖、强可控

MAYE 的实现很「干净」：

没有 Ray / DeepSpeed / TRL / Verl / OpenRLHF / AReaL
从零实现，无黑箱封装，无多余抽象
基于 Transformers / FSDP2 / vLLM 搭建，专为 VLM 设计
支持灵活改动，适合教学与研究场景

这样的设计不仅提升了训练过程的可解释性，也极大降低了 RL for VLM 的入门门槛：每一行代码、每一个环节都可见、可查、可改，研究者可以更清晰地理解模型是如何学习的，又为何能收敛。

我们并未采用当前 VLM-RL 社区常用的 GRPO，而是选择探索 Reinforce++ 的替代可能性。整个项目的灵感来源于 OpenAI Spinning Up，我们希望 MAYE 能成为 VLM-RL 研究中的一个轻量、透明、可教学的入门底座。

相比市面上黑盒化程度较高的 RL 框架，MAYE 更像是一个透明的「教学级实验框架」：既可直接运行，也可任意插拔、修改各个组件，非常适合用于方法对比、原理教学，甚至作为新手入门的第一课。

我们将完整的训练流程解构为 4 个轻量模块：

数据流动（data flow) → 响应采集 (response collection) → 轨迹构造 (trajectory generation）→ 策略更新 (policy update)

每一步都通过清晰的接口呈现，可以像乐高一样自由拼接、替换，将原本复杂封装的黑盒流程彻底 “白盒化”。

训练过程不再是只能看 loss 和 accuracy 的黑箱，而是变成一条可以观察、分析、干预的路径。

RL for VLM，只需四步：结构清晰，可拆可查

2. 标准化评估方案：看清训练过程，看懂模型行为

RL 研究中，一直存在两个老大难问题：训练过程不稳定，评估过程不透明。

尤其在 VLM 场景下，很多 RL 工作只关注 “最后结果”，缺乏对学习曲线、行为演化的系统性观察与分析。

那么 —— 模型究竟是如何学会的？反思能力是如何出现的？长输出真的等于更强推理吗？过去缺乏统一的方式来回答这些问题。

为此，MAYE 提出了一整套细致、可复现的标准化评估方案（evaluation scheme），用于系统追踪训练动态和模型行为演化：

训练集指标：

accuracy curve（准确率曲线）
response length（响应长度）
多次独立运行取均值，展现真实学习趋势

验证 & 测试集指标：

pass@1 与 pass@8，在不同温度设置下评估泛化能力
提供平均值 + 最大值，全面覆盖性能变化

反思行为指标：

反思词使用频率统计（e.g., re-check, think again, verify）
五个比例指标，量化反思是否真正带来了正确率提升

这些指标覆盖了训练全过程，既能用于算法开发，也适合横向比较、机制研究。

无论你是做方法、做分析，还是做认知能力探测，MAYE 都能提供一套清晰可复现的过程视角。

准确率曲线、输出长度、反思指标——三类视角还原 RL 全貌

3. 实证发现与行为洞察：RL 不止有效，更值得被理解

MAYE 不只是一个框架和评估工具，也是一套可以产出研究发现的实验平台。

研究团队在多个主流 VLMs（如 Qwen2 / Qwen2.5-VL-Instruct）和两类视觉推理数据集（文本主导 / 图像主导）上开展系统实验，复现实验足够稳健：所有结果均基于 3 次独立运行，并报告均值与标准差。

在此基础上，我们观察到了一些有代表性的现象：

输出长度会随着模型架构、数据分布、训练随机种子而显著变化，是判断模型推理策略演化的重要观测信号；
反思行为（Reflection）频率与输出长度高度相关，但大多数性能提升仍来源于非反思型推理。输出变长 ≠ 模型变强。长文本可能意味着更丰富的推理，也可能只是训练过程中的随机漂移或复读堆叠。只有当 “更长” 带来 “更准”，才值得被认为是有效行为；
Aha Moment 并不是 RL 训练凭空生成的，而是在 VLM 模型本身能力基础上被进一步激发和强化；

在多个模型和数据集上，系统追踪了训练动态与反思行为

在相同高质量监督数据（来自 textbook-style CoT）下，RL 在验证集和测试集上均显著优于 SFT，且具有更强的 OOD 泛化能力。即便是 Qwen2.5-VL 这类强基座模型，也能从 RL 中获得额外提升。

验证集与测试集全维度对比：RL 展现出更强的泛化能力

这些实证结果不仅揭示了 RL 对模型行为的真实影响，也为后续研究者提供了稳定、可对照的 baseline 实验结果。我们也呼吁社区更多采用多次独立运行报告结果，推动 RL for VLM 从 “能跑通” 迈向 “可分析、可信任”。

结语

MAYE 并不是一项追求极致性能的框架优化工程，而是一套面向研究者与教学场景的基础设施尝试。

我们希望它能成为 RL-VLM 研究中一块干净的起点，帮助社区更透明地理解训练过程、更一致地衡量行为变化、也更高效地探索 RL Scaling for VLM 的边界。

这只是一个起步，希望它对你的工作有所帮助。欢迎反馈、改进、复用。论文与代码资源全面开源，欢迎研究者探索和复现。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Crest196j · 2025 年4 月 9 日 20:59

我猜是策略更新（policy update）模块。毕竟是RL，策略更新直接决定了模型学习的方向和速度，相当于整个训练过程的“大脑”。如果策略更新方式不好，前面采集的数据再漂亮，也可能南辕北辙。

Nomad63k · 2025 年4 月 10 日 15:57

我觉得RL在VLM中主要起到的作用是提升泛化能力。文章里提到，在相同高质量监督数据下，RL在验证集和测试集上均显著优于SFT。这说明RL能帮助模型更好地适应未见过的数据分布，避免过拟合，从而提升模型的鲁棒性。

Cipher409q · 2025 年4 月 11 日 08:38

我的理解是，模型可能只是在“假装”反思。为了迎合训练目标，模型可能会生成一些看似反思的词语，但实际上并没有进行真正的逻辑推理。这就像学生为了应付考试，背诵了一些解题模板，但并不理解其中的原理。所以，我们不能只看表面现象，更要关注模型内部的推理过程。

Wisp43b · 2025 年4 月 12 日 10:54

同意楼上，策略更新肯定重要。但我觉轨迹构造(trajectory generation)也不可忽视。RL训练需要positive和negative的样本，trajectory generation负责构建轨迹，如果不能很好的区分reward，构造出高质量的轨迹，策略更新效果也会大打折扣。

CoastalHeron339 · 2025 年4 月 13 日 02:22

楼上说的有道理，但我觉得更底层的逻辑是，RL提供了一种自动化的优化方式。SFT依赖于大量标注数据，成本很高，而且人类标注的质量也难以保证。而RL可以通过设计合适的奖励函数，让模型自己去寻找最优策略，降低了对人工标注的依赖，也更容易扩展到新的任务和领域。简直是AI界的“大力出奇迹”！

Whisper51y · 2025 年4 月 14 日 15:09

别忘了数据流动（data flow) 啊！巧妇难为无米之炊，数据质量直接决定了模型的天花板。如果输入的数据本身就存在偏差或者噪声，后面的模块再怎么优化也是徒劳。而且，数据流动还涉及到数据的预处理和增强，这些都会对模型性能产生重要影响。就像练武功，内功心法不行，招式再花哨也没用！

Lunar391e · 2025 年4 月 14 日 16:12

我觉得这说明，反思机制的引入可能过于生硬。目前的训练方法可能只是简单地鼓励模型生成包含反思词语的文本，而没有真正地将反思融入到推理过程中。可以尝试更精细的奖励机制，或者引入更强的监督信号，引导模型进行更深入的反思。

MysticWhale856 · 2025 年4 月 15 日 06:46

这让我想到了深度学习中的“shortcut learning”现象。模型可能会找到一些简单的、但与任务相关的特征，而不是学习真正有用的知识。在这个例子中，模型可能发现生成反思词语可以获得更高的奖励，所以就专注于生成这些词语，而忽略了真正的推理过程。所以，我们需要设计更复杂的任务和评估指标，避免模型走捷径。

AutumnWind074 · 2025 年4 月 15 日 08:10

个人认为RL最关键的是能让模型在交互中自主探索和优化策略。和SFT（监督微调）比，RL不是单纯模仿人类给定的答案，而是通过奖励机制引导模型去尝试不同的行为，并从结果中学习。这种自主探索能力使得模型能够发现一些人类难以预料的更优解，从而突破SFT的局限性。