北大MP1:开创机器人学习新范式,实现超高速高成功率操作

北大团队推出MP1机器人学习新范式:首次引入MeanFlow范式,实现毫秒级推理与SOTA成功率,并通过分散损失提升少样本泛化能力。#机器人 #AI

原文标题:MeanFlow再下一城,北大提出机器人学习新范式MP1,实现速度与成功率双SOTA

原文作者:机器之心

冷月清谈:

来自北京大学的研究团队提出了一项名为MP1的全新机器人学习框架,旨在解决现有视觉-语言-动作(VLA)模型在推理速度与任务成功率之间的“根本性权衡”问题,以及机器人操作中数据高效的少样本泛化挑战。MP1首次将近期在图像生成领域取得突破的MeanFlow范式引入机器人学习领域,为其动作生成模型打下基础。其核心创新在于**从数学原理上实现了真正的单步生成(1-NFE)**,模型仅需一次网络前向传播即可从随机噪声生成完整动作轨迹,彻底摆脱了传统迭代式求解器的依赖,从而实现了毫秒级的推理速度且推理时间高度稳定。此外,MP1引入了**分散损失(Dispersive Loss)**,这是一种轻量级正则化项,专门用于解决“特征坍塌”问题,即策略网络将需要不同动作的关键状态错误地映射到相近的潜在空间。分散损失强制不同输入样本的潜在表征相互分散,显著提升了模型对细微场景差异的区分能力,从而大幅改善了在极少量示教数据下的泛化能力,且不增加任何推理开销。在涵盖37个复杂操作任务的Adroit与Meta-World基准测试中,MP1不仅取得了平均78.9%的任务成功率,远超现有流模型和扩散模型,同时在NVIDIA RTX 4090 GPU上实现了平均仅6.8毫秒的推理耗时,比当前最快模型快近2倍。真机部署在ARX R5双臂机器人上的实验也进一步验证了MP1在成功率和任务完成时间上的卓越表现。

怜星夜思:

1、MP1把MeanFlow范式引入机器人学习,实现了单步生成动作,速度快了很多。那大家觉得这种“直出结果”的思路,除了机器人,还能在哪些地方大展拳脚呢?比如图像生成或者其他的?
2、分散损失(Dispersive Loss)听起来很有用,能解决“特征坍塌”,提升少样本学习能力。但有没有什么潜在的缺点或者适用局限性呢?比如数据量特别大时,它还会这么有效吗?
3、MP1在操作成功率和实时性上都做得挺好。大家觉得,如果这种技术大规模普及,对咱们普通人的生活会有啥具体影响?是像电影里那样机器人管家遍地走,还是更偏向工业领域?

原文内容


作者介绍:盛举义,北京大学在读博士研究生,研究方向为机器人操作技能学习方法研究;王梓懿、李培铭,北京大学在读硕士研究生,研究方向为视频理解分析;刘勇,浙江大学控制科学与工程学院教授,研究领域为自主机器人与智能系统;刘梦源,北京大学深圳研究生院助理教授,研究领域为人类行为理解与机器人技能学习。

在目前的 VLA 模型中,「A」— 动作生成模型决定了动作生成的质量以及速度。具体而言,生成式模型在推理速度与任务成功率之间存在 「根本性权衡」。


其中,Diffusion Models(如 Diffusion Policy 和 DP3)通过多步迭代生成高质量动作序列,但推理速度较慢,难以满足实时控制要求;而 Flow-based 模型(如 FlowPolicy)尽管能提供快速推理,但需要额外的架构约束或一致性损失(consistency loss)来保证轨迹的有效性,这增加了设计复杂性并可能限制性能和泛化能力。


此外,机器人操作面临另一个挑战,即数据高效的少样本泛化。标准模仿学习策略容易出现 「特征坍塌(feature collapse)」,即将需要不同动作的关键状态错误地映射到相似的潜在表征 latent representation)上,导致模型在新情境下无法做出准确反应。因此,提升模型对不同状态的区分能力是提高策略泛化性的关键。


为应对上述挑战,来自北大的研究团队提出名为 MP1 的全新机器人学习框架。该框架首次将近期在图像生成领域取得突破的 MeanFlow 范式引入机器人学习,实现毫秒级推理速度,为 VLA 动作生成模型打下基础。



  • 论文标题:MP1: MeanFlow Tames Policy Learning in 1-step for Robotic Manipulation

  • 论文链接:https://arxiv.org/abs/2507.10543

  • 代码链接: https://github.com/LogSSim/MP1


MP1 的核心引擎 ——Mean Flow 范式



MP1 的核心创新在于其生成范式的根本转变。传统 Flow Matching 学习的是一个瞬时速度场(instantaneous velocity field),在推理时需要通过迭代式求解常微分方程(ODE)来积分生成轨迹,这一过程不仅耗时,且会引入并累积数值误差。与之相反,MP1 直接学习从初始噪声到目标动作的区间平均速度场(interval-averaged velocity field)。


技术上,MP1 利用了 「MeanFlow Identity」,使模型能够直接对平均速度场进行建模,而无需在推理时进行任何积分求解。这一设计带来了两大核心优势:


  • 真正的单步生成(1-NFE):模型仅需一次网络前向传播,即可从随机噪声直接生成完整动作轨迹,彻底摆脱了对迭代式 ODE 求解器的依赖。

  • 无约束的简洁性:得益于其数学形式的完备性,MP1 天然保证了轨迹质量,无需引入 FlowPolicy 等方法所依赖的外部一致性约束,使模型设计更为简洁、优雅。


这种从数学原理上解决问题的方式,而非依赖工程技巧进行修补,使得 MP1 不仅实现了速度的飞跃,更重要的是,其单次、确定性的前向传播过程保证了推理时间的高度稳定,这能够保证机器人操作任务中的实时性。


分散损失提升少样本泛化能力

在解决轨迹生成的动态问题后,MP1 针对机器人学习中的 「表征坍塌」 问题进行了改进。该问题指的是策略网络将需要不同动作的关键状态错误地映射到相近的潜在空间位置,从而导致模型在少样本学习中泛化能力下降。


MP1 引入了来自表征学习领域的最新方法 —— 分散损失Dispersive Loss)。这是一种轻量级、仅在训练阶段生效的正则化项,旨在直接优化策略网络的内部表征空间。其核心思想是在训练的每个 mini-batch 中,对不同输入样本的潜在表征施加一种 「排斥力」,强制它们在特征空间中相互分散。该损失可以被理解为一种 「无正样本的对比损失」:策略网络主要的回归目标负责将每个状态 「拉向」 其对应的专家动作,而分散损失则负责将不同状态的表征相互 「推开」,从而塑造出一个更具辨识度的特征空间。


分散损失的关键优势在于它是一个仅在训练时生效的正则化器,在不增加任何推理开销的前提下,显著提升了模型区分细微场景差异的能力,完美保留了 MP1 标志性的毫秒级响应速度。在数据采集成本高昂的机器人领域,这种能从极少量(如 5-10 个)示教中高效学习的能力至关重要。


MP1 的仿真测试表现


MP1 的性能优势在涵盖 37 个复杂操作任务的 Adroit 与 Meta-World 基准测试中得到了验证。


出色的任务成功率与稳定性



在任务成功率方面,MP1 平均成功率达到 78.9%,相较于当前先进的流模型 FlowPolicy (71.6%) 和扩散模型 DP3 (68.7%),分别实现了 7.3% 和 10.2% 的显著提升。


尤为关键的是,MP1 的优势在更高难度的任务中愈发凸显。在 Meta-World 的 「中等」、「困难」 及 「非常困难」 任务集上,MP1 相较于 FlowPolicy 的成功率增幅分别高达 9.8%、17.9% 和 15.0% 。此外,MP1 展现出极高的性能稳定性。在多次随机种子实验中,其成功率的平均标准差仅为 ±2.1%,远低于其他基线方法,证明了其结果的高度可靠性与可复现性。


卓越的推理效率与实时控制能力


在实现更高成功率的同时,MP1 的推理速度同样刷新了纪录。在 NVIDIA RTX 4090 GPU 上,其平均推理耗时仅为 6.8ms



这一速度比当前最快的流模型 FlowPolicy (12.6 ms) 快了近 2 倍,更比强大的扩散模型 DP3 (132.2 ms) 快了 19 倍。如此低的延迟意味着 MP1 的决策环路完全满足机器人领域典型的实时控制频率(通常为 20-50 毫秒)。


少样本学习能力验证


为了进一步验证分散损失在提升模型数据效率上的作用,研究团队还进行了少样本学习的消融实验。



实验结果表明,MP1 在所有数据量级上均一致地优于 FlowPolicy,尤其是在示教数据极为稀少(如 2-5 个)的极端少样本场景下。这有力地证明了分散损失通过优化内部表征空间,能够有效提升策略少样本学习的泛化能力,这可以降低真机部署时大量数据的需求。


MP1 的真机验证



研究团队将 MP1 部署于一台 ARX R5 双臂机器人上,并在五个真实的桌面操作任务中进行了测试。


实验结果进一步印证了 MP1 的性能。在所有五项任务中,MP1 均取得了最高的成功率和最短的任务完成时间。以 「Hummer」 任务为例,MP1 的成功率高达 90%,远超 FlowPolicy 和 DP3 的 70%;同时,其平均任务耗时仅 18.6 秒,显著快于 FlowPolicy(22.3 秒)和 DP3(31.1 秒)。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

如果MP1这种高成功率和毫秒级响应的机器人技术大规模应用,我觉得最先受益的肯定是工厂自动化、智能仓储和智慧农业这些领域。机器人会变得更“聪明”,能够处理更多样化的任务,柔性生产线会更普及。这会降低制造成本,提高产品质量,咱们买东西可能会变得更便宜,选择更多。至于家用机器人,MP1解决了操作准确性和速度的核心问题,让它们更“好用”,那后续的问题就是如何做得更便宜、更安全,以及适应人类家庭那些没啥规律的“混沌”环境了。这是一个漫长的过程,但至少,我们离那个“机器换人”的时代又近了一步,只是这个换人更多的是指那些重复性高、危险性高的工作。

哈哈,我觉得能直接单步生成,那简直就是魔法!除了机器人的动作生成,我突然想到在UI/UX设计的AI辅助工具里,如果能做到“你告诉我大概需求,AI秒出设计稿”,或者在自动代码生成领域,直接吐出符合复杂逻辑的代码片段,那工作效率不得起飞啊!甚至在药物分子设计里,如果能快速生成特定结构的分子,那研究速度会快N倍!核心就是:凡是现在需要“一步步算”才能出结果的AI生成领域,都有可能被这种“直出”模式颠覆。

哈哈,电影里那种机器人管家估计还得等很久,但MP1这种技术普及了,我们能最直观感受到的,大概就是快递和外卖可能变得更准时、更少出错了!送货机器人遇到复杂路况和上下楼梯可能都不会卡壳了。还有,你去看牙医或者做手术,未来的医疗机器人会操作得更精准、更稳定。对我们普通人来说,它意味着很多服务会变得更高效、更安全。至于会不会有机器人管家,我觉得在它能顺利帮我洗碗、叠衣服之前,先让它把外卖准时送到楼下再说吧!:joy:

嗯,说到MeanFlow的单步生成,我脑海里立刻浮现出各种游戏应用场景。比如NPC的行为决策,以前可能需要复杂的模拟和判断,现在直接一个前向传播就能生成一套连贯的动作,让NPC显得更智能、响应更快。还有在线直播和视频会议中的实时美颜、背景替换,以及虚拟数字人的表情、动作生成等,这些都对实时性有极高要求。如果能“秒级”生成,用户体验会大大提升。这范式就是把“时间就是金钱”体现到了极致!

是的,分散损失作为一种正则化项,旨在解决特征空间的“坍塌”问题,特别在少样本场景下表现出色。然而,任何正则化策略都有其潜在的局限性。理论上,过度强调“分散”可能会导致模型在学习非常相似但又微妙不同的样本时过度区分,反而丢失掉一些有用的共享信息。当数据量非常大且多样性足够时,其实模型本身就更容易学习到辨识度高的特征,此时分散损失的作用可能会变得不那么显著,甚至如果优化不当,可能反而增加训练难度或引入不必要的计算负担。因此,找到最佳的平衡点很重要,它不是万能药,而是针对特定问题(如少样本、特征坍塌)的有效工具。

哟,问到点子上了!“分散损失”听起来高大上,但我觉得它就像给特征空间打散,让它们保持距离。如果数据量特别大,而且数据本身就足够多样、特征差异明显,那模型可能通过正常的训练就能把这些特征分得很开,分散损失可能就没那么“惊喜”了。而且,任何额外的损失函数都会增加训练的复杂性,你得调参数,搞不好还会引出新的过拟合或者收敛慢的问题。所以,它更像是雪中送炭,而不是锦上添花。在数据充裕的情况下,可能效果就不那么惊艳了。

我觉得短期内,MP1这类技术大规模普及的影响会更偏向工业和专业服务领域。想象一下,物流仓库里的分拣机器人更精准、更快速;制造业流水线上的协作机器人能应对更多复杂、精细的任务;甚至是一些危险环境(如核电站、深海探测)下的特种机器人,也能有更灵敏、更可靠的操作能力。这些能极大提升效率,降低成本和风险。至于机器人管家遍地走,那不仅是技术问题(如长航时、多种物体识别、软体抓取等),更是成本和社会伦理问题,这需要更长时间的积累和突破。但MP1无疑是向那个目标迈进的重要一步,因为它解决了‘手’和‘脑’协同的关键障碍。

问得好!MeanFlow这种“真·单步生成”的思路,核心优势在于摆脱了迭代求解带来的耗时和误差累积。我觉得除了机器人,它在所有需要实时、低延迟、且对结果稳定性要求高的生成任务中都有巨大潜力。比如:实时高清视频生成(想想电影特效或者游戏内的实时渲染,速度就是生命!)、交互式AI艺术创作(用户画一下立刻出图,而不是等半天)、甚至在某些科学模拟领域,如果能快速“预估”复杂系统的状态,也能大大加速研究进程。它的通用性应该比我们想象的要广。

嗯,这个问题蛮有意思的。我觉得分散损失的局限性,可能就像给一堆本来就有序的扑克牌,你非要再给它们“分散”一下。如果你的数据集已经够大够多样,特征空间本身就自然而然地分开了,那额外加一个分散损失可能就显得有点多余,甚至可能引入不必要的噪音或者计算量。而且,凡是加正则项,都得注意不能过头,不然可能把本来应该联系起来的特征也给“掰开”了,导致模型在某些边缘情况下的泛化能力反而下降。所以,使用它的时候,还是得根据具体数据集和任务来权衡利弊。