清华等机构发布CLAP框架:让机器人看视频学技能成为可能

清华等提出CLAP框架,让机器人从视频学习技能,解决数据饥荒,加速产业化。

原文标题:让机器人看视频学操作技能,清华等全新发布的CLAP框架做到了

原文作者:机器之心

冷月清谈:

清华大学等机构联合提出的CLAP框架,旨在解决机器人学习中长期存在的“数据饥荒”问题。该框架通过对比学习的方式,将人类视频中的视觉状态转移映射到机器人可执行的动作空间中,从而使机器人能够从海量的互联网视频中学习技能。相较于传统的潜在动作模型,CLAP有效避免了“视觉纠缠”问题,提高了数据利用效率,降低了机器人技能获取的成本。研究团队还提出了CLAP-NTP和CLAP-RF两种VLA建模范式,分别擅长指令跟随和精细化操控。此外,知识匹配(KM)正则化策略的引入,有效缓解了模型微调过程中的灾难性遗忘现象。实验结果表明,CLAP在真实世界任务中表现出色,并具有良好的鲁棒性,为机器人产业化进程提供了新的发展方向。

怜星夜思:

1、CLAP框架的核心在于解决“视觉纠缠”问题,那么,除了对比学习,还有没有其他可能的方案来避免或缓解这个问题?
2、CLAP框架中提到的知识匹配(KM)正则化策略,对于防止灾难性遗忘至关重要。那么,在实际应用中,如何选择合适的KM正则化强度?过强和过弱分别可能带来什么问题?
3、CLAP框架目前主要关注的是机器人操作技能的学习,未来是否可以扩展到其他领域,例如,让AI通过观看教学视频学习绘画、音乐等艺术技能?

原文内容

近日,清华大学与星尘智能、港大、MIT 联合提出基于对比学习的隐空间动作预训练(Contrastive Latent Action Pretraining, CLAP)框架。这个框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,也就是说,机器人能够直接从视频中学习技能!


  • 论文标题:CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos

  • 论文地址:https://arxiv.org/abs/2601.04061

  • 项目地址:https://lin-shan.com/CLAP/


引言


长期以来,机器人学习面临着一个令人头疼的「数据饥荒」难题:互联网上有着数以亿计的人类行为视频,但专门用于训练机器人的数据却寥寥无几。


这种数据不对称现象的根源在于,收集机器人操作数据需要昂贵的硬件设备、专业的操作环境,以及大量的人工标注工作,成本高昂且效率低下。相比之下,人类行为视频数据虽然丰富,但由于视觉表征与机器人动作空间之间存在巨大的语义鸿沟,传统方法难以有效利用这些资源。


现有的潜在动作模型(Latent Action Models)试图利用视频数据,但往往会遭遇「视觉纠缠」(visual entanglement)问题 —— 模型学到的更多是与实际操控无关的视觉噪声,而非真实的操控技能。


CLAP 框架的核心创新正是解决了这一长期困扰业界的技术瓶颈。该框架能够将视频中提纯的运动空间与机器人的动作空间进行对齐,有效避免了以往潜在动作模型中普遍存在的「视觉纠缠」问题。通过对比学习,CLAP 将视频中的状态转移映射到一个量化的、物理上可执行的动作码本上。


研究团队基于两种 VLA 建模范式进行训练:其一是 CLAP-NTP,一种自回归模型,在指令跟随与对象泛化方面表现突出;其二是 CLAP-RF,一种基于 Rectified Flow 的策略,面向高频率、精细化的操控。


这一技术突破的实际意义体现在多个层面。首先,从数据利用效率来看,CLAP 框架使得机器人能够从 YouTube、抖音等平台上的海量视频中学习技能,极大扩展了可用训练数据的规模。其次,从成本效益角度分析,这种「看视频学技能」的方式显著降低了机器人技能获取的门槛。


此外,该框架还解决了机器人学习中的一个关键技术挑战 —— 知识迁移问题。通过知识匹配(Knowledge Matching, KM)正则化策略,CLAP 有效缓解了模型微调过程中的灾难性遗忘现象,确保机器人在学习新技能的同时不会丢失已掌握的能力。


从产业应用前景来看,CLAP 框架的长期价值不仅在于技术创新,更在于其对机器人产业化进程的推动作用。当机器人能够通过观看视频快速掌握新技能时,企业部署机器人的成本和周期将大幅降低,这有望加速机器人在服务业、制造业等领域的规模化应用。


详解 CLAP 框架


研究团队构建了一个统一的视觉 - 语言 - 动作(VLA)框架,使其能够同时利用机器数据的动作精确性大规模无标注人类视频演示的语义多样性。框架分为两个相互衔接的阶段:


  • 通过 CLAP 进行跨模态对齐:建立共享的潜在动作空间,弥合无标注人类视频与有标注机器人轨迹之间的监督缺口。该过程基于对比学习进行隐空间动作预训练(CLAP):它将人类视频中的视觉状态转移「锚定」到一个量化的、物理上可执行的动作空间中。


  • 分层策略训练:研究团队通过连续训练两个 VLA 模型,将语义理解与控制动力学有效解耦:


  1. CLAP-NTP:采用「下一词元预测」(Next-Token-Prediction)训练的 VLA,擅长指令跟随与任务规划;

  2. CLAP-RF:包含一个 VLM 模型与一个采用 Rectified Flow 训练的动作专家,以实现高频、精确控制。


为高效适配新的本体形态并防止预训练先验在微调中发生灾难性遗忘,研究团队进一步提出知识匹配(Knowledge Matching, KM)微调策略:一种正则化方法,在微调过程中将策略更新锚定在可信区域内。


实验结果



大量实验表明,CLAP 显著优于强基线方法,使得从人类视频中学习到的技能能够有效迁移到机器人执行中。


下表 1 为初始设置下,CLAP 与基线方法在真实世界任务中的性能比较。



下表2 为 CLAP 与基线方法在环境扰动下的鲁棒性评估。


更多实验结果请参阅原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

KM策略就像给模型的学习过程加了个“锚”,让它在学习新知识的时候,不至于把之前学的东西忘得一干二净。我觉得,持续学习(Continual Learning)领域的一些方法也可以借鉴,比如EWC(Elastic Weight Consolidation),通过限制重要参数的改变来保护旧知识。

楼上说的有道理,我觉得关键在于动作的抽象和量化。对于绘画和音乐来说,动作可能不仅仅是物理上的动作,还包括一些更抽象的概念,例如构图、色彩搭配、节奏感等等。如何将这些抽象的概念转化为机器可以理解的动作指令,是一个挑战。此外,还需要考虑如何评估AI的学习效果。对于机器人操作来说,可以通过完成任务的成功率来评估。但是对于艺术技能来说,评估标准可能更加主观,需要引入一些新的指标。

还可以试试数据增强! 专门针对那些容易引起视觉纠缠的因素进行增强,比如光照变化、遮挡等等。 这样训练出来的模型可能对这些干扰更具有鲁棒性。如果数据量够大,说不定能走出一条新路子。

楼上说的有道理,注意力机制确实值得考虑。另外,我觉得还可以尝试使用更强的视觉表征学习方法,例如自监督学习或者transformer模型,来提取更鲁棒的视觉特征,从而减少视觉噪声的干扰。或者,可以尝试将视觉信息与其它模态的信息进行融合,例如语音或文本,来提供更全面的上下文信息。

我觉得完全有可能!CLAP的本质是建立视觉信息和动作指令之间的映射关系。绘画和音乐虽然看起来和机器人操作不太一样,但本质上也是一系列动作的组合。比如,绘画可以分解为笔触的动作,音乐可以分解为乐器演奏的动作。只要能够将这些动作进行量化,就可以利用CLAP框架进行学习。当然,可能需要对框架进行一些调整,例如引入更复杂的视觉表征学习方法,或者加入一些先验知识。

AI 绘画已经很火了, midjourney之类的,我觉得这个方向更有前景。 让AI 去做重复性的工作,比如识别一些画作,或者辅助人类进行创作。 如果能够结合 CLAP 框架,让 AI 能够理解绘画的动作,那么就可以实现更高级的功能,例如自动生成绘画过程的视频,或者根据用户的指令进行绘画。

这个问题问到了点子上!KM正则化的强度选择确实很关键。如果太弱,那基本就起不到作用,模型还是会忘记之前的知识。但要是太强,又会限制模型学习新知识的能力,导致性能下降。所以,我的看法是,可以先通过实验确定一个大致的范围,然后再根据实际情况进行微调。比如,可以设置一个验证集,监控模型在新任务和旧任务上的表现,然后根据验证集上的指标来调整正则化强度。

还可以从loss函数的角度下手。设计一个loss,让模型在学习新知识的同时,尽量保持对旧知识的记忆。例如,可以在loss函数中加入一个正则化项,惩罚那些会使模型忘记旧知识的参数更新。这种方法需要仔细设计正则化项的形式,才能达到最佳的效果。

我觉得除了验证集,还可以考虑使用一些自适应的方法来调整正则化强度。例如,可以根据模型在训练过程中的表现,动态地调整正则化强度。如果模型在新任务上的loss下降很快,但是在旧任务上的loss上升很快,那就说明可能发生了灾难性遗忘,需要加强正则化。反之,如果模型在新任务上的loss下降很慢,但是在旧任务上的loss保持稳定,那就说明可以适当减弱正则化。

我个人觉得,除了对比学习,引入注意力机制或许也能有效缓解“视觉纠缠”问题。通过让模型更加关注与任务相关的视觉信息,减少对无关噪声的关注。比如,可以在模型中加入一个注意力模块,让它学习哪些像素或区域对于动作预测是最重要的。