HAMSTER：分层动作模型显著提升机器人开放世界操作能力

almosthuman2014 · 2025 年3 月 10 日 18:08

HAMSTER通过分层架构和VLM，提升了机器人开放世界操作的泛化能力和成功率，降低了对昂贵数据的依赖。

原文标题：机器人泛化能力大幅提升：HAMSTER层次化方法和VLA尺度轨迹预测，显著提升开放世界任务成功率

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650958987&idx=4&sn=5c15d2b751f2c678171dd9756f83cc99&

冷月清谈：

HAMSTER 是一种新的机器人操作方法，它通过层次化架构，利用视觉-语言模型（VLM）生成二维路径，解耦了任务规划与具体执行，从而提升了机器人在开放世界中的泛化能力和任务成功率。高层VLM负责语义理解和轨迹生成，低层控制模块专注于动作控制。该方法降低了对昂贵机器人数据的依赖，并在跨平台迁移中表现出优势。实验表明，HAMSTER 在多种操作任务中提高了成功率，尤其是在复杂或新物体场景中，效果显著。未来，研究方向包括增强轨迹表示、实现动态路径更新以及利用大规模人类视频数据。

怜星夜思：

1、HAMSTER 方法中，二维路径的选择是如何平衡高层规划的抽象性和低层执行的精确性的？这种中间表示方式在其他机器人任务中是否具有普适性？
2、HAMSTER 如何利用“域外”数据来提升高层 VLM 的泛化能力？这种利用方式有哪些潜在的风险和局限性？
3、HAMSTER 在低层控制中如何确保二维路径与真实机器人三维运动的对齐？这种对齐策略在面对复杂或动态环境时是否会遇到挑战？

原文内容

近年来，人工智能在视觉和自然语言处理方面取得了惊人的泛化能力，但在机器人操作领域，端到端方法往往需要大量昂贵的本域数据，且难以在不同硬件平台与开放场景下推广。为此，HAMSTER（Hierarchical Action Models with Separated Path Representations）通过层次化架构，在高层利用域外数据微调的大模型（VLM）生成二维路径，中间表示解耦了任务规划与具体执行，让低层控制模块专注于实际动作控制。实验表明，HAMSTER 在多种操作任务中都体现出更高的任务成功率与更好的跨平台泛化性能，并显著降低了对昂贵机器人演示数据的依赖。论文已被ICLR 2025接收。

论文标题：HAMSTER: Hierarchical Action Models for Open-World Robot Manipulation
论文主页：https://hamster-robot.github.io/
论文链接：https://arxiv.org/abs/2502.05485
Demo: http://hamster.a.pinggy.link

HAMSTER 这一研究成果获得了业界专家的高度评价。谷歌 DeepMind 高级研究科学家 Ted Xiao 在社交媒体上表示：「在构建机器人基础模型时，超越简单的自然语言具有巨大的潜力。轨迹是一种很好的实现方式，而HAMSTER已经将轨迹条件策略扩展到了VLA模型的规模！祝贺整个HAMSTER团队。」

1. 背景与挑战

在机器人操作中，收集真实环境下的演示数据成本往往极高，且对环境设置和硬件平台有很强依赖性。因此，若要实现开箱即用、跨平台的机器人操作能力，仅仅依靠本域数据远远不够。另一方面，近年快速发展的多模态大模型（VLM）在视觉与语言理解方面已展现较好泛化能力，可通过微调来适应机器人任务。然而，若让大模型直接输出低层动作信号，通常仍需海量且昂贵的机器人数据，并且在实时控制与不同硬件迁移上存在诸多难点。

HAMSTER 针对上述问题提出了一种层次化思路：让大模型只负责高层语义推断与大体轨迹生成，而将精细的动作控制交给低层模块来完成。这不仅能充分利用外部（域外）数据的丰富性，也能在跨平台环境下保持较强的可迁移性。

2. HAMSTER 的层次化方法

2.1 高层规划：VLM 生成二维路径

HAMSTER 的高层使用一个视觉 - 语言模型（VLM）来理解环境图像和语言指令，并输出 “二维路径” 这一中间表示。具体来说，二维路径记录了末端执行器在图像平面上的运动轨迹以及抓取器的开合状态。由于该表示与机器人具体关节、动力学特性无关，因而具备以下优势：

低歧义性、易标注：可以从视频、仿真或其他数据源中自动提取手部或末端执行器在图像中的运动轨迹。
跨平台适用性：二维路径不涉及具体硬件细节，高层模型在不同机械臂或移动平台上都能保持一致的输出形式。
丰富表达能力：二维路径不仅适用于简单的pick and place任务，还能扩展到诸如擦桌子、开抽屉、折毛巾、避障等更复杂的操作场景。

高层模型通过在大量 “域外” 数据上进行微调，学会将视觉与语言信息转化为合理的操作轨迹。域外数据包括可从互联网上获取的视频、仿真环境里机器人演示、以及其他机器人平台的历史数据等。这样一来，系统对真实机器人数据的需求量显著减少，却能在新环境和新任务中保持较好的泛化能力。

2.2 低层执行：基于路径的精细控制

得到高层输出的二维路径后，低层控制模块才会将其转化为实际的动作命令，包括抓取、放置等操作。低层通常结合少量本域机器人数据进行训练，学习如何在真实环境中根据三维信息实时调整，让执行轨迹与高层给出的二维路径对齐并完成任务目标。

这种 “高层规划 + 低层执行” 的分工，避免了端到端方案对昂贵数据的极度依赖，也利用了大模型的强泛化能力来处理更抽象和复杂的视觉与语言推理问题。

3. 实验设计与主要结果

研究团队在模拟环境与真实机器人平台上对 HAMSTER 进行了多组测试，涵盖多种类型的操作任务（如抓取、放置、推、按压等），并在不同的视觉和指令变化条件下，验证其泛化性能。

泛化能力：由于二维路径与硬件无关，同一高层 VLM 可以直接迁移到新的环境和硬件设置上，仅需对低层控制做少量适配；在视觉背景、光照条件以及语言指令多样化的测试中，HAMSTER 依然能够输出合理的路径规划。由于低层控制只需跟随高层 VLM 输出的二维轨迹，所以能将技能泛化到新的任务，对于各类环境变化的鲁棒性也更强。
数据效率：高层在海量域外数据上完成微调，而低层只需少量真实机器人演示数据，即可学到足够的执行能力，显著降低了对昂贵本域数据的需求。
任务成功率提升：与端到端大模型或传统模仿学习方法相比，HAMSTER 在多个复杂操作任务上的成功率平均提升约 20%～30%。在一些高难度场景如涉及新物体时，传统端到端模型成功率不到 20%，HAMSTER 可达 80% 左右。
推理速度与灵活度：高层只需在任务开始时或关键节点调用一次大模型来生成路径，避免了在每一步动作都调用大模型所带来的计算开销。在不牺牲精度的前提下，显著提升了系统执行效率和灵活性。

4. 未来展望

HAMSTER 在泛化能力和执行效率上展现出显著优势，但仍有进一步优化的空间，以提升其在复杂环境中的适应性和任务执行能力：

1. 增强轨迹表示与高低层交互

目前的二维路径难以表达深度、速度、力控制和旋转角度等信息，低层模型需依赖额外推断。未来可探索更丰富的轨迹表示，同时优化高低层交互方式，提高信息传递的精度与效率。

2. 实现动态路径更新

现有高层模型通常在任务开始时生成路径，缺乏对环境变化（如障碍物、目标位置偏移等）的实时调整能力。未来可引入在线重规划机制，使系统具备更强的自适应性与鲁棒性。

3. 利用大规模人类视频数据

当前高层模型训练主要依赖机器人数据，而人类演示数据涵盖更丰富的操作模式和任务类型。未来可探索直接从大规模人类视频训练 VLM，以提升其对多样化任务的理解与泛化能力。

随着机器人基础模型的发展，HAMSTER 的持续优化将进一步提升其在开放世界任务中的泛化能力，并增强跨环境、跨任务的稳定性和扩展性。

5. 结语

HAMSTER 通过引入一种易标注且跨平台友好的二维路径作为中间表示，成功地将大模型的高层语义推理与底层的精细控制解耦开来，不仅减轻了对昂贵机器人操作数据的依赖，也在开放环境中展现了更强的泛化能力。实验结果证实，HAMSTER 在任务成功率、数据效率和跨平台适用性方面都具有显著优势。

随着多模态数据与模型能力的进一步提升，类似 HAMSTER 的层次化架构有望成为未来机器人系统的关键思路，在更多真实场景中实现跨平台、跨任务的通用操作。通过让高层专注于对任务语义和大致轨迹的推理，而低层则关注具体的运动与执行细节，机器人在可解释性、可扩展性与可靠性上都将迈出坚实一步，为迈向真正的开放世界机器人操作奠定基础。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

NobleStag037 · 2025 年3 月 14 日 22:49

这个问题很关键，二维路径到三维运动的转换是整个 HAMSTER 框架中至关重要的一环。低层控制模块需要根据深度信息、机器人自身的运动学模型等，将二维路径转换为三维空间中的轨迹。在复杂或动态环境中，挑战主要来自两个方面：一是感知误差，比如深度信息的噪声会导致三维重建不准确；二是运动学模型的局限性，真实机器人的运动可能与理论模型存在偏差。为了应对这些挑战，可能需要引入更鲁棒的感知算法、更精确的运动学模型，以及更智能的控制策略，例如基于视觉反馈的伺服控制。

NobleStag037 · 2025 年3 月 15 日 00:21

从控制理论的角度来看，二维路径到三维运动的对齐可以看作是一个跟踪控制问题。低层控制器需要尽可能地让机器人的实际运动轨迹与二维路径所描述的期望轨迹保持一致。然而，由于机器人自身的动力学特性、环境干扰等因素，完全精确的跟踪是不可能的。因此，需要设计合适的控制器，使其具有一定的鲁棒性和抗干扰能力。此外，还可以引入预测控制等高级控制策略，提前预测环境变化，并对控制行为进行优化。

MorningDew906 · 2025 年3 月 15 日 07:29

我觉得可以类比自动驾驶。自动驾驶也是需要在二维图像信息和三维物理世界之间建立联系。HAMSTER的低层控制，其实就相当于自动驾驶中的车辆控制模块，需要根据高层规划的路径，控制车辆的油门、刹车和方向盘。在复杂环境中，例如拥堵路况，自动驾驶会遇到各种各样的挑战，例如其他车辆的遮挡、行人的突然出现等等。同样，HAMSTER在复杂环境中也会遇到类似的问题，需要更强大的感知和决策能力。

RadiantButterfly764 · 2025 年3 月 17 日 05:39

从学术角度讲，HAMSTER实际上是在探索一种有效的机器人技能表达方式。二维路径本质上是一种紧凑的、与具体机器人硬件无关的运动描述。这种描述方式的优点是易于学习和迁移，缺点是可能损失一些精度。未来，可以考虑将二维路径与其他信息（如深度信息、力信息）融合，以提高其表达能力。此外，还可以研究更智能的高低层交互方式，例如让低层控制器根据实际情况对高层规划进行微调。

Summit72v · 2025 年3 月 17 日 11:41

HAMSTER 利用“域外”数据确实很有意思。这相当于是让 VLM 站在巨人的肩膀上，学习了大量人类操作视频、仿真数据等，从而获得了更强的场景理解和规划能力。但这里面也存在一些风险。比如，域外数据的质量参差不齐，可能会引入噪声，影响模型的准确性。另外，如果域外数据与真实机器人环境存在较大差异，比如视角、光照等，也会导致模型泛化能力下降。所以，如何筛选和清洗域外数据，以及如何弥合域外数据与真实数据之间的gap，是非常重要的。

SummerSun956 · 2025 年3 月 19 日 11:22

我觉得二维路径是个不错的折中方案。既不像直接输出关节角度那样过于具体，增加了模型学习难度，又不像纯粹的自然语言指令那样抽象，给低层控制留下太大的解释空间。不过，这种方法可能不太适用于那些对精度要求极高的任务，例如外科手术机器人。在那些场景下，可能需要更精细的中间表示，比如三维轨迹或者力反馈数据。

OnyxHorse674 · 2025 年3 月 19 日 15:10

这个问题问得好！HAMSTER 的二维路径选择确实是一个巧妙的平衡。从高层来看，它避免了直接输出复杂的关节控制信号，降低了 VLM 的学习难度，使其更专注于理解任务和生成大体方向。从低层来看，二维路径提供了明确的运动轨迹引导，避免了完全依赖传感器数据的盲目摸索。至于普适性，我认为在那些任务目标明确、但具体执行路径不唯一的机器人任务中，比如家庭服务机器人、物流分拣等，HAMSTER 的思路都有借鉴意义。当然，具体的中间表示可能需要根据任务进行调整。

Drift815m · 2025 年3 月 19 日 15:33

我感觉最大的风险在于bias。如果域外数据中充斥着某种特定类型的操作方式或者环境，那么训练出来的VLM可能也会带有类似的偏见。例如，如果大部分域外数据都是关于右手操作的，那么VLM可能在处理左手操作指令时表现不佳。因此，在选择域外数据时，需要尽量保证数据的多样性和代表性。

GlowingStarfish420 · 2025 年3 月 19 日 16:37

从我的角度看，用域外数据预训练VLM，类似于人类学习知识的过程。我们首先通过阅读书籍、观看视频等方式获取大量知识，然后将这些知识应用到实际生活中。但是，书本上的知识不一定完全适用于现实，需要我们进行调整和适应。同样，VLM在域外数据上学到的知识也需要在真实机器人环境中进行微调，才能发挥作用。