FOREWARN:具身智能的“预见”与“深思”,让机器人学会风险预判与策略调整

FOREWARN框架结合世界模型与多模态语言推理,让机器人在部署阶段具备风险预判和策略调整能力,显著提升具身智能的可靠性。

原文标题:想清楚再动手:具身智能也要学会脑补未来和择优执行 | RSS 2025

原文作者:机器之心

冷月清谈:

卡耐基梅隆大学与伯克利人工智能研究院的研究团队提出了名为FOREWARN的全新框架,旨在解决具身智能系统在部署阶段缺乏“推理能力”的问题。FOREWARN框架创造性地结合了“世界模型”与“多模态语言推理”,通过“预见(Foresight)”与“深思(Forethought)”两大模块,将复杂的决策过程拆解为“模拟未来”与“评估未来”,从而实现在机器人部署阶段对模仿学习策略的在线评估与动态校正。该框架实现了全流程自动化决策,无需人工干预,并展现出强大的泛化能力和稳健性。实验结果表明,FOREWARN能够显著提升机器人在真实环境中的任务成功率,并有效应对任务变化、用户偏好改变或感知输入干扰等情况。研究团队也指出了FOREWARN未来发展的三大挑战:提升底层生成策略的多样性与泛化能力、解决世界模型对大规模数据依赖的问题、优化推理效率与算力成本。

怜星夜思:

1、FOREWARN框架中,世界模型和多模态语言模型是如何协同工作的?这种协同方式解决了具身智能的哪些关键问题?
2、文章提到FOREWARN框架在数据稀缺场景下性能可能下降,那么,在实际应用中,有哪些方法可以缓解这个问题,提高框架在数据匮乏环境下的适应性?
3、FOREWARN框架强调了“部署智能”的重要性,那么,除了文中提到的世界模型和多模态语言模型,还有哪些技术或方法可以提升具身智能的“部署智能”,让机器人更好地适应真实世界的复杂环境?

原文内容


本文的第一作者吴怡琳现为卡内基梅隆大学机器人学院二年级博士生,导师为 Prof. Andrea Bajcsy。她的研究聚焦于开放世界场景下的物体操控与机器人终身学习。吴怡琳本科毕业于上海交通大学,并于斯坦福大学取得计算机科学硕士学位。她曾与 Prof. Pieter Abbeel、Prof. Lerrel Pinto、Prof. Dorsa Sadigh 及 Prof. David Held 等多位专家合作,开展可变形物体操控、双臂协作操作及辅助喂食机器人等方向的研究,获得过 ICRA 最佳论文,CoRL 的 oral 论文录用。目前,她正在 NVIDIA 西雅图机器人实验室参与暑期研究,继续推进具身智能模型在复杂场景下的可扩展性与部署能力。


第二作者田然是 UC Berkeley 即将毕业的博士生同时在 NVIDIA 担任研究科学家,研究方向致力于推动机器人基础模型在真实世界中实现大规模、安全、可信的落地应用。他的研究系统性地探索了机器人基础模型在预训练、后训练到实际部署各阶段中所面临的安全与偏好对齐挑战。他的工作获得了多个最佳论文和国际奖项的肯定,包括:世界人工智能大会云帆奖、高通创新奖学金、ICRA 最佳论文、ICLR Spotlight 、百度奖学金 Finalist、Robotics: Science and Systems Pioneer、以及 Microsoft Future Leaders in Robotics & AI。


该研究工作获得 2025 ICLR World Model Workshop 最佳论文奖,并已被 2025 Robotics: Science and Systems(RSS)会议正式接收。


近年来,基础模型在具身智能领域展现出惊人的能力。通过离线模仿学习,这些具身智能模型掌握了多样化、复杂的操作技巧,能够完成抓取、搬运、放置等多种任务。然而,这些学得像的模型在真实部署中却常常用不好:面对环境扰动、任务变化或者用户偏好差异,它们容易生成错误动作,导致执行失败,正如下图所示: 


图片


这也暴露出当前具身智能系统的一大核心难题:如何让机器人在部署阶段具备推理能力(Test-Time Intelligence - 部署智能),即无需额外数据,也能主动预判风险、灵活调整策略。 对此,来自卡耐基梅隆大学与伯克利人工智能研究院的研究团队提出了全新框架 FOREWARN,首次将世界模型多模态语言推理结合,在机器人部署阶段,对基于模仿学习生成的动作策略进行在线评估与动态校正,打破了当前具身智能模型仅依赖离线模仿的局限,迈出了通向真正部署智能的重要一步。


部署智能为何如此困难?预测与理解的双重挑战


在真实部署阶段,我们希望机器人在执行前,能够从多个由模型生成的候选动作中筛选出最优方案。然而,这看似简单的临场决策,在开放世界中却隐藏着两个极具挑战性的任务。


一是预见动作的未来后果:机器人需要具备建模环境动态的能力,准确推演每条动作方案可能引发的状态变化。


二是评估预测结果的优劣与契合度:不仅要判断这些结果是否达成任务目标,还需理解其语义,并考量是否符合用户偏好。


这两个任务相互交织,彼此依赖,但所需的能力却截然不同 —— 前者偏向物理建模与演变模拟,后者则需要语义推理与用户偏好理解。尤其在开放世界中,缺乏精确物理模型与用户偏好模型,更使得这类决策问题变得极为棘手。


核心思路:解耦预测与评估,分而治之


为了解决部署阶段的智能挑战,研究团队设计了由预见(Foresight)深思(Forethought)组成的双模块框架,将复杂的决策过程拆分为模拟未来评估未来两大任务,分而治之,协同决策:


模拟未来:系统引入具备环境动态建模能力的世界模型,在低维隐空间中预测每个候选动作方案可能引发的环境状态变化。该模型通过离线学习大量真实机器人轨迹及成功 / 失败案例,能够在运行时以极低代价高效脑补多种未来,无需反复尝试实地执行。


评估未来:随后,系统利用经过微调的多模态语言模型,先将上述在隐空间脑补的多种未来解码为自然语言形式的行为描述,语言模型再据此结合任务目标与用户意图,完成高层次的语义理解和决策并且选出最优动作方案。



上图展示了 FOREWARN 系统的整体流程,其关键步骤如下:


  1. 候选动作采样与聚类:机器人基于当前观测,从动作生成模型中采样多个候选方案,并通过聚类去冗,保留 K 个具代表性的动作用于后续评估。

  2. 隐空间未来预测:每条代表性动作方案与当前观测图像共同作为输入世界模型,在低维隐空间中预测其未来演化,构建对未来的想象。

  3. 语义转译:由于隐空间中的脑补难以直接解析,系统将这些隐空间的脑补输入经过微调的多模态语言模型(MM-LLM),MM-LLM 将其转译为自然语言形式的行为描述,使其能够被用于语义层面的理解与用户偏好对齐。

  4. 最优方案筛选与执行:结合用户指令或任务描述,MM-LLM 对所有预测的未来进行语义评估,从中筛选并执行最契合意图的动作方案。


图片


创新亮点


🧠 隐空间对齐 - 让 MM-LLM听懂世界模型的预测。本研究首次实现了世界模型的低维潜在动态空间与多模态语言模型的语义空间对齐,使语言模型能够准确读懂不同动作方案所引发的未来演化,从而跨模态完成从感知理解再到决策的闭环推理流程。


⚙️ 端到端自动化 - 无需人工示范,实时智能决策。FOREWARN 实现了全流程自动化的部署时决策机制:无需额外数据采集,系统可在运行时高效从上百个候选方案中自主筛选出最优动作方案,显著降低了部署门槛与人力成本。


🤖 泛化能力强 - 复杂任务中同样稳健适用。 无论是抓取、搬运等基础操作,还是长时序、多阶段、高语义依赖的复杂任务,FOREWARN 都展现出卓越的通用性与稳健性。


图片


实验结果:高效且可靠


为验证 FOREWARN 框架在实际部署中的有效性,我们在多项机器人任务中进行了系统评估。结果显示,单纯依赖模仿学习训练出的动作生成模型在真实环境中表现极为不稳定:成功率常常低于 30%,在部分场景甚至跌至 10%。这突显出当前模仿学习方法在应对任务变化和用户偏好时的严重局限。


而引入 FOREWARN 框架后,系统首次具备了在运行时主动评估并筛选策略的能力,整体成功率显著跃升至 70%–80%,实现了量级上的突破。更重要的是,即使任务指令发生变化、操作偏好改变或感知输入受到干扰,系统仍能维持 60%–80% 的成功率,展现出强大的策略稳健性与环境适应能力。这一结果表明,FOREWARN 有效弥合了离线训练在线部署之间的能力鸿沟,为具身智能系统的高可靠性控制提供了切实可行的解决路径。


图片


面向未来:可扩展与可优化


尽管 FOREWARN 已在多个真实任务中表现出卓越性能与通用性,研究团队指出,要进一步推广至更大规模的具身智能场景,仍面临三大挑战:一是底层生成策略仍需提升多样性与泛化能力,以覆盖更丰富的行为空间;二是世界模型对大规模、多样化数据依赖较强,在数据稀缺场景下性能可能下降;三是推理效率与算力成本有待优化,尤其是在大模型设定下,亟需探索更高效的推理机制。考虑到 MM-LLM 与世界模型正快速发展, FOREWARN 的部署智能优势也将更加凸显,助力机器人在更多未知场景中根据自然语言指令,自主选择最安全、最合理的操作方案。


近年来,学术界与工业界正加速迈向从「模仿学习预训练(pre-training)」到「部署智能(test-time intelligence)」的转变。FOREWARN 提出了一条清晰且实用的路径:通过世界模型脑补未来、多模态语言模型解码与评估,两者协同构建具备推理能力的部署智能,实现真正意义上的控机器人。对于那些追求高鲁棒性与强泛化能力的前沿机器人应用,FOREWARN 展现出广阔的落地潜力。我们也期待,这一方式能激发更多跨模态、跨学科的探索与创新,让未来的机器人更世界、更人类指令,也更可靠地走进人类生活。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

我觉得强化学习是一条可行的道路。让机器人在真实环境中不断试错,通过奖励和惩罚来学习最优策略。虽然训练过程可能比较漫长和痛苦,但一旦训练完成,机器人就能在真实环境中表现得非常出色。当然,强化学习也面临着一些挑战,比如如何设计合理的奖励函数,如何保证训练过程的安全性等等。但是,只要克服这些挑战,强化学习就能为具身智能带来质的飞跃。

简单来说,就是世界模型负责“看”,多模态语言模型负责“说”。世界模型“看”到未来可能发生的情况,然后用一种机器能理解的方式“说”给多模态语言模型听。多模态语言模型再根据任务目标和用户偏好,判断哪个“未来”最好,然后告诉机器人应该怎么做。这俩模块一个负责预测,一个负责决策,分工明确,协同高效,避免了机器人像无头苍蝇一样乱撞。

与其各种花里胡哨的技术,不如回归本源,加强机器人的感知能力。你想啊,如果机器人连周围的环境都看不清、听不清,那还谈什么“部署智能”?所以,提高机器人的视觉、听觉、触觉等感知能力,让它能够更准确、更全面地获取环境信息,才是提升“部署智能”的基础。感知能力上去了,世界模型和多模态语言模型才能更好地发挥作用啊!

与其死磕数据,不如换个思路。既然是数据稀缺导致世界模型拉胯,干脆就别太依赖它。搞个“轻量级”的世界模型,重点放在理解用户指令和任务目标上,然后多模态语言模型多承担一些决策的任务,通过强大的语义推理能力来弥补物理模型的不足。当然,这需要更精巧的模型设计和训练,但也许能走出一条新路子。我觉得,没数据就得靠脑子!

可以考虑结合元学习 (Meta Learning) 的思想,训练一个能够快速适应新任务的模型。具体来说,可以设计一个学习算法,使其能够在少量数据上快速学习到新任务的策略。此外,自监督学习 (Self-Supervised Learning) 也是一个很有潜力的方向,可以通过利用无标签数据来学习环境的表示,从而提高模型的泛化能力。当然,这些方法的实现都需要一定的技术积累和实验验证。

从学术角度来说,世界模型提供的是环境动态的低维隐空间表示,而多模态语言模型负责将这些隐空间信息解码为人类可理解的语义信息,并进行高层次的推理和评估。关键在于将物理世界的预测与人类语言的理解结合起来,弥合了物理模型与语义理解之间的鸿沟。这样,机器人才能在复杂环境中做出更符合人类意图的决策。这种结合,让机器人能够更好地理解任务,并根据环境变化动态调整策略。

个人认为,可解释性AI (Explainable AI, XAI) 在提升“部署智能”方面扮演着重要角色。如果机器人能够清晰地解释其决策过程,人类就能更好地理解其行为,并及时发现潜在问题。此外,结合人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 也是一个值得探索的方向。通过人类的指导和反馈,机器人可以更快地学习到符合人类意图的策略。