Embodied-Reasoner：图文交织思维链，让机器人具备深度交互推理能力

almosthuman2014 · 2025 年4 月 26 日 12:33

Embodied-Reasoner通过图文交织思维链，提升了机器人在复杂具身交互任务中的推理和决策能力，使其更好地理解环境并完成任务。

原文标题：具身交互推理: 图像-思考-行动交织思维链让机器人会思考、会交互

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650966873&idx=4&sn=ed225803d2b68d0d91603253e649fb5a&

冷月清谈：

浙江大学、中科院软件所和阿里巴巴的研究团队联合提出了 Embodied-Reasoner，旨在赋予机器人或智能体深度思考和交互决策能力，使其能够在真实物理世界中完成如环境探索、隐藏物体搜索、交互搬运等复杂的长序列任务。Embodied-Reasoner 通过设计图文交织的思维链（观察-思考-行动）以及多样的思考因子，模拟人类的认知过程，解决了具身领域推理所面临的挑战，例如处理多轮次、图文交织的输入，以及需要多模态感知、物理常识、空间关系理解和时序推理等能力。团队还构建了一个数据引擎，自动生成连贯的观察-思考-行动轨迹，并引入三阶段迭代训练流程，有效提升了模型在具身交互任务中的性能。实验结果表明，Embodied-Reasoner 在任务成功率、搜索效率和任务完成度方面均显著优于现有模型，尤其在复杂任务上表现突出。

怜星夜思：

1、Embodied-Reasoner 提出的图文交织思维链（观察-思考-行动）是如何解决传统纯文本推理在具身任务中的局限性的？这种方式相比于其他多模态模型有哪些优势？
2、Embodied-Reasoner 在训练过程中，为什么要设计模仿学习、拒绝采样微调和反思调优这三个阶段？每个阶段分别解决了什么问题？
3、Embodied-Reasoner 在真实世界实验中表现如何？与模拟环境相比，真实环境会带来哪些新的挑战？

原文内容

OpenAI 的 o1 系列模型、Deepseek-R1 带起了推理模型的研究热潮，但这些推理模型大多关注数学、代码等专业领域。如何将这种深度推理模型扩展到智能体和具身领域，让机器人通过思考和推理来完成复杂具身交互等任务？

近期，来自浙江大学、中科院软件所和阿里巴巴的团队提出了 Embodied-Reasoner，让机器人或智能体拥有深度思考和交互决策能力，从而在真实物理世界完成环境探索、隐藏物体搜索、交互和搬运等长序列复杂任务。

可以想象，未来某一天，机器人能够帮你在房间里找钥匙、信用卡等容易遗忘的小物件。它可以观察房间、分析和思考，然后一步一步地搜索，最后帮你找到它们。

论文标题：Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks

论文地址：https://arxiv.org/abs/2503.21696
项目主页：https://embodied-reasoner.github.io

代码地址：

https://gitee.com/agiros/EmbodiedReasoner

https://github.com/zwq2018/embodied_reasoner
HuggingFace：https://huggingface.co/datasets/zwq2018/embodied_reasoner

一分钟看懂 Embodied-Reasoner

简介

尽管深度思维模型在数学和编码任务上展现出卓越的推理能力，但不同于数学、代码等文字模态上的推理，具身领域的推理有几个重要的挑战需要解决：

首先，具身模型不同于单轮聊天对话，需要通过交互方式运行。它们必须持续与环境交互，收集视觉反馈，并基于这些反馈做出合理的行动（文本模态）。因此，模型每次需要处理多轮次的、图文交织的冗长输入，而后产生连贯、符合上下文的推理和决策。

其次，与数学任务主要依赖于逻辑推理和专业知识不同，具身场景中推理还需要更丰富的能力，包括多模态的感知、基于物理世界的常识推断、空间关系理解、时序的推理以及面对环境交互失败后的自我反思等能力，这些都对大模型提出了更高要求。

最后，当前的 LLM 主要以语言形式输出，无法直接控制机器人执行物理交互。因此，如何设计合理的语义动作空间让「思考」和「行动」解耦也是一个难点。

如刚才视频中展示的具体例子，当具身智能体在未知房间中搜索隐藏物体时，它必须利用物理常识推断潜在的搜索区域（步骤 1、3），理解物体的空间关系以规划高效的探索路径（步骤 1、5），并运用时序推理回忆先前尝试中的相关线索（步骤 9），同时反思先前的失败。这些多方面的推理要求对多模态模型提出了挑战。

实验发现，即使是像 OpenAI o3-mini 这样的先进 LLM，在这些具身交互任务中也经常难以展现可靠的推理和决策，容易出现重复的搜索或前后不一致的行为。

基于上述挑战，团队提出了 Embodied-Reasoner，将深度思考能力扩展到具身交互任务。其关键的两点包括：

纯文本模态上的推理似乎无法解决这种长序列的具身任务。因此，Embodied-Reasoner 设计了图文交织的思维链：观察-思考-行动，三者相互交织构成真正的多模态思维链。这个设计类似于最近刚刚推出的 OpenAI 的 o3 和 o4-mini 模型，集成了图片编辑（缩放、裁剪等）等中间动作，也创造了图文交织的多模态思维链。

设计了多样化的思考因子适应不同的交互阶段，包括情景分析、任务规划、空间推理、行为反思和多重验证等。这些多样化的思考因子能够促进模型从不同角度进行推理和思考。

为了开发这种能力，如上图所示，我们构建了一个数据引擎，自动合成连贯的观察-思考-行动轨迹，引入了具身场景下多样化的思考过程，例如情境分析、空间推理、自我反思、任务规划和自我验证。这些连贯的、图像-文本交错的轨迹引导模型学习如何基于其交互历史和空间布局进行规划和推理，从而提升其空间和时间推理能力。

此后，我们引入了一个三阶段迭代训练流程，结合了模仿学习、自我探索和自我纠正微调。该流程首先利用合成轨迹进行模仿学习以培养基本交互能力，然后通过拒绝采样微调增强探索能力，最后经反思调优培养自我纠正能力。

下面是一个具体的例子：

如上图所示，模型需要空间推理能力来理解厨房布局和物体关系，基于常识知识推断潜在位置（冰箱、餐桌），系统地搜索未探索区域，并通过实时观察调整计划，同时避免重复搜索。

技术方案

任务定义

任务环境：使用广泛采用的 AI2-THOR 模拟器构建了具身任务环境，该模拟器提供物理模拟和实时视觉观测。实验使用 120 个独特的室内场景（如厨房）以及 2,100 个可交互物体（如信用卡和微波炉）。实验通过 AI2-THOR 的 API 控制机器人的移动（如向前移动）和交互（如拾取物体），同时在每一步返回视觉观察。

任务类别：机器人初始化在未知房间的一个角落，视野有限，即只能看到房间的一部分。本节设计了日常生活中四种常见的交互任务，复杂度依次增加：

搜索：在未知房间中搜索物体，如钥匙链。它可能放置在某处或隐藏在容器内。
操作：搜索后与物体交互，如「找到一盏灯并打开开关」。
运输：找到隐藏物体后，将其运输到另一个位置。这涉及多个搜索和操作步骤。
复合任务：按顺序涉及多个运输任务，如「将鸡蛋放入微波炉，加热后放在桌子上。之后，找到……」。

动作定义：虽然 AI2-THOR 提供了许多低层级的动作，但本节的任务侧重于高级规划和推理，而非运动控制。此外，低级动作可能导致过多交互，因此本节在原子动作基础上封装了 9 个高级动作：观察、向前移动、导航至 {}、放入 {}、拾取 {}、切换 {}、关闭 {}、打开 {}、终止。

「观察-思维-行动」交织的思维链合成

为了开发适用于具身场景的 o1 风格推理模型，本节首先设计了一个需要高级规划和推理，而非低级运动控制的具身任务，即搜索隐藏物体。接着，基于模拟器设计了一个数据引擎，用于合成交互式推理语料库：任务指令和相应的关键动作序列。

每个动作产生一个视觉观察，形成交互轨迹。最后，数据引擎为每个动作生成多种思考链，如情境分析、任务规划、空间推理、反思和验证，创建了一个具有观察-思考-行动上下文的交互式推理语料库。

指令合成（Instruction Synthesis）

基于物理环境约束设计多样化任务模板（如「将 A 从容器取出放入 B」）。
通过物体属性筛选可行组合（A 需为可拾取物，B 需为容器）。
利用 GPT-4o 进行指令风格多样化处理。
通过指令组合构建不同难度梯度的任务。

动作序列合成（Action Sequence Synthesis）

从属关系图：数据引擎使用模拟器的元数据构建一个从属关系图。
关键动作序列：数据引擎利用构建的从属关系图和合成的指令模板推导出完成任务所需的最小动作序列（关键动作）。
添加额外的搜索过程：除了关键动作序列外，数据引擎还通过插入额外的搜索过程来合成探索路径。

观察-动作序列中插入多样化的思考过程

在运行合成的动作（）后，数据引擎获得一个交互轨迹：，其中 oi 表示第一人称视角图像。然后，数据引擎为每个动作生成多种深度思考内容（），从而创建一个图文交织的上下文：观察-思考-行动。

多样化思考模式：首先，本节定义了五种思考模式，模拟人类在不同情况下的认知活动：情境分析（Situation Analysis）、任务规划（Task Planning）、空间推理（Spatial Reasoning）、自我反思（Self-reflection）和双重验证（Double Verification）。本章节使用简洁的提示来描述每种模式，指导 GPT-4o 合成相应的思考过程。

从观察-行动中推导思考：对于每次交互，数据引擎指导 GPT-4o 选择一种或多种思考模式，然后基于交互上下文生成详细的思考。这些思考被插入到观察和行动之间（

）。具体来说，数据引擎用之前的交互轨迹（

）和即将到来的动作（

）提示 GPT-4o，生成一个合理的思考过程（

）。它应该考虑最新的观察（

）并为下一步动作（

）提供合理的理由，同时与之前的思考保持逻辑一致。

模型训练策略

多轮对话格式：考虑到交互轨迹遵循交织的图像-文本格式（观察-思考-行动），Embodied-Reasoner 将其组织为多轮对话语料库。在每个回合中，观察到的图像和模拟器的反馈作为用户输入，而思考和行动则作为助手输出。在训练过程中，我们仅对思考和行动 token 计算损失。

为了增强推理能力，Embodied-Reasoner 设计了三个训练阶段：模仿学习、拒绝采样微调和反思调优，这些阶段将通用视觉语言模型逐步提升为具有深度思考能力的具身交互模型：

第一阶段模仿学习：使用数据引擎生成少量的指令-轨迹对，大多数包含有限的搜索过程或仅由关键动作组成（观察-思考-关键动作）。然后在此数据集上微调 Qwen2-VL-7B-Instruct，使其学会理解交织的图像-文本上下文，输出推理和动作 token。经过微调得到 Embodied-Interactor。

第二阶段拒绝采样微调，学习搜索：使用上一阶段的模型采样大量生成轨迹进行进一步训练，并且使用数据引擎来评估这些采样轨迹。该阶段一共保留了 6,246 个成功轨迹进行微调，最后得到 Embodied-Explorer。

第三阶段反思微调：上一阶段的模型有时会产生不合理的动作，特别是在长序列交互任务中，如幻觉。此外，机器人经常会遇到临时硬件故障，这要求模型能够对不合理行为进行自我反思，识别异常状态，并及时纠正。如上图所示，第三阶段使用 Embodied-Explorer 在先前任务上采样大量轨迹。对于失败的轨迹，我们定位第一个错误动作并构建自我纠正轨迹。对于成功的轨迹，我们插入异常状态来模拟硬件故障。这一步骤补充了 2,016 条反思轨迹（每条轨迹平均 8.6 步）。

交织思维链分析

统计结果：我们为三个训练阶段合成了 9,390 个独特的任务指令及其观察-思考-行动轨迹，即〈场景, 指令, 交织的多模态思维链〉。如下面表格所示，在第一阶段，数据引擎合成了 1,128 条轨迹数据。在第二阶段，通过拒绝采样保留了 6,246 条探索轨迹。在第三阶段，数据引擎合成了 2,016 条自我纠正轨迹。所有合成的数据集涵盖 107 个多样化的室内场景（如厨房和客厅），包括 2,100 个可交互物体（如鸡蛋、笔记本电脑）和 2,600 个容器（如冰箱、抽屉）。所有轨迹包含 64K 张第一人称视角的观察图像和 8M 个思考 token。

测试任务：此外，我们在 12 个全新场景中构建了 809 个测试案例，这些场景与训练场景不同。然后，人工设计了任务指令并标注相应的关键动作和最终状态：〈指令，关键动作，最终状态〉。值得注意的是，测试集还包含 25 个精心设计的超长序列决策任务，每个任务涉及四个子任务的组合，并涵盖至少 14 个、最多 27 个关键动作。

思考模式的分布：本节统计了所有轨迹中五种思考模式的频率。如下图所示，Task Planning 和 Spatial Reasoning 出现最频繁，分别为 36.6k 和 26.4k 次。这意味着每条轨迹包含约四次 Task Planning 和三次 Spatial Reasoning。此外，Self-Reflection 通常在搜索失败后出现，每条轨迹平均出现两次。这些多样化的思考促进了模型的推理能力。

思考模式之间的转换：五种思考模式之间的转移概率如下图所示。实验发现它们之间的关系是灵活的，取决于具体情况。通常从 Situation Analysis 开始，随后是 Task Planning（55%）和 Spatial Reasoning（45%）。在导航到未知区域时，它经常依赖 Spatial Reasoning（Action→S：42%）。如果搜索尝试失败，它会转向 Self-Reflection（Action→R：33%），当（子）任务完成时，它有时会进行 Double Verification（Action→V：3%，S→V：6%）。这种多样化的结构使模型能够学习自发思考和灵活适应性。

实验分析

对比实验

实验对比了通用的 VLMs 和近期出现的视觉推理模型，例如 o1、Claude-3.7-sonnet-thinking 等。

从上表的实验结果来看，Embodied-Reasoner 显著优于所有推理模型和 VLMs，成功率比 GPT-o1 高出 9.6%，比 GPT-o3-mini 高出 24%，比 Claude-3.7-Sonnet-thinking 高出 13%。它在搜索效率和任务完成度方面也明显领先，尤其在复杂任务（如复合和运输任务）上表现更为突出，在复合任务上比第二好的模型 GPT-4o 高出 39.9%。通过三阶段训练（模仿学习、拒绝采样调优和自我纠正轨迹微调），模型性能从基础的 14.7% 逐步提升至 80.9%，减少了其他模型常见的重复搜索和不合理规划问题，展现出更强的深度思考和自我反思能力，尽管规模小于先进推理模型。

分析：深度思考范式如何增强具身搜索任务？

对长序列任务更具鲁棒性：Embodied-Reasoner 在处理复杂的长序列决策任务时表现出显著优势。实验结果显示，当任务所需的关键动作数量增加时，基线模型的成功率急剧下降，特别是在任务超过五个动作时。而 Embodied-Reasoner 在大多数复杂情况下仍能保持超过 60% 的成功率，展现出对长序列任务的强大鲁棒性。

自发地为复杂任务生成更长的推理链：面对复杂任务时，Embodied-Reasoner 会自动生成更深入的思考过程。数据显示，随着任务复杂度增加，其输出 token 从 1,000 增长到 3,500 左右，几乎是 Gemini-2.0-flash-thinking 的五倍。这种深度思考能力使其能够规划更高效的搜索路径并避免冗余动作，而其他模型如 Gemini-2.0-flash-thinking 则无法通过扩展推理时间来应对更复杂的具身任务。

深度思考减轻了重复搜索行为：实验引入重复探索率（RER）来衡量模型在轨迹中重复导航到同一区域的频率。Embodied-Reasoner 和 Explorer 在所有任务类型中都表现出显著较低的 RER。在复合任务中，Embodied-Explorer 的 RER 仅为 26%，而 GPT-o3-mini 和 Qwen2-VL-72B 分别达到 54% 和 43%。Embodied-Reasoner 通过回忆过去观察、反思先前探索动作并制定新计划，增强了时序推理能力，有效减少了重复搜索行为。

真实世界实验

为了评估 Embodied-Reasoner 的泛化能力，本节设计了一个关于物体搜索的真实世界实验，涵盖三个场景中的 30 个任务：6 个厨房任务、12 个浴室任务和 12 个卧室任务。在测试过程中，人类操作员手持摄像机捕捉实时视觉输入。模型分析每张图像并生成动作命令，然后由操作员执行这些动作。

上图展示了一个例子：「你能帮我找到咖啡并加热它吗？」Embodied-Reasoner 在两次探索（步骤 1、2）后排除了台面和餐桌，最终在橱柜中找到咖啡（#7）并将其放入微波炉加热（#11）。然而，实验观察到 OpenAI o3-mini 未能制定合理的计划，先前往微波炉而不是搜索咖啡。此外，它经常忘记搜索并表现出重复搜索行为，这与本章节之前的分析一致。

总结

Embodied-Reasoner 的贡献包括：

一个将深度思考扩展到具身场景的框架，解决了交互式推理的独特挑战；
一个数据引擎，合成多样化的多模态思维链，包含交错的观察、思考和行动；
一个三阶段训练流程，逐步增强交互、探索和反思能力；
广泛的评估，相比最先进模型取得了显著改进，特别是在复杂的长序列交互任务中。

Embodied-Reasoner 已发布于 AGIROS 智能机器人操作系统开源社区。AGIROS 智能机器人操作系统开源社区由中国科学院软件研究所发起，旨在通过凝聚智能机器人操作系统产学研用各方力量，共同推动智能机器人操作系统技术及生态的发展，全面推进智能机器人领域的开源开放协同创新，为智能机器人产业夯实基础。

研究团队来自浙江大学、中科院软件所、阿里巴巴和中科南京软件技术研究院，在多模态模型、具身智能体、机器人共用算法框架技术等方面拥有丰富的研究经验。共同一作为张文祺（浙江大学博士生）与王梦娜（中科院软件所硕士生），通讯作者为中科院软件所副研究员李鹏与浙大庄越挺教授。该团队曾开发了数据分析智能体 Data-Copilot，在 github 上获得超过 1500 stars, 开发multimodal textbook，首月在huggingface上超过15000次下载。

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

Strider82w · 2025 年4 月 27 日 12:08

真实世界实验是对模型泛化能力的一次重要考验。与模拟环境相比，真实环境会带来以下挑战：
1. 感知噪声：真实世界的视觉输入更加复杂，存在光照变化、物体变形、遮挡等问题，对模型的感知能力提出了更高要求。
2. 动作误差：真实机器人的动作执行存在误差，可能无法精确地到达目标位置或完成特定操作。
3. 未知情况：真实世界存在许多模拟环境中没有的物体和场景，模型需要具备处理未知情况的能力。
4. 交互复杂性：真实世界中的交互可能需要更复杂的物理操作，例如需要更大的力气才能打开抽屉，或者需要更精细的动作才能拿起易碎物品。这些挑战都需要模型具备更强的适应性和鲁棒性。

Torrent81h · 2025 年4 月 28 日 15:25

Embodied-Reasoner 的图文交织思维链相当于给机器人装上了一个边看边想边做的实时反馈系统。纯文本推理就像是让机器人背稿子，事先规划好所有步骤，一旦遇到实际情况和预设不一样就傻眼了。而 Embodied-Reasoner 允许机器人根据视觉输入（观察）进行思考，然后做出行动，行动的结果又会产生新的视觉输入，从而形成一个动态的反馈循环。这个过程中，图像信息能够提供更丰富的环境上下文，帮助模型进行更准确的推理。相对于其他多模态模型，Embodied-Reasoner 的优势在于它更强调这种交织的动态过程，而不是简单地将图像和文本拼接在一起处理。

SilverWolf359 · 2025 年4 月 29 日 18:16

从文章描述来看，Emboded-Reasoner 在真实世界里表现还是可以的，至少能完成一些简单的物体搜索任务。但真实环境肯定比模拟环境复杂多了，光是光照、角度、物体遮挡这些问题就够呛。而且真实机器人操作也没那么完美，可能走不到预定的位置，或者抓取失败，这些都会影响最终结果。

MidnightOwl519 · 2025 年4 月 30 日 00:05

这三个阶段，就像是给机器人上了一套进阶课程。模仿学习是基础，让机器人先学会基本的交互动作；拒绝采样微调是进阶，让机器人学会如何探索环境，找到目标；反思调优是高阶，让机器人学会自我纠错，避免犯同样的错误。通过这三个阶段，机器人才能真正具备在复杂环境中完成任务的能力。相当于从“知道要做什么”到“知道怎么做”，再到“知道怎么做得更好”。

SapphireCat928 · 2025 年5 月 1 日 12:16

其实我觉得这个思路有点像人类的学习方式。我们学习一个新技能，比如做饭，不是光看菜谱就能学会的，而是要一边看（观察），一边思考（为什么要放这个调料，火候应该多大），一边动手（行动），然后从结果中不断学习和改进。Embodied-Reasoner 的图文交织思维链就是模拟了这种学习过程，让机器人在和环境的交互中不断提升自己的推理能力。其他多模态模型可能更侧重于知识的融合和推理算法的设计，而 Embodied-Reasoner 则更侧重于如何让模型像人类一样去学习和适应环境。

EmeraldDog210 · 2025 年5 月 1 日 14:52

谢邀，我说点不一样的看法。这三个阶段也可以看作是解决训练数据质量问题的三个步骤。
1. 模仿学习：使用人工合成的数据进行预训练，保证数据的正确性，但缺乏多样性。
2. 拒绝采样微调：通过模型自主探索生成数据，增加数据的多样性，但可能引入错误。
3. 反思调优：对模型生成的错误数据进行修正，提高数据的质量，避免模型被误导。通过这三个步骤，可以逐步构建一个高质量的训练数据集，从而提升模型的性能。

OnyxHorse674 · 2025 年5 月 2 日 07:43

我觉得这三个阶段对应了机器人能力提升的三个关键方面：
1. 模仿学习：解决的是“起步”问题，让模型快速掌握基本的交互动作，避免从零开始摸索。
2. 拒绝采样微调：解决的是“探索”问题，鼓励模型尝试不同的行动，并从成功和失败的经验中学习，提高搜索效率。
3. 反思调优：解决的是“容错”问题，让模型学会识别和纠正错误，提高在复杂环境中的鲁棒性。这三个阶段相互补充，共同提升了机器人的整体性能。

Lunar391e · 2025 年5 月 2 日 12:38

我觉得除了环境本身的复杂性，还有一个很大的挑战是人机交互。在模拟环境里，机器人可以完全自主地行动，但在真实世界里，机器人的行动需要人的配合。比如，人需要手持相机提供视觉输入，还需要根据机器人的指令执行动作。这种人机交互的延迟和不确定性也会对机器人的性能产生影响。如何设计更自然、更高效的人机交互方式，也是一个值得研究的问题。

Ion31q · 2025 年5 月 2 日 20:13

谢邀，这个问题我来试着答一下。我认为关键在于 Embodied-Reasoner 将“观察”这一环节显式地纳入了推理过程。传统的纯文本推理在具身任务中最大的问题是缺乏对环境的感知能力，只能依赖预先设定的规则和知识。而 Embodied-Reasoner 引入了图像输入，让模型能够实时获取环境信息，并通过“思考”环节将这些信息融入到决策中，从而更好地适应复杂多变的具身环境。这种方式的优势在于更贴近人类解决问题的模式，能够进行更灵活、更具适应性的推理。至于和其他多模态模型的对比，Embodied-Reasoner 的优势可能在于它对这种“观察-思考-行动”循环的强化和优化，以及对具身任务特点的专门设计。