Sim2Real 技术:从争议到高效具身智能路径

Sim2Real 技术在具身智能领域备受关注,但 Reality Gap 长期阻碍其发展。近期研究表明,Sim2Real 或可成为比真机数据更高效的方案。

原文标题:从虚拟到现实,Sim2Real Might Actually Work

原文作者:机器之心

冷月清谈:

本文深入探讨了 Sim2Real 技术在机器人和具身智能领域中的发展与争议。Sim2Real 旨在通过模拟环境训练智能体,从而降低现实世界数据收集的成本和难度。然而,该技术一直面临着 Reality Gap(模拟与现实之间的差距)的挑战,导致其效果和价值备受质疑。文章首先回顾了 2022 年 RSS Workshop 上关于 Sim2Real 的辩论,专家们对 Sim2Real 的成本效益、是否应被视为一个独立领域以及如何平衡模拟的抽象程度与准确性进行了深入探讨。尽管存在质疑,但辩论也指出了 Sim2Real 改进的方向。文章还提到了近期涌现的多项 Sim2Real 研究和应用,这些研究逐渐被认可为比采用真机数据更高效的路径。例如,香港中文大学(深圳)终身教授贾奎强调 Sim2Real 是通往具身智能最高效的路径,并分享了如何消弭合成数据与真实数据之间的 Reality Gap。北大-银河通用具身智能联合实验室主任王鹤也指出,Sim2Real 不需要仿真器完全仿真,而是硬件、算法和仿真联合优化的过程。

怜星夜思:

1、你认为 Sim2Real 技术目前最大的瓶颈是什么?除了 Reality Gap 之外,还有哪些因素制约了它的发展?
2、文章提到 Sim2Real 有可能只是对现有稳健控制技术的重新命名,你同意这种观点吗?为什么?
3、如果让你设计一个 Sim2Real 系统,你会着重考虑哪些方面?你会选择什么方法来尽可能缩小 Reality Gap?

原文内容

机器之心PRO · 会员通讯 Week 10
--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---
1. 从虚拟到现实,Sim2Real Might Actually Work
Sim2Real 有哪些争议?Reality Gap 被解决了吗?最近的 Sim2Real 效果如何?Real2Sim2Real 会更有效吗?可微分物理引擎做 Sim2Real 效果更好吗?...
2. 从 LLM 到 Agent:Manus 们莫不是「推理模型 + RPA」 ?
「Manus」 为何突然爆火?与以往的 AI Agent 产品有何不同?为什么说 AI Agent 实际上就是更先进的 RPA?AI Agent 和 RPA 有何不同?...
3. AAAI《人工智能研究的未来》解析 2025 AI 趋势
模型推理将如何发展?AI 系统的事实与可信问题为何愈发重要?认知科学将和 AI 如何相互促进?Agent 会如何发展?具身智能会取得突破吗?端侧 AI 仍会被硬件限制吗?...

...本期完整版通讯含 3 项专题解读 + 30 项本周 AI & Robotics 赛道要事速递,其中技术方面 12 项,国内方面 7 项,国外方面 11 项。
本期通讯总计 28963 字,可免费试读至 7% 
 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 


要事解读①  从虚拟到现实,Sim2Real Might Actually Work
引言:在机器人和具身智能领域,Sim2Real 是一个长期存在的路径。但由于对消弭 Reality Gap 存在 「理念型偏差」,学术界和产业界更多地将其视为一个辅助的数据补充手段。然而,伴随近期涌现的多项 Sim2Real 研究和应用,这项技术的有效性可靠性正逐步受到认可,甚至被视为比采用真机数据更高效的路径。
Sim2Real 还是 Sim2Null?节约的成本其实是假象?
具身智能作为潜在的实现 AGI 的路径在近几年愈发受到关注,但数据匮乏的高墙长期阻塞具身智能体获得在现实任务中的泛化能力。Sim2Real 技术作为数据匮乏的潜在解决方案,能够通过「从虚拟到现实」的模式缓解高质量数据的收集困难与成本问题。但由于 Sim2Real 在消弭模拟与现实之间差距方面存在「理念型偏差」,往往被视为一种辅助性的数据补充手段,也常有声音质疑其价值。

1、对 Sim2Real 价值争议最为直观的讨论来自 2022 年 RSS 的一场 Workshop。会议组织了一场关于 Sim2Real 的辩论,汇聚了领域内的专家就 Sim2Real 的价值、定义和正确实现方式展开了深入的讨论。[1-1] 

① 该场辩论邀请了 Christopher Atkeson、Abhinav Gupta、Ken Goldberg 和 Peter Welinder 等具身智能和机器人领域的知名研究者以正反两方的形式讨论了「为什么要投资 Sim2Real?」「什么是 Sim2Real ?」和「如何应用 Sim2Real 」。

2、「为什么要投资 Sim2Real?」的辩题讨论了 Sim2Real 技术是否真的比现实世界实验更便宜或节省时间。[1-1] 

① 支持「Sim2Real 浪费时间和金钱」的论点在于,虽然这项技术减少了构建和维护真实机器人的成本,训练一个策略可能需要数月甚至数年的开发时间。以 OpenAI 的 Rubik's cube 项目为例,虽然训练成本仅几千美元,但整个项目开发超过了一年。

② 认为 Sim2Real 无价值的另一个论点在于,由于 Reality Gap 的存在,它可能会带来 Sim2Null,即可能导致研究者过度依赖模拟环境,而忽视了现实世界中的复杂性和实际问题。

③ 该话题还讨论了在虚拟环境成功执行任务是否是在现实世界中成功的必要条件。对该论点的质疑在于,虽然 Sim2Real 可以加速研究,但过于简化的模型可能使得模拟问题比现实问题更难。

3、第二个辩论主题涉及 Sim2Real 是否有资格作为一个方法或领域。在「无论计算机模拟的复杂程度如何,现实差距总是存在」的共识下,辩论者们对这一陈述的意见不一。[1-1] 

① 一方观点认为,无法弥合现实差距的事实(Reality Gap)证明了 Sim2Real 作为一个领域的存在是合理的,它代表了研究如何从不完全准确的模型中提取有用信息的领域。

② 另一方观点则认为,如果 Sim2Real 不是关于通过更好的建模来弥合现实差距,那么它只是对现有稳健控制技术(Robust control)的重新命名。

4、「如何应用 Sim2Real」的辩题尝试阐明 Sim2Real 方法与准确模拟之间的关系,在场的辩论着探究了从抽象层次到准确性与泛化之间的权衡。[1-1] 

① 辩论者们一致认为,找到合适的抽象层次是关键,但很困难。因为这需要预先知道与任务相关的内容。双方都同意当前的模拟器未能充分模拟物理现象。

② 辩论者们还讨论了不精确模拟的影响,有观点认为解决这个问题的唯一方法是对大量的模拟参数进行重度领域随机化,但这在更复杂的任务和环境中无法扩展。

5、该场辩论虽然提出了大量对 Sim2Real 的质疑,但同样理清了改善这项技术需要关注的多个方向,也为后续的研究工作带来了极大参考,也促进了后续,尤其是 2023、2024 年中有关 Sim2Real 的研究和突破,也让这项技术愈发受到重视。

① 2024 年 7 月,香港中文大学(深圳)终身教授、跨维智能创始人贾奎在一场访谈中强调了「Sim2Real AI 正是通往具身智能的最高效路径」,并围绕 DexVerse 2.0 具身智能引擎中分享了如何消弭合成数据与真实数据之间的 GAP。[1-2] 

② 北大-银河通用具身智能联合实验室主任王鹤同样强调了 Sim2Real 的意义,即「仿真器永远不可能完全真实,但 Sim2Real 路线也不需要仿真器完全仿真,它是硬件、算法和仿真联合优化的过程。」仿真器的限制可以通过算法的自适应能力和硬件的充分稳健来克服。


Reality Gap 都被哪些方法解决了?

从哲学角度讲,一切技术都是对已有技术的迭代和重新组合。说Sim2Real是稳健控制的重新命名,不如说是对稳健控制思想在具身智能领域的具体应用和发展更准确。重点在于应用场景和解决问题的侧重点不同。

我会采用领域随机化和对抗训练相结合的方法。领域随机化可以增加智能体对环境变化的适应能力,而对抗训练可以帮助智能体识别并克服模拟环境中的 bias。另外,我会尝试使用元学习(meta-learning)的思想,让智能体学会快速适应新的环境。

我认为是任务的复杂度,现在的 Sim2Real 在一些简单的任务上表现还行,但一涉及到复杂的、多变的环境,就容易出问题。这可能涉及到环境建模的精细程度、智能体的泛化能力等等。说白了,还是算法不够聪明。

我觉得除了 Reality Gap,算力也是个大问题。训练复杂的模拟环境需要大量的计算资源,这对于一些小团队或者个人研究者来说是个不小的门槛。而且,即使有了足够的算力,如何有效地利用这些资源也是个挑战。总不能一直烧钱吧?

我会关注数据的闭环。Sim2Real 不应该是一个单向的过程,而应该是一个闭环反馈的系统。我会让智能体在真实世界中进行少量实验,然后将这些数据反馈回模拟环境,用于改进模型和算法。这样可以不断地缩小 Reality Gap,提高智能体的性能。

我会优先考虑环境建模的逼真程度。如果模拟环境和真实世界差异太大,那训练出来的智能体肯定不行。我会尝试使用高精度的物理引擎,并且尽可能地模拟真实世界的光照、材质等细节。当然,这会带来巨大的计算量,需要权衡。

楼上说的都有道理。但我补充一点,我认为是缺乏一个统一的评估标准和数据集。现在大家都在用自己的模拟环境和任务,很难进行横向比较,也难以判断一个算法的优劣。如果能有一个类似 ImageNet 的 Sim2Real 基准,相信能加速这个领域的发展。

我觉得这种说法有点片面。稳健控制关注的是系统在面对扰动时的鲁棒性,而 Sim2Real 关注的是如何将模拟环境中的知识迁移到真实世界。虽然两者都涉及到处理不确定性,但出发点和方法论还是有区别的。当然,Sim2Real 可以借鉴稳健控制的一些思想,比如领域随机化。

我部分同意。Sim2Real 的确可以看作是稳健控制的一种特殊形式,它通过在模拟环境中引入各种不确定性(比如噪声、延迟等)来增强智能体在真实世界的鲁棒性。但是,Sim2Real 更强调的是模拟环境的作用,它试图利用模拟环境来加速算法的开发和验证。