HSImul3R:打造具备物理感知能力的三维人体-场景交互重建

南洋理工大学和上海人工智能实验室提出 HSImul3R 框架,通过物理仿真优化,实现高质量、可用于仿真的人体-场景交互 3D 重建。

原文标题:HSImul3R:给三维交互重建装上物理大脑

原文作者:机器之心

冷月清谈:

HSImul3R 是一个旨在弥合“感知 - 仿真鸿沟”的创新框架,专注于人体与场景交互的 3D 重建。该框架的核心思想是将重建过程视为一个双向物理感知优化问题,通过正向优化人体运动和反向优化场景几何,实现人体运动与场景几何之间的闭环优化。正向优化利用 3D 生成模型的结构先验和强化学习,优化运动稳定性。反向优化则通过直接仿真奖励优化(DSRO),利用仿真器反馈来增强重力稳定性和交互可行性。该框架还构建了 HSIBench 数据集,包含大量人体与物体的交互实例。实验结果表明,HSImul3R 在稳定仿真和高质量 3D 重建方面表现出色,为具身智能领域的发展提供了新的思路。

怜星夜思:

1、HSImul3R 如何平衡视觉逼真度和物理可行性?在哪些场景下,牺牲视觉效果换取物理上的合理性是值得的?
2、HSIBench 数据集的构建思路对其他具身智能研究有何借鉴意义?未来数据集应该朝着哪些方向发展,才能更好地推动相关研究?
3、HSImul3R 框架中,正向优化和反向优化分别解决了什么问题?如果缺少其中一个环节,会产生什么影响?

原文内容


在具身智能狂飙突进的今天,让机器人像人一样在复杂场景中灵活交互,已成为学术界与工业界的共同愿景。其中的核心挑战在于人体 - 场景交互建模,这需要深入理解人体运动、空间布局以及交互的稳定性。从图像或视频中重建人体 - 场景交互(HSI),不仅能提供高保真的监督信号,还能帮助构建可扩展的、仿真就绪(Simulation-ready)的数据集。


然而,现有方法普遍存在 “感知 - 仿真鸿沟”(Perception–Simulation Gap):许多在视觉上极其逼真的人体交互重建结果,一旦丢进物理仿真器,就会因为违背物理定律(如身体穿透物体、重心不稳等)而瞬间崩塌。这一鸿沟很大程度上源于人体与环境建模的分离。现有研究很少捕捉两者间明确的物理耦合,而是分为三个独立方向:1) 3D 场景重建(如 NeRF, 3DGS),侧重环境几何而忽视人体动力学;2) 人体动作估计,虽具鲁棒性但在隔离状态下重建,缺乏物理接触或环境约束;3) 交互建模,通常受限于规模和物理验证不足。尽管近期出现了一些统一框架,但仍主要在 2D 图像空间优化,优先考虑视觉对齐而非几何与物理的有效性。因此,重建结果缺乏尺度和接触精度,无法用于仿真部署。


为了弥合这一鸿沟,来自南洋理工大学 S-Lab,ACE Robotics,和上海人工智能实验室的研究团队推出了 HSImul3R—— 一个仿真就绪的人体 - 场景交互 3D 重建框架。该框架将重建表述为一个双向物理感知优化问题。物理仿真器充当 “主动监督者”,实现人体运动与场景几何之间的闭环优化。


  • 正向优化:在固定场景几何下细化人体运动。利用 3D 生成模型的结构先验建立尺度一致的对齐后,他们将重建结果集成到模拟器中,进行针对场景的强化学习,利用物理信号(如关键点跟踪一致性和几何接触约束)优化运动稳定性。

  • 反向优化:在经物理验证的动作下细化场景几何。针对结构缺陷导致的稳定性问题,他们提出了直接仿真奖励优化(DSRO),利用仿真器反馈的奖励来增强重力稳定性和交互可行性。


此外,他们采集构建了 HSIBench 数据集,包含 19 类物体、50 多个运动序列及 300 个独特交互实例。



想深入了解 HSImul3R 的技术细节?我们已经为你准备好了完整的论文、项目主页!



  • 论文标题:HSImul3R: Physics-in-the-Loop Reconstruction of Simulation-Ready Human-Scene Interactions

  • arXiv: https://arxiv.org/abs/2603.15612

  • Project Page:https://yukangcao.github.io/HSImul3R/

  • GitHub:https://github.com/yukangcao/HSImul3R


方法



以日常采集到的视频或图片作为输入,HSImul3R 通过 Physics-in-the-loop 的优化管线实现了模拟就绪的人体 - 场景交互重建。本文以图片输入的情况作为讲解。首先,他们提出了在重建管线中注入显式 3D 生成先验,以实现更优的人体 - 场景对齐。随后:(1)在正向优化中,作者提出了景针对性强化学习,通过优化人体运动来提高在仿真器中的交互稳定性。(2)在反向优化中,作者引入了直接仿真奖励优化(DSRO),利用仿真器关于稳定性的反馈来精细化场景几何。


具体而言,他们根据仿真的稳定性反馈定义了四种结果类型:第一类:物体在重力作用下无法保持自稳;第二类:物体在人体交互过程中失去平衡;第三类:物体虽能达到稳定状态,但不能和人体产生有意义的交互;第四类:物体和人体实现了稳定的交互。


人体 - 场景交互重建与对齐


HSImul3R 的第一阶段首先涉及基于基于 HSfM 来从日常采集到的数据中分别重建静态场景几何和动态人体动作。其中,他们来采用 DUSt3R 恢复环境的 3D 结构。对于人体运动估计,作者首先利用 SAM2 检测并关联跨帧个体,生成精确的掩码与 id 对应关系。随后,分别采用 4DHumans 和 ViTPose 提取初始的基于 SMPL 的运动序列及 2D 关键点  。由于初始的人体与场景重建可能处于不同的坐标空间,作者之后执行联合优化以将其统一。具体通过以下方式实现:(1) 以 2D 关键点   为引导的以人为中心的束调整(Bundle Adjustment);(2) 全局人体 - 场景对齐,通过最小化 ViTPose 检测的关键点与投影的 3D SMPL 关节之间的重投影误差,确保空间一致性。


通过显式 3D 结构先验进行对齐:尽管完成了上述初步对齐,两个关键问题依然存在:

(1) 重建的场景几何常包含结构错误,如组件断开、表面缺失或非封闭拓扑;

(2) 人体 - 场景对齐仅依赖于基于 2D 投影的监督,缺乏 3D 几何感知且易受遮挡影响。


这些缺陷不可避免地导致物理仿真器中的物理不稳定和漂移。为解决这些挑战,作者利用预训练生成模型的 3D 结构先验来修正场景几何,并施加更稳健的交互约束。 


具体而言,对于场景中的每个物体,我们自动识别该物体特征最显著的输入图像  ,并使用 SAM 提取其分割掩码。随后,利用预训练的图像转 3D 生成模型(如 MIDI)处理该视图,合成具有更高结构准确性的高保真 3D 表示:



其中   表示精细化后的 3D 场景,  为物体总数。作者随后通过显式 3D 约束来精细化人体 - 场景对齐。具体而言,若物体与人体未接触,通过以下损失函数优化其位置:



其中   表示距离物体最近的人体部位,  为物体顶点数。当物体与人体接触时,作者则应用:



其中   表示有符号距离函数(SDF),用于测量人体顶点   相对于物体表面的穿透深度。


正向优化:基于场景的人体动作优化


在完成人体 - 场景交互的初始 3D 重建和对齐后,下一步是确保其在物理仿真器中具有稳定的动力学表现。一种直接的方法是采用运动跟踪技术将重建的人体姿态重定向并放到仿真器中。然而,这样直接仿真原始重建结果的做法往往无法产生稳定的交互。在许多情况下,人形机器人会无意中碰撞附近的物体,导致物体与身体分离并独立静置于地面。这种不稳定性是因为传统的 3D 重建未考虑重力与交互力,无法验证姿态与物体放置在物理上是否可实现。 


为解决此问题,作者在基于强化学习的运动跟踪中引入了针对景的监督信号


具体而言,HSImul3R 提出了一个目标函数,要求人形机器人与相关场景物体保持空间邻近,鼓励在仿真过程中产生符合物理规律的接触。该损失定义为人足 / 手接触关键点   与其对应的最近物体表面点   之间的平均欧几里得距离:



其中   为人机接触数量,   表示局部接触区域内采样的物体表面点数量。


反向优化:仿真器引导的物体精细化


尽管带有场景针对性强化学习的正向优化增强了仿真稳定性,作者仍观察到稳定性比例尚不理想。研究发现,该问题很大程度上源于显式 3D 生成先验的质量不一,主要原因有二:(1) 生成的物体常包含结构缺陷(尤其是细长几何体),例如桌椅缺失腿部,导致其在无交互的情况下也无法在仿真器中自稳;(2) 输入图像中人体造成的严重遮挡常导致生成的物体出现表面畸变或异常凸起。这些局限使得人形机器人在仿真中难以建立稳定且符合物理规律的接触。 


直接仿真奖励优化 (DSRO):受 DSO 启发,他们提出了直接仿真奖励优化(DSRO),这是一种利用物理仿真反馈作为监督信号来精细化 3D 显式物体生成的创新方法。不同于依赖人工标注或 3D 真值的方法,DSRO 直接利用仿真结果来评估生成物体及其与人体交互的物理合理性。 


形式上,我们将 DSRO 目标定义为:



其中   为从训练集采样的图像,   为其生成的 3D 显式物体,   编码了从仿真中获得的稳定性反馈。其中,作者基于重力稳定性交互稳定性定义稳定性:


: 若 稳 定 否 则


稳定性由三个标准判定:(1) 物体必须在模拟器重力作用下保持直立和物理稳定;(2) 重建场景必须达到稳定的最终状态;(3) 交互必须包含实际接触,而非物体独立静置于地面。


HSIBench 数据集及仿真实验



为了支持本框架的训练与基准测试,作者们构建了一个专门针对人体 - 场景交互的数据集 ——HSIBench。该数据集通过系统性地采集交互场景构建而成,邀请了三名志愿者(两男一女)与多种物体进行交互,包括 8 把椅子、3 张桌子和 3 个沙发。


HSIBench 共记录了 300 个独特的 HSI 案例,每个案例均从 16 个不同视角进行拍摄,以提供丰富的多视图监督信号。上图中,作者提供了部分数据的示例图和仿真结果。


真机实验



除了仿真模拟之外,作者们基于 HSImul3R 优化的人体运动轨迹,实现了 sim-to-real 的真机实验。其中,他们首先利用 GMR 将人体动作重定向至 宇树 G1 人形机器人的形态。这些重定向后的动作随后被用作扩散引导强化学习(Diffusion-guided RL)的先验,在 IsaacGym 仿真器中训练全身控制策略。该框架允许智能体在强化学习训练阶段利用扩散模型的生成先验来学习稳健的平衡能力。训练完成后,生成的控制策略通过 Unitree SDK 直接部署到 G1 人形机器人硬件上。


如上图所示,该策略在 宇树 G1 真机上的成功部署表明,HSImul3R 精细化后的动作能够实现稳定的机器人 - 场景交互。该框架为利用 YouTube 等平台的海量低成本数据来增强大规模具身智能模型的训练数据提供了可扩展的基础。


总结


本文介绍了 HSImul3R,一个能够从非校准稀疏视角中重建仿真就绪人体 - 场景交互的框架。该方法方法集成了:(1) 接触感知交互模型,旨在缓解 3D 重建中的人与场景穿模的问题;(2) 场景针对性强化学习策略,用以提升仿真器内的交互稳定性;(3) 直接仿真奖励优化(DSRO)方案,利用仿真反馈微调图生 3D 生成模型,从而提高仿真成功率。此外,作者们采集了 HSIBench 数据集以支持训练与评估。实验证明,HSImul3R 在稳定仿真与高质量 3D 重建方面均达到了高保真效果,性能显著优于现有最先进方法。


尽管 HSImul3R 在仿真就绪重建领域迈出了第一步,但仍存在以下局限:

1. 成功率仍有提升空间:尤其是在涉及复杂交互或多物体(超过三个)的场景下;

2. 交互深度不足:在部分失败案例中,人体与物体趋向于各自独立站立,而非产生有意义的实质性交互;

3. 模型偏见:微调后的图生 3D 模型不可避免地继承了原始 MIDI 数据集及 HSIBench 的偏见,这可能限制其在域外场景的泛化能力。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com



我的理解是,正向优化像是给机器人做“体能训练”,让它适应特定的场景,学会如何在其中保持平衡和运动。反向优化则是给场景做“整形手术”,修复那些影响稳定性的结构缺陷。 缺少正向优化,机器人就像一个身体素质很差的人,即使场景很完美,也容易摔倒。缺少反向优化,场景就像一个坑坑洼洼的场地,即使机器人经过训练,也很难在上面稳定行走。 所以,这两个环节缺一不可,它们共同决定了重建结果的质量。

正向优化和反向优化让我想到了控制理论中的前馈控制和反馈控制。正向优化就像前馈控制,预先根据场景信息调整人体运动,以达到稳定状态。反向优化则像反馈控制,根据仿真结果不断调整场景几何,以消除误差。 如果只有正向优化,就像只有前馈控制,对环境的适应能力较差。如果只有反向优化,就像只有反馈控制,响应速度较慢,容易出现震荡。两者结合,才能实现快速、稳定的控制。

我觉得 HSIBench 最大的亮点在于它关注了人体与环境的交互,而不仅仅是孤立的人体或环境。这种思路对于具身智能研究非常重要,因为真实的智能体需要在与环境的交互中学习和成长。 未来数据集可以考虑以下几个方向:一是增加场景的复杂性,例如从室内场景扩展到室外场景,甚至包含动态变化的场景;二是增加交互的多样性,例如包含工具的使用、多人协作等更高级的交互;三是引入更多的模态数据,例如声音、力反馈等,以更全面地描述交互过程。

HSIBench 的构建思路在于系统性地采集人与各种物体的交互数据,并且从多个角度进行拍摄,这为模型提供了丰富的监督信号。这种思路可以借鉴到其他具身智能研究中,比如可以构建机器人与环境交互的数据集,或者智能体之间协作的数据集。未来数据集的发展方向,我认为应该更加注重多样性和复杂性,比如包含更多种类的物体、更复杂的交互动作、更真实的光照和环境条件。另外,还可以考虑加入触觉、力觉等传感器数据,以提供更全面的感知信息。

数据集这块,感觉现在很多都卷起来了,动不动就是超大规模。但我觉得更重要的是数据集的质量和多样性。HSIBench 这种小而精的数据集,反而更能聚焦特定问题,促进算法的突破。未来数据集可以考虑引入更多长时序的数据,模拟更复杂的交互过程。另外,可以借鉴游戏中的程序化生成技术,自动生成各种各样的交互场景,降低数据采集的成本。