「运动图灵测试」:用AI解构人形机器人与人类的动作差异

厦门大学等机构提出“运动图灵测试”,通过动作捕捉评估机器人运动的类人程度,发现当前机器人运动在动态性方面与人类仍有差距。

原文标题:CVPR 2026|机器人真的「像人」了吗?我们做了一场只看动作的图灵测试

原文作者:机器之心

冷月清谈:

厦门大学、OPPO研究院、上海科技大学联合提出了“运动图灵测试”,旨在评估人形机器人运动的类人程度。该测试通过将人类和机器人的动作转化为SMPL-X 3D骨骼模型,仅保留运动轨迹进行对比。研究团队构建了包含15类动作的HHMotion数据集,并通过PTR-Net模型进行类人度评估。实验结果表明,机器人在平缓动作上表现较好,但在高动态动作上与人类存在显著差距。同时,PTR-Net在类人度评估上优于多模态大模型,并可作为强化学习的奖励模型,引导机器人生成更自然的运动。

怜星夜思:

1、你觉得目前人形机器人在哪些场景下的“类人运动”最有价值?或者说,你最期待人形机器人在哪个领域展现出更接近人类的运动能力?
2、文章中提到“类人度的关键,不是姿势像,而是节奏像”,你对此有什么看法?你认为除了节奏,还有哪些因素会影响我们对机器人“类人度”的感知?
3、PTR-Net模型在评估类人度上优于大模型,这是否意味着在特定领域,专业模型仍然具有不可替代的价值?你认为未来专业模型和大模型会如何发展?

原文内容


本文第一作者来自厦门大学信息学院空间感知与计算实验室(ASCLab)2025级博士生李明哲、2024级硕士生刘梦茵,通讯作者为厦门大学沈思淇副教授,并由吴泽凯、林心成、张俊圣、颜明、谢曾烨、张长旺(OPPO研究院)、温程璐教授、许岚研究员(上海科技大学)、王程教授共同合作完成。研究团队长期聚焦于3D人体姿态估计、快速人体运动捕捉及相关多模态数据集构建。实验室主页:https://asc.xmu.edu.cn/


在各种机器人大会和短视频里,我们经常看到这样的画面:机器人能跑、能跳、能跳舞,甚至能打拳、做体操。它们看起来已经“很像人”,但是还是不够像,我们可以轻易地从机器人的外壳、皮肤、金属关节看出来这个是机器人,而不是人类。如果我们忽略掉它们的外表,只看机器人纯粹的运动轨迹,它们还像人吗?会不会很像?


厦门大学、OPPO研究院、上海科技大学联合提出的 “运动图灵测试”(Motion Turing Test),首次为这个问题立下了“标尺”。这项工作已被CVPR 2026接收,数据集、代码、评测基准将全面开源!



  • 论文标题: 

Towards Motion Turing Test: Evaluating Human-Likeness in Humanoid Robots

  • 论文链接:

https://arxiv.org/abs/2603.07334

  • 论文主页: 

http://www.lidarhumanmotion.net/mtt/


从图灵测试,到“运动图灵测试”


如果直接把机器人的测试视频拿给人类看,由于当前的机器人大多带有金属外壳或裸露的关节,测试者只需一秒钟就能通过“视觉外观”判断出它是机器人。


受经典“图灵测试”启发,研究者提出了一个新问题:如果只看“动作”,你还能分辨人类和机器人吗?


这就是论文提出的运动图灵测试:去掉所有外观信息,只保留“运动本身”,去区分一段动作是来自人类还是机器人。


研究者把所有人类和机器人的视频,都转换成SMPL-X 3D骨骼模型——去掉皮肤、外壳、表情,只留下纯粹的运动轨迹。


在这个“动作裸考”中,机器人的真实水平藏不住了:


  • 走路、站立这类平缓动作,得分勉强够到人类的一半多;

  • 跳跃、拳击这类高动态动作,机器人得分连人类的三成都不到;

  • 拳击分差达2.53,跳跃分差直接突破3.23(满分5分)。


原来,真正让机器人“不像人”的,不是外形,而是动作本身的僵硬、断裂、缺乏协调。


图1:图灵测试概念图


HHMotion数据集:1000段动作,500小时人工打分


为了支撑这一测试,研究团队构建了 Human-Humanoid Motion (HHMotion) 数据集。这是首个直接对比人机运动、聚焦“拟人性”评分的数据集。


特点可以总结为三个关键词:


1️⃣ 真正的人机对比
  • 11种先进人形机器人(如 Unitree、PM01)

  • 10位真实人类

  • 同一套动作体系


2️⃣ 动作覆盖广

共15类动作,包括:

  • 日常动作:站立、行走

  • 动态动作:跳跃、拳击、踢球等


3️⃣ 高质量人类标注
  • 30位标注者

  • 1000个动作片段

  • Likert 0–5评分(0表示完全像机器人,5表示完全像人类

总标注时长:500+小时


表1:HHMotion数据集与原先数据集对比


数据分析发现,机器人在不同动作上呈现出明显的能力不均衡现象。


在行走(分差 1.31)、坐下(分差 1.55)等相对平缓的动作上,机器人表现更接近人类;


在跳跃(分差 3.23)、拳击(分差 2.53)、跑步(分差 2.26)等高动态动作上,机器人与人类仍存在显著差距。


为什么动态动作这么难?


因为人类的跳跃、拳击,需要全身协调、重心控制、本能调整——这些是机器人目前最缺的。


哪怕姿势复刻得再准,动作的“断裂感”和“机械感”,人类一眼就能识破。


有趣的是,研究者还让人类刻意模仿机器人的僵硬动作,结果这些“人学机”的动作,和机器人的打分出现了重叠——这说明:类人度的关键,不是“姿势像”,而是“节奏像”。


PTR-Net:当大模型遇上“专业特长生”


你可能觉得:多模态大模型这么强,评估动作应该不难吧?结果让人大跌眼镜:


  • Gemini 2.5 Pro 平均绝对误差(MAE)最低 1.26

  • Qwen3-vl-plus 更是高达 1.77

  • 而研究者提出的 PTR-Net,MAE 只有 0.58


为什么大模型会输?


因为它们擅长的是“语义理解”,而不是“细粒度运动特征捕捉”。


大模型看视频,关注的是“这是什么动作”,而不是“这个动作流畅吗、协调吗、自然吗”。


而 PTR-Net 专为运动而生:


  • 双向LSTM 捕捉时间节奏

  • 时空图卷积(ST-GCN) 建模关节协调

  • 注意力池化 聚焦关键动作片段


它把“类人度评估”做成一个定量回归任务,学的是人类打分的“感觉”,而不是简单的“人/机二分类”。


这不是大模型的失败,而是“专精模型”的价值体现。


图2:PTR-Net 架构图


而 PTR-Net 不仅能打分,还能作为强化学习的奖励模型,引导机器人生成更自然的运动。


未来,我们可能真的能看到机器人动得像人一样自然、协调、有节奏。


图3:PTR-Net 与人类打分对比的可视化


此外,我们还对最新一代人形机器人进行了额外测试,其中包括在 2025 年底发布、备受关注的小鹏机器人XPeng IRON


在运动图灵测试的“去外观评估”下,小鹏机器人的表现令人惊喜: PTR-Net 预测其类人得分为 4.25,与人类真实打分 4.36 高度一致,已经非常接近“难以区分人类与机器”的临界水平。


换句话说——如果只看动作轨迹,不看外形,它已经在相当多的场景中“接近人类”。


图4:OOD样本打分结果


这并不是偶然现象。从我们采集的数据来看,当前一批领先的人形机器人(例如宇树 Unitree G1、小鹏 IRON、众擎EngineAI PM01等)在行走、站立、简单节奏动作上,已经展现出明显的“类人趋势”。


人形机器人的未来


我们从小就会走路、跑步、跳跃,从不用想该怎么动关节。这份与生俱来的自然,是目前最先进的机器人都难以复刻的。人类的运动,是亿万年进化的结果,是大脑、神经、肌肉、骨骼的完美协同。


它比逻辑推理、语言理解更基础,也更珍贵。人形机器人的发展,看似是技术的迭代,实则是人类对自身的不断解构和理解。而运动图灵测试,就是这份理解的“标尺”。


当有一天,机器人的运动能通过运动图灵测试,人类无法区分“是人还是机”时,我们收获的,不仅是一个更智能的机器人,更是对什么是人的一次全新认知。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

我觉得可能是康复训练或者辅助医疗领域。因为这些场景下的动作通常比较规范、重复,对速度和爆发力要求不高,机器人更容易模仿和学习。而且,这些领域对动作的“像人”程度要求可能相对较低,只要能完成功能即可,容错率更高。

同意楼上的观点,模仿是基础,创新是目标。机器人可以发展出更高效或者更适应特定场景的运动方式。比如,在太空环境中,机器人可能发展出类似漂浮的移动方式,这显然不是人类能做到的。

我认为是的。大模型虽然通用性强,但在特定领域,专业模型往往能更好地捕捉细粒度的特征,从而获得更好的效果。这就像全科医生和专科医生,各有优势。未来,我认为专业模型和大模型会相互融合,大模型提供通用的知识和能力,专业模型则在特定领域进行精细化的处理。

专业模型在特定任务上的优势是毋庸置疑的,但大模型的潜力也不可忽视。我认为未来的趋势是,大模型会不断学习和吸收各个领域的知识,逐渐具备更强的专业能力。而专业模型则可以借助大模型的力量,提升自身的泛化能力和鲁棒性。

我觉得在医疗康复领域最有价值。想象一下,机器人能够精确模仿康复师的动作,帮助病人进行训练,这能大大提高康复效率和质量。

我觉得在服务行业,例如养老院。如果机器人能像人一样自然地扶老人走路、做一些简单的家务,会给人们带来很大的便利和情感上的慰藉,而不是那种冷冰冰的机械感。