TeleAI发布TextOp框架:让机器人实时 "秒懂人话"

TeleAI发布TextOp,首创流式文本驱动人形机器人控制,实现机器人与人实时自然语言交互,为具身智能发展铺平道路。

原文标题:让机器人「秒懂人话」!中国电信TeleAI发布首个实时文本驱动人形机器人控制框架TextOp

原文作者:机器之心

冷月清谈:

中国电信TeleAI发布了首个实时文本驱动人形机器人控制框架TextOp,旨在解决当前人形机器人依赖预编程动作、缺乏自然交互的问题。TextOp通过流式文本指令实现机器人运动的实时控制和无缝动作切换,用户可以通过对话方式与机器人交互,改变了传统的机器人控制范式。该框架的核心在于双层架构设计,将高层意图规划与底层动作执行解耦,同时创新性地采用基于自由度的增量运动表示法,并使用数据增强策略缩小仿真与现实的差距。实验结果表明,TextOp 在动作成功率、轨迹质量和用户交互延迟等方面均表现出色,为内容创作、动作示范和遥操作等领域带来了新的可能性,是迈向通用具身智能的重要一步。

怜星夜思:

1、TextOp 框架中提到的“自产自销”的数据增强策略,具体是如何缩小仿真与现实之间的差距的?这种方法在其他机器人研究领域是否有借鉴意义?
2、TextOp 通过文本指令控制机器人,那么对于更加复杂的、需要多轮交互才能完成的任务,例如“帮我倒杯水”,TextOp 是如何处理的?它是否需要结合大语言模型(LLM)才能实现?
3、TextOp 在哪些实际应用场景中最有潜力?除了文章中提到的内容创作、动作示范和遥操作,还有没有其他值得期待的应用方向?

原文内容


人形机器人正在舞台上大放异彩:街舞、空翻、武术套路…… 但这些令人眼花缭乱的表演,大多暗藏「玄机」—— 它们往往依赖预录的人类动作跟踪,通过「一个动作一个策略」的僵硬模式实现。想要换一支舞?需要手动切换模型。想临时加个动作?只能拿起遥控器。这种「表面智能,本质播放」的模式,让机器人始终无法走出实验室,更无法满足人们对「人机自然交互」的期待。


针对这一痛点,中国电信人工智能研究院(TeleAI)具身智能团队推出人形机器人 TextOp 通用小脑,首创流式文本驱动的实时小脑控制范式。无需预编程、无需遥控器,用户只需像对话一样随时发出文本指令,机器人即可在运动中实时理解、无缝切换动作,真正实现了「大脑随时改主意,小脑依然稳落地」的类人交互体验。


此项成果由中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授带领科研团队创新完成,并已在 GitHub 开源代码仓库。


  • 项目主页: https://text-op.github.io/

  • 代码仓库: https://github.com/TeleHuman/Textop


在深入了解技术细节之前,让我们先通过视频感受 TextOp 带来的革命性变化:



TextOp 表现的重要特性:

  • 无缝衔接: 真正的一镜到底,所有动作一气呵成。

  • 舞姿多变: 从律动的街舞到优雅的民族舞,风格切换行云流水。

  • 武术展示: 功夫套路刚柔并济,展现惊人的动态平衡能力。

  • 情感交互: 挥手、点头,肢体语言细腻如人。

  • 即时响应: 现场观众随机给出指令,机器人毫秒级反应,指哪打哪。


试想这样一个场景:你对身边的机器人说「来一段街舞」,它立刻随着节奏律动;紧接着你发出新指令「做一个跳跃动作」,它瞬间腾空而起;随后你说「挥手打个招呼」,它又能优雅地切换回社交模式。整个过程中,机器人始终保持流畅的全身运动,并且能够根据你的实时指令无缝切换各种动作


图 1:TextOp 概览 - 实现人形机器人通过实时文本指令执行多样技能的无缝序列。


从「预编程」到「对话式」:

机器人控制的新范式


现有的机器人通用控制器系统往往面临两难困境:要么依赖预设轨迹,动作死板僵硬;要么依赖人类远程操控(遥操作),失去了自主性。这种「一刀切」的模式,早已无法满足人们对智能机器人「听得懂、动得快、变得强」的期待。


TeleAI 研究团队敏锐地捕捉到了这一痛点:如何让机器人像人类交流一样,通过自然语言实现实时、连续的交互控制?


基于此,TextOp 应运而生。其核心创新在于提出了「流式文本驱动的人形机器人实时控制范式」。与传统的「一次性指令」不同,TextOp 支持流式文本指令(Streaming Text Commands)—— 这意味着用户可以在机器人执行任务的过程中随时修改意图,机器人能实时「听懂」并立即调整动作,真正做到言出法随。

 

图 2:TextOp 方法架构 - 包含交互式运动生成、运动跟踪和部署三个主要部分


解密 TextOp:三大核心技术引擎


为了实现这一突破,TextOp 在架构设计和算法层面进行了三大关键创新,巧妙解决了「意图理解」与「精准控制」之间的矛盾。


1. 双层架构设计:让「大脑」与「小脑」完美协同


TextOp 采用了一种类人的双层架构,将高层的意图规划与底层的动作执行巧妙解耦:


  • 上层 “大脑”(生成器):

1. 采用自回归文本条件运动扩散模型(结合 VAE 与 LDM)。

2. 它像人类的大脑皮层一样,基于历史动作和当前文本指令,持续构想未来的短时运动轨迹(每次生成 8 帧),负责「想做什么」。


  • 下层 “小脑”(跟踪策略):

1. 采用通用全身运动跟踪策略(基于 PPO 强化学习训练)。

2. 它将上层生成的轨迹转化为高频关节指令(50Hz),负责「如何保持平衡地做出来」。


这种「层意图随时更新,低层控制始终稳定」的设计,确保了机器人即使在改变主意(切换指令)时,也能像人类一样保持步态的连贯和身体的平衡。


2. 创新的运动表示:专为机器人「量身定制」


传统的运动生成系统常直接套用 SMPL 等人体骨架模型,但机器人的机械结构(单自由度关节)与人类(球形关节)存在本质差异。


TextOp 并未生搬硬套,而是创新性地采用了基于自由度(DoF)的增量表示法。系统每一帧的特征包含:

  • 根姿态的旋转与增量

  • 局部平移增量

  • 关节角度及其增量、足部接触状态


这种表示方法天然地强制执行了机器人的运动学约束,从源头上保证了生成的动作不仅「像人」,而且在物理上「可行」。


3. 数据分布对齐:打通「仿真」到「现实」的最后一公里


在机器人研发中,「仿真训练」与「真实部署」之间往往存在巨大的鸿沟(Sim-to-Real Gap)。为了解决这一难题,TextOp 采用了一种巧妙的数据增强策略:

  • 挑战: 真实数据集的分布,与生成器在线生成的轨迹之间存在偏差。

  • 对策: 直接使用生成器的输出作为训练数据,来训练底层的跟踪策略。

  • 效果: 这种「自产自销」的策略,极大地缩小了训练与推理的分布差异,显著提升了机器人在真实环境中的鲁棒性。


真实机器人验证:跳舞、武术样样精通


研究团队在 Unitree G1 人形机器人上进行了大量真实世界测试。实验结果表明,TextOp 能够实现:


连续技能无缝切换


在连续测试中,机器人展现了惊人的多才多艺:

  • 舞蹈大: 从优雅芭蕾平滑过渡到动感街舞。

  • 武术高手: 连贯执行复杂的功夫套路。

  • 艺术家: 模拟弹吉他、拉小提琴,姿态惟妙惟肖。

  • 社交达人: 配合丰富的表达性手势,仿佛拥有了情绪。


图 4:技能展示 - 机器人在真实环境中执行多种技能:舞蹈、武术、演奏和表达性手势


强抗干扰能力


即使在受到外部推搡和拉扯的干扰下,TextOp 驱动的机器人依然能快速调整重心,保持任务的连续性。


图 5:鲁棒性测试 - 机器人在外部干扰下的实时恢复能力


硬核数据:性能指标全面领先


研究团队进行了系统的定量评估,全面验证了 TextOp 的技术优势。实验涵盖了真实机器人验证、系统实时性能、以及运动表示方法的对比分析。


表 1:真实机器人 30 秒长序列定量评估结果

 

表 2:系统实时性能表现

 

 3:不同运动表示方法性能对比

 

表 4:运动跟踪器在生成数据上的评估


实验结果表明,TextOp 在动作成功率、轨迹质量等关键指标上均达到学界领先水平。特别是用户交互延迟仅 0.73 秒,为实时交互应用奠定了坚实基础。


应用前景:重新定义人机交互


TextOp 的核心价值在于将人形机器人的运动控制从「预编程」升级为「对话式调用」。在多个场景已展现明确潜力:


  • 内容创作与表演编排。影视拍摄或舞台演出中,导演可通过文本实时调整机器人动作(如「切换街舞风格」、「加入挥手」),无需等待动捕录制,实现可即兴编排的「数字演员」。

  • 标准化动作示范。在体育教学或技能培训中,教练只需发送文本指令即可调取标准动作演示(如「展示深蹲姿势」),机器人即时呈现并能在受干扰后快速恢复,保证教学连续性。

  • 遥操作的智能中间层。在危险环境巡查等需人工介入的场景,TextOp 作为高层指令接口,操作员只需说「蹲下检查」,机器人自动规划平衡动作执行,降低逐关节操控的门槛。


结语:迈向通用具身智能的重要一步


虽然 TextOp 在环境感知和物理推理上仍有进化空间,但它成功解决了「从自然语言到物理动作」的映射难题,解决了 AI 领域长期存在的「符号接地(Symbol Grounding)」 问题。


正如论文结语所言:「将这种即时的动作执行能力,与大语言模型的高层推理相结合,我们将为全自主、通用的具身智能机器人铺平道路。」


TextOp 让我们看到,那个机器人能听懂我们、理解我们、并与我们共舞的未来,已然触手可及。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

优势很明显,就是降低了对真实数据的依赖,节约了成本。但潜在风险也不小,如果生成器本身就存在偏差,那么训练出来的模型也会继承这些偏差,甚至会放大这些问题。就像一个学生如果一直用错误的参考答案来学习,结果只会越学越偏。所以,在使用这种方法时,一定要确保生成器的质量,或者引入一些纠偏机制。

除了运动模型,另一个挑战可能在于感知能力的差异。人形机器人通常配备多种传感器,可以感知周围环境,并进行自主导航。而其他类型的机器人可能感知能力相对较弱,需要依赖外部输入或者预先设定的地图。TextOp框架可能需要与机器人的感知系统进行深度集成,才能实现更智能的控制。

这种自产自销的思路让我想到了GAN(生成对抗网络),GAN不就是通过生成器和判别器的互相博弈来提升模型性能的吗?TextOp的这种做法,本质上也是一种生成与判别之间的循环,可以有效缩小仿真和现实之间的差距。这种思路感觉在那些数据获取成本高昂,或者需要模型具备很强泛化能力的领域,都值得借鉴。

这个比喻很形象!“大脑”负责发号施令,“小脑”负责执行。感觉有了这个TextOp,以后教机器人跳舞就方便多了,直接语音控制,不用再写复杂的代码了。不过,这个“大脑”的理解能力还得再提高啊,不然我说了个方言,它听不懂就尴尬了。

感觉有点像软件工程里的前后端分离。前端负责接收用户指令(意图规划),后端负责执行底层操作(动作执行)。这种架构的优点是前后端可以独立开发和部署,互不影响。缺点是增加了系统复杂度,需要定义清晰的API接口。

我觉得在养老领域很有搞头啊!以后老人年纪大了,行动不方便,可以让TextOp控制的机器人帮忙做家务,照顾老人。而且,老人还可以通过语音和机器人互动,排解寂寞。

不过,前提是机器人的价格要降下来,不然普通老百姓用不起啊。

感觉TextOp在一些高危行业也能发挥作用,例如灾难救援、矿山作业等。可以让机器人代替人类进入危险环境,执行搜救、勘探等任务,降低人员伤亡风险。

当然,这需要结合其他的技术,例如视觉识别、环境感知等,才能让机器人在复杂的环境中自主行动。

“自产自销”的数据增强策略,本质上是直接使用生成器(也就是“大脑”)的输出作为训练数据来训练底层的跟踪策略(“小脑”),可以理解为“用魔法打败魔法”。

因为仿真环境和真实环境存在差异,导致在仿真环境中训练的模型,在真实机器人上表现不佳。而生成器在某种程度上模拟了真实世界的数据分布,用生成器的数据训练跟踪策略,就相当于让跟踪策略更好地适应了真实环境可能遇到的情况,从而提升了鲁棒性。

这种思路在其他sim2real问题中也有借鉴意义,比如可以用于自动驾驶、计算机视觉等领域。核心在于找到一个能生成更接近真实数据分布的“生成器”,然后用它来增强训练数据。

文章里提到 TextOp 目前主要解决了“从自然语言到物理动作”的映射问题,对于更复杂的任务,确实需要结合大语言模型(LLM)。

像“帮我倒杯水”这种任务,首先需要LLM理解任务目标,然后将其分解为一系列更具体的动作指令,例如“移动到桌子旁”、“拿起水杯”、“移动到饮水机旁”、“倒水”、“移动到我身边”、“放下水杯”等等。然后,TextOp 负责将这些指令转化为实际的机器人动作。

所以,TextOp 可以看作是 LLM 的一个执行器,负责将 LLM 的决策转化为物理行动。未来,随着 LLM 和具身智能的进一步发展,我们有望看到更加智能、更加自主的机器人出现。

倒杯水这种任务,感觉TextOp单独搞不定,肯定需要大模型的配合。大模型负责理解你的意图,然后把这个意图拆解成一系列小步骤,再让TextOp去执行。就像是有一个AI管家,它负责思考,TextOp负责干活。

不过话说回来,以后会不会出现那种“口是心非”的机器人啊?明明说“倒杯水”,结果给你倒了杯敌敌畏,想想就可怕。

数据增强策略我理解是这样的:因为仿真环境和真实环境存在gap,所以直接用生成器生成的数据来训练跟踪策略,使得跟踪策略更加适应生成器生成的数据,因为生成器的数据会更加贴近真实环境,所以可以缩小仿真和现实之间的差距。而且这种方法在其他机器人研究领域也有借鉴意义,比如在自动驾驶领域,可以使用仿真数据来训练自动驾驶模型,然后使用真实数据来微调模型,从而提高模型的泛化能力。

这个“自产自销”有点意思,感觉像是让机器人自己教自己走路。一般来说,仿真环境和真实环境肯定有差别,机器人需要适应真实环境中的各种不确定性。TeleAI这个做法,相当于是让机器人在一个相对真实的“梦境”中学习,然后再回到现实中,这样就能更好地适应环境了。

我觉得这个思路挺有启发性的,以后搞不好可以应用到游戏AI里,让AI在更真实的游戏环境中学习,提升游戏体验。

除了文章里提到的,我觉得在康复训练领域 TextOp 也很有潜力。可以根据康复师的指令,让机器人辅助患者进行各种康复动作,并且可以实时调整动作强度和幅度,提供个性化的康复方案。

另外,在教育领域也可以应用。比如,可以开发一些互动式的教学内容,让机器人扮演老师的角色,通过肢体动作和语言与学生互动,提升学习体验。

我觉得“帮我倒杯水”这种任务对 TextOp 来说还是有点难度的,因为它涉及到任务规划和物体识别等多个方面。TextOp 目前主要还是专注于运动控制,对于复杂的任务,需要结合大语言模型(LLM)进行高层决策和任务分解。LLM 可以将“帮我倒杯水”分解为一系列具体的动作指令,然后 TextOp 负责执行这些指令。

以后如果机器人真的能做到“理解”人类的需求,那生活就方便多了。不过,安全问题也需要重视,不然机器人“理解”错了,那就麻烦了。