TeleAI发布TextOp框架：让机器人实时 "秒懂人话"

almosthuman2014 · 2026 年2 月 12 日 09:45

TeleAI发布TextOp，首创流式文本驱动人形机器人控制，实现机器人与人实时自然语言交互，为具身智能发展铺平道路。

原文标题：让机器人「秒懂人话」！中国电信TeleAI发布首个实时文本驱动人形机器人控制框架TextOp

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651016563&idx=2&sn=f93e05a638fcf915adb671af56e90207&

冷月清谈：

中国电信TeleAI发布了首个实时文本驱动人形机器人控制框架TextOp，旨在解决当前人形机器人依赖预编程动作、缺乏自然交互的问题。TextOp通过流式文本指令实现机器人运动的实时控制和无缝动作切换，用户可以通过对话方式与机器人交互，改变了传统的机器人控制范式。该框架的核心在于双层架构设计，将高层意图规划与底层动作执行解耦，同时创新性地采用基于自由度的增量运动表示法，并使用数据增强策略缩小仿真与现实的差距。实验结果表明，TextOp 在动作成功率、轨迹质量和用户交互延迟等方面均表现出色，为内容创作、动作示范和遥操作等领域带来了新的可能性，是迈向通用具身智能的重要一步。

怜星夜思：

1、TextOp 框架中提到的“自产自销”的数据增强策略，具体是如何缩小仿真与现实之间的差距的？这种方法在其他机器人研究领域是否有借鉴意义？
2、TextOp 通过文本指令控制机器人，那么对于更加复杂的、需要多轮交互才能完成的任务，例如“帮我倒杯水”，TextOp 是如何处理的？它是否需要结合大语言模型（LLM）才能实现？
3、TextOp 在哪些实际应用场景中最有潜力？除了文章中提到的内容创作、动作示范和遥操作，还有没有其他值得期待的应用方向？

原文内容

人形机器人正在舞台上大放异彩：街舞、空翻、武术套路…… 但这些令人眼花缭乱的表演，大多暗藏「玄机」—— 它们往往依赖预录的人类动作跟踪，通过「一个动作一个策略」的僵硬模式实现。想要换一支舞？需要手动切换模型。想临时加个动作？只能拿起遥控器。这种「表面智能，本质播放」的模式，让机器人始终无法走出实验室，更无法满足人们对「人机自然交互」的期待。

针对这一痛点，中国电信人工智能研究院（TeleAI）具身智能团队推出人形机器人 TextOp 通用小脑，首创流式文本驱动的实时小脑控制范式。无需预编程、无需遥控器，用户只需像对话一样随时发出文本指令，机器人即可在运动中实时理解、无缝切换动作，真正实现了「大脑随时改主意，小脑依然稳落地」的类人交互体验。

此项成果由中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授带领科研团队创新完成，并已在 GitHub 开源代码仓库。

项目主页： https://text-op.github.io/
代码仓库： https://github.com/TeleHuman/Textop

在深入了解技术细节之前，让我们先通过视频感受 TextOp 带来的革命性变化：

TextOp 表现的重要特性：

无缝衔接：真正的一镜到底，所有动作一气呵成。
舞姿多变：从律动的街舞到优雅的民族舞，风格切换行云流水。
武术展示：功夫套路刚柔并济，展现惊人的动态平衡能力。
情感交互：挥手、点头，肢体语言细腻如人。
即时响应：现场观众随机给出指令，机器人毫秒级反应，指哪打哪。

试想这样一个场景：你对身边的机器人说「来一段街舞」，它立刻随着节奏律动；紧接着你发出新指令「做一个跳跃动作」，它瞬间腾空而起；随后你说「挥手打个招呼」，它又能优雅地切换回社交模式。整个过程中，机器人始终保持流畅的全身运动，并且能够根据你的实时指令无缝切换各种动作。

图 1：TextOp 概览 - 实现人形机器人通过实时文本指令执行多样技能的无缝序列。

从「预编程」到「对话式」：

机器人控制的新范式

现有的机器人通用控制器系统往往面临两难困境：要么依赖预设轨迹，动作死板僵硬；要么依赖人类远程操控（遥操作），失去了自主性。这种「一刀切」的模式，早已无法满足人们对智能机器人「听得懂、动得快、变得强」的期待。

TeleAI 研究团队敏锐地捕捉到了这一痛点：如何让机器人像人类交流一样，通过自然语言实现实时、连续的交互控制？

基于此，TextOp 应运而生。其核心创新在于提出了「流式文本驱动的人形机器人实时控制范式」。与传统的「一次性指令」不同，TextOp 支持流式文本指令（Streaming Text Commands）—— 这意味着用户可以在机器人执行任务的过程中随时修改意图，机器人能实时「听懂」并立即调整动作，真正做到言出法随。

图 2：TextOp 方法架构 - 包含交互式运动生成、运动跟踪和部署三个主要部分

解密 TextOp：三大核心技术引擎

为了实现这一突破，TextOp 在架构设计和算法层面进行了三大关键创新，巧妙解决了「意图理解」与「精准控制」之间的矛盾。

1. 双层架构设计：让「大脑」与「小脑」完美协同

TextOp 采用了一种类人的双层架构，将高层的意图规划与底层的动作执行巧妙解耦：

上层 “大脑”（生成器）：

1. 采用自回归文本条件运动扩散模型（结合 VAE 与 LDM）。

2. 它像人类的大脑皮层一样，基于历史动作和当前文本指令，持续构想未来的短时运动轨迹（每次生成 8 帧），负责「想做什么」。

下层 “小脑”（跟踪策略）：

1. 采用通用全身运动跟踪策略（基于 PPO 强化学习训练）。

2. 它将上层生成的轨迹转化为高频关节指令（50Hz），负责「如何保持平衡地做出来」。

这种「高层意图随时更新，低层控制始终稳定」的设计，确保了机器人即使在改变主意（切换指令）时，也能像人类一样保持步态的连贯和身体的平衡。

2. 创新的运动表示：专为机器人「量身定制」

传统的运动生成系统常直接套用 SMPL 等人体骨架模型，但机器人的机械结构（单自由度关节）与人类（球形关节）存在本质差异。

TextOp 并未生搬硬套，而是创新性地采用了基于自由度（DoF）的增量表示法。系统每一帧的特征包含：

根姿态的旋转与增量
局部平移增量
关节角度及其增量、足部接触状态

这种表示方法天然地强制执行了机器人的运动学约束，从源头上保证了生成的动作不仅「像人」，而且在物理上「可行」。

3. 数据分布对齐：打通「仿真」到「现实」的最后一公里

在机器人研发中，「仿真训练」与「真实部署」之间往往存在巨大的鸿沟（Sim-to-Real Gap）。为了解决这一难题，TextOp 采用了一种巧妙的数据增强策略：

挑战：真实数据集的分布，与生成器在线生成的轨迹之间存在偏差。
对策：直接使用生成器的输出作为训练数据，来训练底层的跟踪策略。
效果：这种「自产自销」的策略，极大地缩小了训练与推理的分布差异，显著提升了机器人在真实环境中的鲁棒性。

真实机器人验证：跳舞、武术样样精通

研究团队在 Unitree G1 人形机器人上进行了大量真实世界测试。实验结果表明，TextOp 能够实现：

连续技能无缝切换

在连续测试中，机器人展现了惊人的多才多艺：

舞蹈大师：从优雅芭蕾平滑过渡到动感街舞。
武术高手：连贯执行复杂的功夫套路。
艺术家：模拟弹吉他、拉小提琴，姿态惟妙惟肖。
社交达人：配合丰富的表达性手势，仿佛拥有了情绪。

图 4：技能展示 - 机器人在真实环境中执行多种技能：舞蹈、武术、演奏和表达性手势

强抗干扰能力

即使在受到外部推搡和拉扯的干扰下，TextOp 驱动的机器人依然能快速调整重心，保持任务的连续性。

图 5：鲁棒性测试 - 机器人在外部干扰下的实时恢复能力

硬核数据：性能指标全面领先

研究团队进行了系统的定量评估，全面验证了 TextOp 的技术优势。实验涵盖了真实机器人验证、系统实时性能、以及运动表示方法的对比分析。

表 1：真实机器人 30 秒长序列定量评估结果

表 2：系统实时性能表现

表 3：不同运动表示方法性能对比

表 4：运动跟踪器在生成数据上的评估

实验结果表明，TextOp 在动作成功率、轨迹质量等关键指标上均达到学界领先水平。特别是用户交互延迟仅 0.73 秒，为实时交互应用奠定了坚实基础。

应用前景：重新定义人机交互

TextOp 的核心价值在于将人形机器人的运动控制从「预编程」升级为「对话式调用」。在多个场景已展现明确潜力：

内容创作与表演编排。影视拍摄或舞台演出中，导演可通过文本实时调整机器人动作（如「切换街舞风格」、「加入挥手」），无需等待动捕录制，实现可即兴编排的「数字演员」。
标准化动作示范。在体育教学或技能培训中，教练只需发送文本指令即可调取标准动作演示（如「展示深蹲姿势」），机器人即时呈现并能在受干扰后快速恢复，保证教学连续性。
遥操作的智能中间层。在危险环境巡查等需人工介入的场景，TextOp 作为高层指令接口，操作员只需说「蹲下检查」，机器人自动规划平衡动作执行，降低逐关节操控的门槛。

结语：迈向通用具身智能的重要一步

虽然 TextOp 在环境感知和物理推理上仍有进化空间，但它成功解决了「从自然语言到物理动作」的映射难题，解决了 AI 领域长期存在的「符号接地（Symbol Grounding）」问题。

正如论文结语所言：「将这种即时的动作执行能力，与大语言模型的高层推理相结合，我们将为全自主、通用的具身智能机器人铺平道路。」

TextOp 让我们看到，那个机器人能听懂我们、理解我们、并与我们共舞的未来，已然触手可及。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

RadiantButterfly764 · 2026 年2 月 12 日 18:07

优势很明显，就是降低了对真实数据的依赖，节约了成本。但潜在风险也不小，如果生成器本身就存在偏差，那么训练出来的模型也会继承这些偏差，甚至会放大这些问题。就像一个学生如果一直用错误的参考答案来学习，结果只会越学越偏。所以，在使用这种方法时，一定要确保生成器的质量，或者引入一些纠偏机制。

VelvetFox904 · 2026 年2 月 14 日 17:53

除了运动模型，另一个挑战可能在于感知能力的差异。人形机器人通常配备多种传感器，可以感知周围环境，并进行自主导航。而其他类型的机器人可能感知能力相对较弱，需要依赖外部输入或者预先设定的地图。TextOp框架可能需要与机器人的感知系统进行深度集成，才能实现更智能的控制。

Strider82w · 2026 年2 月 14 日 22:11

这种自产自销的思路让我想到了GAN（生成对抗网络），GAN不就是通过生成器和判别器的互相博弈来提升模型性能的吗？TextOp的这种做法，本质上也是一种生成与判别之间的循环，可以有效缩小仿真和现实之间的差距。这种思路感觉在那些数据获取成本高昂，或者需要模型具备很强泛化能力的领域，都值得借鉴。

Rift205c · 2026 年2 月 15 日 21:01

这个比喻很形象！“大脑”负责发号施令，“小脑”负责执行。感觉有了这个TextOp，以后教机器人跳舞就方便多了，直接语音控制，不用再写复杂的代码了。不过，这个“大脑”的理解能力还得再提高啊，不然我说了个方言，它听不懂就尴尬了。

SwiftGazelle777 · 2026 年2 月 16 日 15:28

感觉有点像软件工程里的前后端分离。前端负责接收用户指令（意图规划），后端负责执行底层操作（动作执行）。这种架构的优点是前后端可以独立开发和部署，互不影响。缺点是增加了系统复杂度，需要定义清晰的API接口。

SilentWhale233 · 2026 年2 月 18 日 00:35

我觉得在养老领域很有搞头啊！以后老人年纪大了，行动不方便，可以让TextOp控制的机器人帮忙做家务，照顾老人。而且，老人还可以通过语音和机器人互动，排解寂寞。

不过，前提是机器人的价格要降下来，不然普通老百姓用不起啊。

Zen15e · 2026 年2 月 18 日 21:28

感觉TextOp在一些高危行业也能发挥作用，例如灾难救援、矿山作业等。可以让机器人代替人类进入危险环境，执行搜救、勘探等任务，降低人员伤亡风险。

当然，这需要结合其他的技术，例如视觉识别、环境感知等，才能让机器人在复杂的环境中自主行动。

Beacon26j · 2026 年2 月 19 日 20:20

“自产自销”的数据增强策略，本质上是直接使用生成器（也就是“大脑”）的输出作为训练数据来训练底层的跟踪策略（“小脑”），可以理解为“用魔法打败魔法”。

因为仿真环境和真实环境存在差异，导致在仿真环境中训练的模型，在真实机器人上表现不佳。而生成器在某种程度上模拟了真实世界的数据分布，用生成器的数据训练跟踪策略，就相当于让跟踪策略更好地适应了真实环境可能遇到的情况，从而提升了鲁棒性。

这种思路在其他sim2real问题中也有借鉴意义，比如可以用于自动驾驶、计算机视觉等领域。核心在于找到一个能生成更接近真实数据分布的“生成器”，然后用它来增强训练数据。

ShimmeringSeal612 · 2026 年2 月 20 日 02:12

文章里提到 TextOp 目前主要解决了“从自然语言到物理动作”的映射问题，对于更复杂的任务，确实需要结合大语言模型（LLM）。

像“帮我倒杯水”这种任务，首先需要LLM理解任务目标，然后将其分解为一系列更具体的动作指令，例如“移动到桌子旁”、“拿起水杯”、“移动到饮水机旁”、“倒水”、“移动到我身边”、“放下水杯”等等。然后，TextOp 负责将这些指令转化为实际的机器人动作。

所以，TextOp 可以看作是 LLM 的一个执行器，负责将 LLM 的决策转化为物理行动。未来，随着 LLM 和具身智能的进一步发展，我们有望看到更加智能、更加自主的机器人出现。

ElectricEel339 · 2026 年2 月 22 日 11:33

倒杯水这种任务，感觉TextOp单独搞不定，肯定需要大模型的配合。大模型负责理解你的意图，然后把这个意图拆解成一系列小步骤，再让TextOp去执行。就像是有一个AI管家，它负责思考，TextOp负责干活。

不过话说回来，以后会不会出现那种“口是心非”的机器人啊？明明说“倒杯水”，结果给你倒了杯敌敌畏，想想就可怕。

MysticWhale856 · 2026 年2 月 22 日 21:07

数据增强策略我理解是这样的：因为仿真环境和真实环境存在gap，所以直接用生成器生成的数据来训练跟踪策略，使得跟踪策略更加适应生成器生成的数据，因为生成器的数据会更加贴近真实环境，所以可以缩小仿真和现实之间的差距。而且这种方法在其他机器人研究领域也有借鉴意义，比如在自动驾驶领域，可以使用仿真数据来训练自动驾驶模型，然后使用真实数据来微调模型，从而提高模型的泛化能力。

Wisp43b · 2026 年2 月 23 日 20:08

这个“自产自销”有点意思，感觉像是让机器人自己教自己走路。一般来说，仿真环境和真实环境肯定有差别，机器人需要适应真实环境中的各种不确定性。TeleAI这个做法，相当于是让机器人在一个相对真实的“梦境”中学习，然后再回到现实中，这样就能更好地适应环境了。

我觉得这个思路挺有启发性的，以后搞不好可以应用到游戏AI里，让AI在更真实的游戏环境中学习，提升游戏体验。

HarvestMoon921 · 2026 年2 月 24 日 03:43

除了文章里提到的，我觉得在康复训练领域 TextOp 也很有潜力。可以根据康复师的指令，让机器人辅助患者进行各种康复动作，并且可以实时调整动作强度和幅度，提供个性化的康复方案。

另外，在教育领域也可以应用。比如，可以开发一些互动式的教学内容，让机器人扮演老师的角色，通过肢体动作和语言与学生互动，提升学习体验。

Comet761k · 2026 年2 月 24 日 04:38

我觉得“帮我倒杯水”这种任务对 TextOp 来说还是有点难度的，因为它涉及到任务规划和物体识别等多个方面。TextOp 目前主要还是专注于运动控制，对于复杂的任务，需要结合大语言模型（LLM）进行高层决策和任务分解。LLM 可以将“帮我倒杯水”分解为一系列具体的动作指令，然后 TextOp 负责执行这些指令。

以后如果机器人真的能做到“理解”人类的需求，那生活就方便多了。不过，安全问题也需要重视，不然机器人“理解”错了，那就麻烦了。