神经符号方法在结构化任务中远胜VLA模型：更高成功率，更低能耗

DatapiTHU · 2026 年3 月 31 日 10:17

研究表明，在汉诺塔等结构化任务中，神经符号方法相比VLA模型成功率更高（95% vs 34%），能耗降低近100倍。通用模型不一定更划算。

原文标题：95% vs 34%成功率、能耗降低近100倍：神经符号方法击败VLA模型

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247665487&idx=2&sn=46f641b34dd62063308b11e50a352477&

冷月清谈：

塔夫茨大学研究表明，在汉诺塔等结构化长程任务中，神经符号架构（NSM）的性能和能效远超视觉-语言-动作（VLA）模型。NSM 在成功率上碾压 VLA（95% vs 34%），且在未训练过的复杂任务中仍表现出色。更重要的是，VLA 的微调能耗是 NSM 训练的近 100 倍。研究揭示了 VLA 在需要精确规则和长程推理的任务中的局限性，并强调了神经符号方法在特定领域的优势，尤其是在能耗敏感的应用中。VLA 模型更适合开放环境下的短程灵活操作，而神经符号架构可能更适合工业装配、实验室自动化等规则明确的任务。

怜星夜思：

1、神经符号方法在汉诺塔任务上表现出色，但在现实世界中，很多任务并没有如此明确的规则约束，那么神经符号方法在处理模糊、不确定性高的任务时，该如何应对？
2、文章中提到VLA模型在低级执行上存在偏差，例如抓取失败、放置位置不准。这是否意味着VLA模型在感知和运动控制方面还存在瓶颈？未来VLA模型在哪些方面需要改进，才能更好地应用于机器人领域？
3、文章中对比了VLA和神经符号方法在能源消耗上的差异，结果显示VLA能耗更高。在AI技术日益发展的今天，我们应该如何看待AI模型的能源消耗问题？

原文内容

来源：ScienceAI

        本文约2000字，建议阅读5分钟

        新研究揭示VLA在结构化长程任务中的根本局限。

过去两年，具身智能（embodied AI）走向一个明确方向：把视觉、语言和行动统一进一个大模型。这类模型被称为 Vision-Language-Action（VLA）模型——它们可以看、能听懂指令，还能直接输出动作。

但机器人学界正狂热地追逐越大越好的 VLA 大模型的同时，一个根本性的问题却被悄悄搁置：这些动辄数十亿参数、需要数天微调、运行时还要烧 GPU 的庞然大物，真的适合那些有明确规则和约束的结构化任务吗？

塔夫茨大学（Tufts University）的一支团队给出了一个响亮的否定答案。研究团队设计了一场「汉诺塔」操纵任务的公平对决：一方是当前最先进的开源 VLA 模型 π0，另一方则是一个结合了 PDDL 符号规划与扩散策略的神经符号架构（NSM）。

结果令人震惊——在 3 块汉诺塔任务上，NSM 成功率高达 95%，而 VLA 仅 34%；在面对未训练过的 4 块版本时，VLA 全军覆没，NSM 仍能达到 78% 的成功率。更讽刺的是，VLA 微调消耗的能量是 NSM 训练的近 100 倍。

相关的研究以「The Price Is Not Right: Neuro-Symbolic Methods Outperform VLAs on Structured Long-Horizon Manipulation Tasks with Significantly Lower Energy Consumption」为题，将于 5 月在维也纳国际机器人与自动化会议上发表，并发表于会议论文集。

论文链接：https://arxiv.org/abs/2602.19260

端到端 vs 神经符号

前文中所述的塔汉诺问题（Towers of Hanoi）是一款经典问题，这个任务具备三个关键特征：明确的规则约束、长时间规划（long-horizon）与强结构依赖，正是检验「推理能力」的理想场景。

在这任务中，π0 等模型在抓取、摆放等短程操作上虽然表现出色，但当任务需要多步推理、遵守特定规则（如汉诺塔的「大不能压小」）时，问题就暴露了——VLA 需要从演示中隐式地学习这些约束，而训练数据中任何细微的偏差或多样性都可能让模型无所适从。

而 NSM 则采用「分层」设计。高层用PDDL符号规划器，基于从少量演示中提取的抽象规则生成符号化计划；低层用扩散策略将计划转化为连续控制动作。这种设计将「推理」与「执行」解耦，规则清晰、可解释性强。

图 1：VLA 模型与 NSM 实验比较概述。

研究团队在 Robosuite 仿真环境中设计了三个难度递增的任务：单次抓取放置、3 块汉诺塔、4 块汉诺塔（后两者未见训练）。对比对象包括：

E2E-VLA：端到端微调，仅接收「玩汉诺塔」这一条高层指令。
PG-VLA：在外部规划器提供的最优子任务序列指导下微调，以隔离执行能力。
NSM：仅从50个简单的「堆叠」演示中学习，从未见过完整的汉诺塔求解过程。

图 2：数据集中的示例观测数据。

训练数据上，VLA 消耗了 300 个完整汉诺塔轨迹，而 NSM 只用了 50 个堆叠演示。硬件上所有实验在同一台 RTX 4090 上完成，并精确记录了 GPU/CPU 的功耗和能量消耗。

碾压性的结果差距

在最基础的三块塔汉诺任务中：

神经符号模型成功率：95%
最优VLA模型成功率：34%

差距接近 3 倍。

当任务稍微增加复杂度（4块）时：

神经符号模型仍能完成任务：78% 成功率
所有VLA模型：完全失败

表 1：训练硬件指标，比较 VLA LoRA 微调与 NSM 训练。

这意味着 VLA 不仅性能较低，而且几乎没有结构泛化能力。但这并非是结束，更关键的差距还在二者的能耗对比上。在训练阶段，VLA 微调能耗要高出神经符号方法近两个数量级（≈100倍）。即使是推理阶段，能耗也有接近 10 倍的差距。

VLA 的失败主因并非规划错误，而是低级执行上的偏差——反复抓取失败、放置位置不准。训练数据中的随机扰动（块位置偏移1cm）本意是增强稳健性，反而让模型难以锁定精确目标。在某些极端情况下，同一子任务指令的演示若区别较大，则很有可能出现对模型的强烈干扰，并进一步带来极高的失败率。

表 2：实验的功耗、能耗及任务表现。

能源风险与未来方向

研究团队将神经符号系统与熟悉的大型语言模型如 ChatGPT 或 Gemini 进行了类比。后者只是试图预测序列中的下一个词或动作，但这并不完美，可能导致结果失真或者出现错误的信息。而且，它们的能源消耗往往与任务本身不成比例。

VLA 或许更适合开放环境下的短程、灵活操作，而工业装配、实验室自动化、规则明确的物流任务，神经符号架构可能是更务实的选择。大规模部署时，能耗固然是一个不容小觑的问题。正如论文所言，「通用」不一定意味着更合算。

相关链接：https://techxplore.com/news/2026-03-neuro-ai-slash-energy.html

编辑：文婧

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

HarvestMoon921 · 2026 年4 月 8 日 10:32

我从经济学的角度来看这个问题。能源消耗也是一种成本，过高的能源消耗会限制AI技术的应用范围。例如，如果一个AI模型需要消耗大量的电力才能运行，那么它可能就不适合在一些电力资源匮乏的地区使用。因此，降低AI模型的能源消耗，也是提高其经济可行性的重要途径。可以通过优化模型结构、采用更高效的硬件等方式来降低能耗。