TALE:基于Token预算感知的大模型高效推理技术

研究提出TALE框架,通过Token预算感知机制,在保证推理准确率的同时,压缩LLM输出长度,降低计算开销。实验表明TALE能有效提升LLM在资源受限场景下的推理效率。

原文标题:ACL 2025 | 基于Token预算感知的大模型高效推理技术

原文作者:机器之心

冷月清谈:

本文介绍了南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校的研究团队提出的TALE框架,该框架旨在解决大型语言模型(LLM)推理过程中Token冗余的问题。TALE的核心理念是在推理过程中引入“Token预算”这一约束机制,引导模型在限定的Token预算范围内完成有效推理,从而在保证推理准确率的同时,显著压缩输出长度、降低计算开销。TALE框架包含两种实现方式:基于预算估计与提示工程的TALE-EP和基于后训练内化Token预算感知的TALE-PT。TALE-EP通过提示工程动态控制Token生成,TALE-PT则通过后训练使模型本身具备Token预算感知能力。实验结果表明,TALE在多个数据集和模型上均表现出显著的压缩效果和良好的兼容性,能有效提升LLM在资源受限场景下的推理效率。

怜星夜思:

1、TALE框架中提到的“Token弹性”现象,在实际应用中可能带来哪些问题?除了文中提到的增加计算成本外,还有哪些潜在风险?
2、TALE框架的两种实现方式TALE-EP和TALE-PT,分别适用于哪些不同的应用场景?它们的优缺点分别是什么?
3、文章提到Qwen3和Claude 3.7等最新发布的大模型也引入了类似的预算控制机制。你认为“Token预算感知”未来会成为大模型推理的标配吗?为什么?

原文内容


本位作者分别来自南京大学,罗格斯大学和马萨诸塞大学阿默斯特分校。第一作者韩廷旭与共同第一作者王震霆是分别来自南京大学和罗格斯大学的博士生,研究方向聚焦于大模型推理以及安全负责任的生成式人工智能。通讯作者为南京大学房春荣教授。


随着大型语言模型(LLM)技术的不断发展,Chain-of-Thought(CoT) 等推理增强方法被提出,以期提升模型在数学题解、逻辑问答等复杂任务中的表现,并通过引导模型逐步思考,有效提高了模型准确率。


然而,这类方法也带来了新的挑战:模型生成的中间推理过程往往冗长,产生了大量冗余 Token,这显著增加了推理阶段的计算成本和资源消耗。在 LLM 日益走向实际部署的背景下,如何在保证推理能力的同时控制成本,已成为制约其大规模应用的核心问题。


为解决这一矛盾,近日来自南京大学、罗格斯大学和马萨诸塞大学阿默斯特分校的研究团队提出了一种基于 Token 预算感知 的 LLM 推理新框架 TALE,旨在保证推理准确率的同时,显著压缩输出长度、降低计算开销。


TALE 的核心理念是在推理过程中引入「Token 预算」这一约束机制,引导模型在限定的 Token 预算范围内完成有效推理。这种机制不仅可以提升模型对资源约束的适应性,也能促使其生成更加简洁、高效的推理路径。


该成果近日被自然语言处理顶级会议 ACL 2025 正式接收为 Findings。



  • 论文标题:Token-Budget-Aware LLM Reasoning
  • 论文地址:https://arxiv.org/pdf/2412.18547
  • GitHub:https://github.com/GeniusHTX/TALE

背景与动机:CoT Token 冗余与 Token 弹性现象


图 1:关于 Token 预算的直观示例。


以 CoT 为代表的推理增强技术,已被广泛集成至 GPT-4o、Yi 系列等主流模型中。但研究者发现,模型生成的中间推理过程往往冗长重复,输出 Token 数量成倍增长,带来了显著的计算与经济成本。


特别是在资源受限的边缘端推理任务部署场景(如教育答题、金融问询、代码理解)中,如何在「准确率」与「资源效率」之间取得平衡,成为当前急需解决的关键问题。该工作的研究者通过引入显式的 Token 预算信息,引导或训练模型在满足任务正确性的同时压缩推理过程,实现推理效率与性能之间的最优折中。


研究者首先通过不断降低问题的 Token 预算来探究模型思维链压缩的极限,并在系统性实验中观察到一个普遍存在的现象——Token Elasticity(Token 弹性)。即:当提示中施加过小的 Token 预算约束时,模型不仅难以遵守预算,反而可能耗费更多的 Token,导致总成本进一步上升。


这种「压缩失败反弹」的现象表明,当前 LLM 的推理行为在预算限制下存在一定的不稳定性和非线性响应,提示我们不能简单地通过减小预算来压缩推理,而是需要设计一套机制,引导模型在合理预算范围内产生最优推理路径。


为了实现这一目标,研究者提出了 TALE(Token-Budget-Aware LLM Reasoning) 框架,以实现推理质量与生成效率的协同优化。研究者给出了两种不同的具体实现方式:基于预算估计与提示工程的 TALE-EP(Estimation and Prompting) 以及基于后训练内化 Token 预算感知的 TALE-PT(Post-Training)


图 2:关于 Token 弹性现象的直观示例。


基于预算估计与提示工程的 TALE-EP(Estimation and Prompting)


图 3:TALE-EP 的框架图。


TALE-EP 是一种轻量级、即插即用的基于零样本提示的推理增强方法。TALE-EP 首先让模型自我估计对每个具体问题所需的合理 Token 预算,并在推理过程中将该预算信息融入输入提示中,引导模型在不超过预算的前提下生成推理过程。这种方法无需修改模型参数,仅通过提示工程即可实现对 Token 生成的动态控制,兼具灵活性与实用性。实验结果显示,TALE-EP 在多个数学推理数据集上显著降低了 Token 使用量,平均节省超过 60% 的推理开销,且保持了与传统 CoT 方法相当甚至更优的准确率。


图 4:TALE-EP 的实验性能展示。


基于后训练内化 Token 预算感知的 TALE-PT(Post-Training)


图 5:TALE-PT 的框架图


TALE-PT 则通过监督微调(SFT)偏好优化(DPO)的训练方式将 Token 预算感知内化为模型本身的推理能力。TALE-PT 首先通过搜索算法为每个问题寻找最优 Token 预算,并使用该预算生成精炼的推理路径作为「目标输出」,引导其在未来推理中主动生成更符合预算约束的输出。


实验结果显示,无论是采用 SFT 还是 DPO 方法进行后训练,TALE-PT 均可在维持推理准确率的同时,将平均推理所需的 Token 数量降低 40% 以上,显著优于原始的思维链推理方式。


图 6:TALE-PT 的实验性能展示。


结语


本研究围绕大型语言模型推理过程中的 Token 冗余问题,提出了具有前瞻性的解决方案——TALE 框架,通过引入「Token 预算感知」机制,实现了推理准确性与生成效率之间的有效平衡。值得一提的是,本文所提出的 Token 预算思想已开始在行业中获得响应,包括 Qwen3 和 Claude 3.7 等最新发布的大模型也引入了类似的预算控制机制(图 7 和 图 8 所示),用于优化推理效率与输出质量。


图 7:截取自 Qwen3 技术报告。


图 8:截取自 Claude Developer Guide。


实验结果表明,TALE 在多个主流数据集和模型上均表现出显著的压缩效果和良好的兼容性,进一步拓展了大型语言模型在资源受限场景下的应用边界。未来,该框架有望推广至更多任务类型和多模态场景中,推动大型模型推理走向更加可控、高效与可落地。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

Token弹性就像橡皮筋,预算给太少,它不仅没法变短,反而会拉得更长,浪费更多资源。除了计算成本,还可能导致模型输出质量下降,因为强行压缩可能让模型丢掉关键信息。另外,如果token数量不可控,对于一些按token计费的API服务来说,成本就难以预测了。

Token预算感知很可能成为大模型推理的标配。随着大模型在各个领域的广泛应用,推理成本问题日益突出。Token预算感知机制可以帮助开发者在性能和成本之间找到平衡点,从而降低部署和运营成本。此外,Token预算感知还有助于提高模型的安全性和可靠性。通过限制输出Token的数量,可以降低模型生成有害或不准确信息的风险。更重要的是,Token预算感知可以促进大模型的可持续发展,使其能够在更广泛的场景中得到应用。

从工程角度来看,TALE-EP 的实现成本较低,易于集成到现有的LLM应用中。然而,其效果受限于prompting技巧,可能需要领域专家进行大量的prompt engineering工作。TALE-PT 虽然效果更好,但需要重新训练模型,这涉及到数据收集、模型训练和验证等一系列复杂步骤,需要较高的技术门槛和计算资源。此外,TALE-PT 还可能引入新的偏差或降低模型的泛化能力。因此,在选择具体的实现方式时,需要在性能、成本和风险之间进行权衡。

TALE-EP就像一个聪明的提示词工程师,即插即用,轻量级,适合快速实验和部署,但对提示词的依赖性比较高。TALE-PT更像一个精通预算控制的老司机,需要训练,但效果更好,也更稳定,适合对性能要求高的场景。如果只是想快速试试水,用TALE-EP;如果想长期稳定地榨干模型的每一滴算力,就用TALE-PT。

从技术趋势来看,Token预算感知是模型效率优化的必然方向。随着模型规模的不断增大,计算资源和能源消耗也随之增加。Token预算感知可以看作是一种“绿色AI”的实践,通过优化模型推理过程,降低资源消耗,减少碳排放。此外,Token预算感知还可以促进模型的可解释性和可控性。通过显式地控制Token生成过程,可以更好地理解模型的推理行为,并对其进行干预和调整。因此,Token预算感知不仅是一种技术手段,更是一种设计理念,它将引导大模型朝着更加高效、可持续和可信赖的方向发展。

我觉得会!现在大模型推理太烧钱了,token就是钱啊!“Token预算感知”能有效控制成本,提高效率,对大家都好。而且,这也能让模型更好地适应各种资源受限的场景,应用范围更广。就像汽车的油耗控制一样,以后大模型也得精打细算着用token才行。

Token弹性现象确实值得关注。除了增加计算成本,还可能导致模型在有限的token空间内,为了满足预算约束而过度简化推理过程,从而牺牲了推理的深度和准确性。此外,这种现象可能导致模型输出不稳定,对相同的输入,由于token预算的微小变化,可能产生截然不同的结果,这对于需要稳定性和可复现性的应用场景是不可接受的。从安全角度考虑,如果攻击者能够巧妙地控制token预算,可能会诱导模型产生不安全或有害的输出。

TALE-EP (Estimation and Prompting) 的优势在于其轻量级和灵活性,无需对模型进行任何训练或修改,只需通过精心设计的提示即可实现Token预算的控制。因此,TALE-EP更适合于快速原型设计、低资源场景或需要频繁调整提示策略的应用。然而,TALE-EP 的性能可能受到提示词质量的限制,需要依赖于对模型行为的深入理解和大量的实验调优。TALE-PT (Post-Training) 则通过后训练的方式,将Token预算感知能力内化到模型中,从而获得更好的性能和鲁棒性。TALE-PT 更适合于对性能要求较高、资源相对充足的场景,例如大规模在线推理服务。缺点是需要额外的训练数据和计算资源,并且可能存在过拟合的风险。

从理论角度分析,Token弹性反映了模型内部推理机制与外部Token预算约束之间的不协调。当预算过低时,模型可能需要更多的“试错”步骤来寻找满足约束的输出,这反而导致了Token的浪费。此外,Token弹性还可能与模型的“遗忘”现象有关,即模型在生成后续Token时,可能会“忘记”之前的推理步骤,从而需要重新生成,进一步增加了Token消耗。因此,未来的研究需要深入理解模型内部的推理机制,并设计更加智能的Token预算分配策略。