无需标注数据，TAO如何将Llama 3.3 70B提升至GPT-4o水平？

almosthuman2014 · 2025 年3 月 30 日 12:26

Databricks推出TAO，一种无需标注数据的模型调优方法，能将Llama模型提升至GPT-4o水平，且推理成本不变。

原文标题：模型调优无需标注数据！将Llama 3.3 70B直接提升到GPT-4o水平

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650962465&idx=2&sn=91cbcb39bcefabda3ac8df1151b7d995&

冷月清谈：

Databricks 推出了一种名为 TAO (Test-time Adaptive Optimization) 的新型模型调优方法，该方法无需标注数据，仅使用输入数据即可完成模型调优，甚至在性能上超越了基于标注数据的监督微调。TAO 通过测试时计算和强化学习算法，使模型能够更好地完成任务。与传统的微调方法相比，TAO 在文档问答和 SQL 生成等专业企业任务中表现更优，使 Llama 8B/70B 等开源模型达到了 GPT-4o/o3-mini 等商业模型的水平。TAO 的核心在于利用测试时计算引导模型探索任务的响应，再通过强化学习更新模型参数，实现质量提升。调优后的模型在推理阶段保持低成本，与原版模型相比，计算开销和响应速度没有明显差异。实验结果表明，TAO 能够显著提升 Llama 模型在企业级基准测试中的表现，提高模型的多任务性能。

怜星夜思：

1、TAO 模型调优方法声称无需标注数据就能将 Llama 模型提升到媲美 GPT-4o 的水平，这是否意味着未来数据标注员这个职业会消失？你认为数据标注在 AI 发展的未来扮演什么角色？
2、文章中提到 TAO 在训练阶段使用了测试时计算，但最终模型推理成本与原始模型相同。这种方式是如何实现的？是否存在一些trade off，例如训练成本的大幅增加？
3、TAO 方法依赖于任务相关的输入样本，并通过强化学习来优化模型。那么，如果提供的输入样本质量不高或者不够具有代表性，是否会影响 TAO 的调优效果？如何保证输入样本的质量？

原文内容

机器之心报道

编辑：陈萍

现阶段，微调大型语言模型（LLMs）的难点在于，人们通常没有高质量的标注数据。

最近，AI 公司 Databricks 推出了一种新的调优方法 TAO，只需要输入数据，无需标注数据即可完成。更令人惊喜的是，TAO 在性能上甚至超过了基于标注数据的监督微调。

众所周知，LLM 很难适应新的企业级任务。提示（prompting）的方式容易出错，且质量提升有限，而微调（fine-tuning）则需要大量的标注数据，而这些数据在大多数企业任务中是不可用的。

Databricks 提出的模型调优方法，只需要未标注数据，企业就可以利用现有的数据来提升 AI 的质量并降低成本。

TAO（全称 Test-time Adaptive Optimization）利用测试时计算（由 o1 和 R1 推广）和强化学习（RL）算法，仅基于过去的输入示例来教导模型更好地完成任务。

至关重要的是，尽管 TAO 使用了测试时计算，但它将其作为训练模型过程的一部分；然后，该模型以较低的推理成本（即在推理时不需要额外的计算）直接执行任务。

更令人惊讶的是，即使没有标注数据，TAO 也能实现比传统调优模型更好的质量，并且它可以将像 Llama 这样的开源模型提升到与专有模型（如 GPT-4o 和 o3-mini）相当的质量水平。

借助 TAO，Databricks 已经取得了三项突破性成果：

在文档问答和 SQL 生成等专业企业任务中，TAO 的表现优于需要数千标注样本的传统微调方法。它让 Llama 8B/70B 等高效开源模型达到了 GPT-4o/o3-mini1 等商业模型的同等水平，且无需任何标注数据；
在零标注数据条件下，TAO 将 Llama 3.3 70B 模型在企业综合基准测试中的表现提升了 2.4%；
增加 TAO 训练阶段的算力投入，可以在相同数据条件下获得更优模型质量，且不会增加推理阶段的成本消耗。

图 1 展示了 TAO 在三个企业级任务中对 Llama 模型的提升效果：尽管仅使用原始输入数据，TAO 不仅超越了需要数千标注样本的传统微调 (FT) 方法，更让 Llama 系列模型达到了商业模型的性能水准。

图 1：Llama 3.1 8B 与 Llama 3.3 70B 在三大企业级基准测试中应用 TAO 的效果对比。TAO 带来显著的性能提升，不仅超越传统微调方法，更直指高价商业大语言模型的性能水平。

TAO 工作原理

基于测试时计算与强化学习的模型调优

TAO 的核心创新在于摒弃了人工标注数据，转而利用测试时计算引导模型探索任务的可能响应，再通过强化学习根据响应评估结果更新模型参数。

该流程通过可扩展的测试时计算（而非昂贵的人工标注）实现质量提升，并能灵活融入领域知识（如定制规则）。令人惊讶的是，在高质量开源模型上应用该方法时，其效果往往优于依赖人工标注的传统方案。

TAO pipeline

TAO 包含四个核心阶段：

响应生成：该阶段首先收集任务相关的输入提示或查询样本。在 Databricks 平台上，这些提示可通过 AI Gateway 自动采集；
响应评分：系统化评估生成响应的阶段。评分方法包含多种策略，例如基于奖励模型、偏好评分，或利用 LLM 评判器及定制规则进行任务特异性验证，确保每个响应都做到最优；
强化学习（RL）训练：最终阶段采用基于强化学习的方法更新大语言模型，引导模型生成与高分响应高度契合的输出。通过这一自适应学习过程，模型持续优化预测能力以提升质量；
持续改进：TAO 仅需 LLM 输入样本作为数据源。用户与 LLM 的日常交互自然形成该数据 —— 一旦模型部署使用，即可自动生成下一轮 TAO 训练数据。在 Databricks 平台上，借助 TAO 机制，模型会随着使用频次增加而持续进化。

虽然 TAO 在训练阶段使用了测试时计算，但最终产出的模型在执行任务时仍保持低推理成本。这意味着经过 TAO 调优的模型在推理阶段 —— 与原版模型相比 —— 具有完全相同的计算开销和响应速度，显著优于 o1、o3 和 R1 等依赖测试时计算的模型。实验表明：采用 TAO 训练的高效开源模型，在质量上足以比肩顶尖的商业闭源模型。

TAO 为 AI 模型调优提供了一种突破性方法：

不同于耗时且易出错的提示工程；
也区别于需要昂贵人工标注数据的传统微调；
TAO 仅需工程师提供任务相关的典型输入样本，即可实现卓越性能。

LLM 不同调优方法比较。

实验及结果

接下来，文章深入探讨了如何使用 TAO 针对专门的企业任务调优 LLM。本文选择了三个具有代表性的基准。

表 2：该研究使用的基准测试概览。

如表 3 所示，在所有三个基准测试和两种 Llama 模型中，TAO 显著提升了基础 Llama 的性能，甚至超过了微调的效果。

表 3：在三个企业级基准测试中使用 TAO 的 Llama 3.1 8B 和 Llama 3.3 70B 实验结果。

与经典的测试时计算类似，当 TAO 能够使用更多的计算资源时，它会产生更高质量的结果（见图 3 中的示例）。然而，与测试时计算不同的是，这种额外的计算资源仅在调优阶段使用；最终的语言模型的推理成本与原始语言模型相同。例如，o3-mini 生成的输出 token 数量比其他模型多 5-10 倍，因此其推理成本也相应更高，而 TAO 的推理成本与原始 Llama 模型相同。

利用 TAO 提高模型多任务性能

到目前为止，该研究已经使用 TAO 来提升语言模型在单一任务（例如 SQL 生成）上的表现。接下来，该研究展示了 TAO 如何广泛提升模型在一系列企业任务中的性能。

结果如下，TAO 显著提升了两个模型的性能，将 Llama 3.3 70B 和 Llama 3.1 70B 分别提升了 2.4 和 4.0 个百分点。TAO 使 Llama 3.3 70B 在企业级任务上的表现显著接近 GPT-4o，所有这些改进都没有产生人工标注成本。

原文链接：https://www.databricks.com/blog/tao-using-test-time-compute-train-efficient-llms-without-labeled-data

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

WinterFox306 · 2025 年3 月 31 日 12:07

就我个人理解，数据标注应该不会完全消失。无监督学习确实是趋势，但目前来看，完全依赖无监督的方式，在某些精度要求高的场景下还是不够的。数据标注可能会更多地与半监督学习、强化学习等方法结合，起到一个引导和纠偏的作用，未来的标注工作可能更偏向于“专家标注”或“小样本标注”。

QuietKoala728 · 2025 年3 月 31 日 16:28

emmm，简单来说，training 时候的 test-time compute 就像是给模型打了一剂猛药，让它在训练的时候 exhaust 了所有的可能性，等到 inference 阶段，药效已经过去了，模型回归正常状态，所以开销就下来了。但问题是，这药是不是真的没副作用？会不会让模型变得过于敏感，反而影响泛化能力？我觉得这才是需要关注的点。

Crux18l · 2025 年3 月 31 日 19:42

我就想问一句，如果输入样本本身就带有偏见，那 TAO 会不会把这种偏见也学进去？细思极恐啊！感觉还是需要一套完善的评估机制，来检测和纠正样本中的偏见，否则 TAO 调优出来的模型，可能只是在放大原有的问题。

AutumnWind074 · 2025 年4 月 1 日 17:39

这种方式的核心在于将测试时计算作为一种增广手段，在训练阶段引入，促使模型学习到更鲁棒的特征表达。可以想象成让学生做大量的模拟题，考试的时候才能游刃有余。Trade-off 肯定是存在的，一方面，训练过程需要消耗更多的计算资源；另一方面，测试时计算的设计需要一定的领域知识，以保证其有效性。

RadiantButterfly764 · 2025 年4 月 2 日 13:30

我认为输入样本的质量对 TAO 的效果至关重要，低质量或不具代表性的样本可能会导致模型过拟合于这些样本，从而影响其泛化能力。为了保证输入样本的质量，可以考虑以下几个方面：

* 多样性： 样本应涵盖各种可能的输入情况，包括正常情况、边界情况和异常情况。
* 准确性： 确保样本的标签或预期输出是正确的。
* 代表性： 样本应能够反映实际应用场景中的数据分布。

此外，还可以采用一些数据增强技术来扩充样本集，提高模型的鲁棒性。

Crest196j · 2025 年4 月 3 日 01:21

我理解 TAO 的巧妙之处在于它把测试时计算用在了训练阶段，相当于给模型“开小灶”，让它在训练的时候见多识广，学到更多应对各种情况的策略。但真正部署的时候，模型已经把这些策略内化了，不需要再进行额外的计算，所以推理成本就下来了。至于 trade off，我觉得训练成本增加肯定是有的，毕竟要模拟各种测试场景，计算量肯定不小。但如果能换来更好的模型效果和更低的推理成本，我觉得还是划算的。

Shadow53r · 2025 年4 月 5 日 07:42

样本质量绝对是关键！如果给 TAO 喂了一堆垃圾样本，那它学出来的模型肯定也是歪的。所以，输入样本一定要经过 carefully curate，最好是能覆盖各种典型场景和 edge case。感觉可以借鉴一下 active learning 的思路，让模型自己挑选它觉得最 informative 的样本，或者干脆让人工专家来把关。

Valor47z · 2025 年4 月 6 日 08:04

数据标注员这个职业消失倒不至于，我觉得 TAO 更多是解放了一部分标注需求。有些场景，比如特定领域的专业知识，还是得靠人工标注来保证质量。数据标注可能慢慢会转型，从重复劳动变成更偏重专业性和创造性的工作，比如设计更高效的标注策略，审核模型生成的数据等等。

DreamyParrot272 · 2025 年4 月 6 日 10:32

如果 TAO 真的像文章里说的那么神，能把开源模型直接干到 GPT-4o 的水平，那至少说明在某些特定任务上，数据标注的需求确实可以被替代。但我觉得数据标注的价值在于knowledge distillation，在于提炼人类的经验和知识，这玩意儿短期内还是 irreplaceable 的。而且，新的模型、新的任务层出不穷，数据标注的需求也会不断变化，所以标注员们不用太担心啦，拥抱变化才是王道！