中科大提出 LCPO：用 800 条样本让推理模型少说废话、少花算力

DatapiTHU · 2026 年5 月 29 日 11:34

中科大 LCPO 用少量数据训练，让推理模型显著缩短思维链且准确率不降反升。

原文标题：告别长篇废话！中科大极简训练破解大模型过度思考难题

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247666331&idx=2&sn=b00bec287ad731c7e39f7932f0a099d1&

冷月清谈：

中科大研究团队提出 LCPO（Length Controlled Preference Optimization），用于缓解大模型在简单问题上“过度思考”的现象。研究发现，推理模型本身已经能生成短且正确的答案，只是默认输出倾向偏长。团队通过筛选模型已掌握的 Easy 问题，将最短正确回答作为正样本、较长回答作为负样本，仅用 800 条训练样本和约 10.4 A100 小时完成偏好优化。LCPO 针对 DPO、SimPO、ORPO 等方法中 NLL 损失干扰长度偏好学习的问题进行了改进，使模型更专注于“短且对”的推理路径。实验显示，在 DeepSeek-R1-Distill-Qwen-1.5B/7B 上，模型推理长度可减少约一半，准确率基本保持甚至提升；在 MMLU、GPQA-Diamond、WinoGrande 等分布外任务上也能保持明显长度缩减，说明其学到的可能是更通用的高效推理习惯。

怜星夜思：

1、如果大模型能自己判断题目难度，是不是应该默认“简单题短答、难题长想”？
2、减少思维链长度会不会牺牲模型的可解释性？你更在意过程还是答案？
3、LCPO 这种“小数据偏好优化”会不会成为以后模型降本的常规操作？
4、模型“想太多”导致出错，这和人类反复检查反而改错答案是不是很像？

原文内容

本文约1700字，建议阅读5分钟
本文介绍了中科大 LCPO，轻量训练实现大模型精简推理且准确率提升。

你有没有遇到过，问大模型一个简单数学题，它却洋洋洒洒写了 5000 多字才出答案？这种“过度思考”不仅烧钱费时，还容易把对的改成错的。

现在，中科大研究团队提出了 LCPO（Length Controlled Preference Optimization），仅需 800 条数据、50 步训练，就让模型学会“言简意赅”——推理长度砍半，准确率甚至不降反升！

这项工作已被学术顶会 ICLR 2026 接收，代码已开源，感兴趣的小伙伴可以一探究竟：

论文标题：

Pruning Long Chain-of-Thought of Large Reasoning Models via Small-Scale Preference Optimization

论文链接：

https://arxiv.org/abs/2508.10164

源码链接：

https://github.com/SleepyWithoutCoffee/Small_Scale

1、大模型越来越聪明，也越来越“啰嗦”

以 DeepSeek-R1、QwQ-32B 为代表的大型推理模型（LRMs）靠长思维链（Long CoT）在数学、编程等复杂任务上大放异彩。但它们有个通病：

明明很简单的问题，也要长篇大论写一堆推理过程；
输出越长，计算成本越高，推理速度越慢；
更糟的是，面对简单的问题“想太多”有时反而容易出错——这就是所谓的过度思考（overthinking）。

现有的解决方案要么是推理时强行截断（效果不稳定，还伤性能），要么是大规模在线强化学习（Online RL）。后者训练系统复杂，动辄需要几十万条训练数据、上千 GPU 小时的算力投入。

于是，研究团队提出了两个核心问题：

第一，在模型已有的生成空间里，到底存不存在既短又对的推理路径？
第二，怎么用极少的训练和数据，把模型“推”到那条更高效的路径上？

2、关键发现：模型本就有“简洁模式”，只是没被激活

团队先用 DeepSeek-R1-Distill-Qwen-7B 做了个实验：对每个问题生成 16 个回答，按长度排序，观察准确率变化。

结果非常有意思：短回答（长度排名靠前的那些）准确率几乎不降，而长回答（排名靠后的）准确率反而暴跌。

〓长度分组实验

这说明什么？模型天生就会简洁推理，只不过它的“默认出厂设置”偏啰嗦。我们不需要教它新知识，只需要用合适的方法把它推向那个更高效的生成分布即可。

2、方法揭秘：三步走，四两拨千斤

基于上述洞察，团队设计了一套极致轻量的训练流程。

数据筛选：只学“学霸的简洁版答案”

他们用模型自己的答题正确率作为难度标签，把数学问题分成三档：

Easy（全对）：模型已完全掌握，没必要长篇大论；
Medium（部分对）：有点难度，但还能搞定；
Difficult（全错）：真不会，需要充分探索。

训练时只用 Easy 部分，并且把最短的正确回答作为“正面榜样”，最长的回答作为“反面教材”。这样一来，数据里全是“本来就会做的题，应该短且对”的强烈偏好信号，总共只用到 2.2 万条原始数据，实际用于训练的样本仅 800 条。

算法创新：LCPO，平衡“隐式 NLL 损失干扰”

团队深入分析了现有偏好优化方法（DPO、SimPO、ORPO 等）的目标函数，发现一个隐藏问题：负对数似然损失（NLL Loss）会干扰长度偏好学习。

在偏好学习使用的 sigmoid 函数中，“藏着” NLL Loss：

而这部分 Loss 会影响 sigmoid 的收敛。如果模型要完全学会一种长度为 1000 的解答，需满足：

实践中，可以取，而模型生成每个词汇的概率一般为 0.05～0.5，很难满足这一条件。简单来说，NLL Loss 会让模型过度拟合“正面回答”的表面形式，反而削弱了“短 vs 长”的对比学习效果，学不好高效推理的思维。

为此，他们提出了 LCPO，通过相同的数学形式直接平衡 NLL 的影响，让模型纯粹聚焦于长度偏好。而且，LCPO 无需任何超参数调优，开箱即用！

极致轻量：训练成本降低两个数量级

对比一下同类方法的资源需求：

该方法数据需求降低 1~2 个数量级，总训练成本仅约 10.4 A100 小时，而同类在线 RL 方法动辄上千小时。

4、效果明显：长度砍半，性能基本保持

在 DeepSeek-R1-Distill-Qwen-1.5B/7B 上的实验结果如下：

〓主要实验结果

更惊喜的是，即使仅在数学数据上训练，在训练数据以外的任务（如 MMLU、GPQA-Diamond、WinoGrande）上，模型依然保持长度缩减超 55% 的同时准确率稳中有升——说明它学到的是通用的“高效思考习惯”，而非死记硬背。

〓 OOD 实验结果

来看一个具体的例子：一道使用换底公式简化计算的简单数学题。在训练前，模型会在各个环节深入思考，在已经得到答案时依然陷入深深的“自我怀疑”，各种反复验算高达 8 次才给出最终回答！而在掌握“高效推理”的思维之后，仅做一次验算，既可以验证答案，又不至于过度谨慎，token 损耗直降 79.37%！

〓 case

5、启示与展望

这项工作的核心价值，在于揭示了一个深刻洞察：

大模型的生成空间中本就蕴藏着高效推理路径，我们只需用精巧的信号把这种思维“引导”出来，而不必大规模“改造”。

这为低成本、高效率的大模型行为对齐开辟了新思路：

模型面对简单问题自动“快速思考”，不再因输出过长而等待；
API 调用成本大幅下降，agent 使用更轻松；
减少“想多了”的窘境，有助于降低因“过度思考”而引入的失误。

编辑：于腾凯

校对：林亦霖

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

GentleBreeze816 · 2026 年6 月 1 日 20:37

关于“过程还是答案”，我个人更在意答案，但前提是可验证。比如数学题、代码题，答案能跑通就行；如果是投资建议或者医学解释，我还是希望看到关键推理步骤，不然不放心。

Crux18l · 2026 年6 月 2 日 00:09

回答 LCPO 会不会常规化：我觉得很有可能。现在大家都在卷大模型能力，但上线后真正花钱的是推理 token。能用几百条数据把输出长度砍下来，这对 API 服务商和企业客户都很有吸引力。

Torrent81h · 2026 年6 月 2 日 08:55

从系统设计角度看，可以把这个问题理解成动态 token budget 分配。简单任务给低预算，复杂任务逐步放宽预算，甚至中途触发“继续思考”。这样比固定 max token 或粗暴截断更合理。

Haven14j · 2026 年6 月 2 日 20:08

“想太多会错”这事太真实了。我考试最惨的一次就是检查时改错三道题。模型现在终于也学会了人类的内耗，某种意义上更像人了。

StormyRaven098 · 2026 年6 月 6 日 16:36

回答“简单题短答、难题长想”这个问题：我觉得方向是对的，但难点在于模型怎么可靠判断“简单”。很多题表面像小学题，实际可能有坑；如果一上来就短答，可能会把隐藏条件漏掉。比较稳的做法也许是先做一个轻量难度估计，再决定推理预算。