Zoom提出Chain of Draft(CoD)技术,通过极简推理草稿,显著降低大语言模型token消耗和推理延迟,为LLM在时延敏感场景的应用带来新可能。
原文标题:全新CoD颠覆推理范式,准确率接近但token消耗成倍降低
原文作者:机器之心
冷月清谈:
怜星夜思:
2、文章提到 CoD 在某些任务中准确率略低于 CoT,未来 CoD 有哪些提升准确率的潜在方向?
3、CoD 被认为更接近人类推理方式,那么这种模仿人类思维的范式,是否会带来一些意想不到的风险?
原文内容
机器之心报道
随着推理模型 Deepseek R1 的爆火,Zoom 研究团队将认知科学中的思维链注入进 AI 推理领域,开创性地提出 Chain of Draft(CoD)技术框架,重塑大语言模型推理范式。
-
论文标题:Chain of Draft: Thinking Faster by Writing Less
-
论文地址:https://arxiv.org/pdf/2502.18600
-
设计稀疏的推理草稿,仅需 7.6% 的 token 量即可完成等效推理深度,开创了认知启发的模型压缩新路径;
-
端到端推理延迟压缩与部署成本的降低,推理延迟从 0.9 秒压缩至 0.7 秒,实现「降本增效」的双重突破;
-
提出了新的大模型重构推理架构,为金融高频交易、自动驾驶决策等时延敏感型应用提供了可行性验证,标志着 LLM 从实验室模型向工业引擎的实质性跨越。
-
首先基于思路链的结构化提示,构建端到端、简化认知等特征的思维稿;
-
继而设计思维稿对大模型驱动推理赋能,在 Claude 3.5 Sonnet 上实现算术推理 token 消耗从 189.4 骤降至 14.3(节省 92.4%);
-
最终通过并行稀疏注意力框架(吞吐量 + 3.8 倍)和动态批处理技术(批次弹性扩展 1-128)完成工业级优化,实测端到端延迟从 3.1 秒压缩至 1.6 秒(降幅 48.4%),为高频金融交易等场景提供亚秒级(<0.5s)高效推理支持。
-
基准测试实验选取了多个要求多步推理的基准测试,涵盖了数学推理、常识推理和符号推理等领域。
-
效率验证实验包括 token 消耗评估和推理延迟测试,其中 token 消耗评估包括精确测量 CoD 在各个基准测试任务中所使用的 token 数量,并与 CoT 进行对比;推理延迟测试通过 CoD 在不同任务中的端到端推理延迟,并与 CoT 进行比较。
-
成本效益实验基于 token 消耗和推理延迟等因素,计算 CoD 和 CoT 的单位推理成本。