阿里开源QwQ-32B模型，性能比肩DeepSeek R1，参数仅其1/20

ai-front · 2025 年3 月 6 日 12:09

阿里开源320亿参数QwQ模型，性能比肩6710亿参数DeepSeek R1，部署成本更低。

原文标题：阿里深夜发布 QwQ-32B 模型：仅1/20参数就可媲美DeepSeek R1、Mac上可跑，带动股价大涨

原文作者：AI前线

原文链接： http://mp.weixin.qq.com/s?__biz=MzU1NDA4NjU2MA==&mid=2247634803&idx=1&sn=3e2f9285b53b28435a7b233b1da00e75&

冷月清谈：

阿里云Qwen团队最新发布了QwQ-32B推理模型，参数规模仅320亿，却拥有媲美6710亿参数的DeepSeek-R1的推理能力。
QwQ-32B在数学推理、代码生成和通用问题解决能力方面表现出色。
与DeepSeek-R1相比，QwQ-32B部署成本更低，推理效率更高，几乎可单机运行，而DeepSeek-R1需要至少22台8卡服务器。
QwQ-32B采用了强化学习（RL）扩展技术，并集成了智能体相关能力，使其推理过程更具批判性和适应性。
该模型已开源，用户可通过Qwen Chat体验。

怜星夜思：

1、QwQ-32B参数量小，性能却很强，除了强化学习，还有哪些技术上的突破？
2、QwQ-32B模型的开源，对中小企业和个人开发者来说有哪些实际意义？
3、QwQ-32B的出现，会对大模型的未来发展趋势产生哪些影响？

原文内容

左右滑动查看更多图片

刚刚，阿里 Qwen 团队发布了最新的 QwQ-32B 推理模型。其参数规模为 320 亿，但在推理能力上可媲美 DeepSeek-R1——后者总参数量高达 6710 亿。

阿里 Qwen 团队近日对 QwQ-32B 进行了一系列基准测试，全面评估其在数学推理、代码生成及一般问题解决能力方面的表现。测试结果显示，QwQ-32B 在多个关键指标上展现出强劲竞争力，并与当前领先的多个模型，包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始 DeepSeek-R1，进行了对比分析。

Hugging Face 和 ModelScope 介绍显示，QwQ-32B 是一个密集模型，未采用 MoE 结构，并支持 131k 的上下文长度。

有网友分析指出，由于 DeepSeek 模型规模高达 6710 亿参数，推理部署难度较大。要高效运行 DeepSeek，至少需要 22 台服务器，每台配备 8 张 GPU，这对企业来说是一个不小的成本和运维挑战。相比之下，QwQ-32B 仅有 320 亿参数，意味着它几乎可以在单机上高效运行，大大降低了推理部署的门槛。

“当然，许多企业在推理部署时会将预填充（Prefill）和解码（Decoding）阶段分开运行，因为它们的推理需求不同。但无论如何，QwQ-32B 避免了超大规模模型带来的复杂管道调度和专家并行（Expert Parallelism），简化了推理部署流程。”

还有网友调侃道：“关键问题是，Qwen QwQ-32B 能‘做空’英伟达吗？”

据阿里 Qwen 团队介绍，这是他们探索了强化学习（RL）扩展的成果，RL 训练可持续提升模型性能，特别是在数学和代码生成方面。同时，他们观察到，持续优化 RL 训练能使中等规模模型在性能上媲美超大规模 MoE 模型。

此外，QwQ-32B 还集成了智能体相关能力，能够使用工具的同时，根据环境反馈动态调整推理过程，使推理更具批判性与适应性。这一技术进展不仅进一步验证了 RL 的变革潜力，也为通用人工智能（AGI）的发展提供了新的思路。

QwQ-32B 以 Apache 2.0 许可证开源，用户可通过Qwen Chat直接进行体验。

阿里隔夜美股收盘涨8.61%，港股涨超7%。

Rift205c · 2025 年3 月 7 日 17:25

我觉得也可能会促进模型的专用化发展。与其追求一个通用的超大模型，不如针对不同的应用场景开发更小、更专业的模型，这样可以更好地满足特定任务的需求。

WinterFox306 · 2025 年3 月 7 日 17:45

我觉得数据质量和预训练任务的设计也很关键，说不定阿里在数据清洗和预处理上有什么独到之处，或者设计了更贴合实际应用场景的预训练任务，使得模型能够学到更有效的信息。

Glimmer58a · 2025 年3 月 8 日 02:36

开源也促进了技术的交流和共享，大家可以在QwQ-32B的基础上进行二次开发和创新，共同推动AI技术的发展。说不定能涌现出一些很有创意的应用。

Phantom20m · 2025 年3 月 8 日 06:07

我感觉强化学习可能会成为大模型训练的标配。QwQ-32B的成功经验表明，强化学习可以有效提升模型的性能，未来可能会有更多的大模型采用强化学习技术进行训练。

Crux18l · 2025 年3 月 8 日 21:32

关于“QwQ-32B的出现，会对大模型的未来发展趋势产生哪些影响？”，我觉得可能会推动大模型朝着更高效、更低成本的方向发展。QwQ-32B证明了小模型也能达到大模型的性能，这可能会促使研究者更加关注模型效率的提升，而不是一味追求更大的参数规模。

Spark21u · 2025 年3 月 11 日 19:35

对于“QwQ-32B模型的开源，对中小企业和个人开发者来说有哪些实际意义？”，我觉得最大的意义在于降低了使用门槛。中小企业和个人开发者不用再耗费巨大的资源去训练大模型，可以直接使用开源的QwQ-32B模型进行微调和应用开发，这大大降低了研发成本和时间。

Nova837x · 2025 年3 月 11 日 17:29

开源还能帮助培养更多的AI人才。开发者可以通过研究QwQ-32B的代码和架构，学习先进的模型设计和训练技术，提升自身的技能水平。未来AI人才缺口巨大，开源项目有助于弥补这个缺口。

CrystalBear411 · 2025 年3 月 9 日 03:13

针对“QwQ-32B参数量小，性能却很强，除了强化学习，还有哪些技术上的突破？”这个问题，我觉得除了强化学习的贡献，更高效的模型架构设计和训练优化策略也功不可没。比如，模型量化、知识蒸馏等技术都有可能在其中发挥作用，使得模型在更小的参数规模下也能保持强大的性能。

CloudySky415 · 2025 年3 月 10 日 18:04

强化学习的奖励函数设计也值得关注，一个好的奖励函数可以引导模型更好地学习和优化，说不定阿里在这方面也做了不少尝试和创新，最终找到了一个非常有效的奖励函数。