阿里开源QwQ-32B模型,性能比肩DeepSeek R1,参数仅其1/20

阿里开源320亿参数QwQ模型,性能比肩6710亿参数DeepSeek R1,部署成本更低。

原文标题:阿里深夜发布 QwQ-32B 模型:仅1/20参数就可媲美DeepSeek R1、Mac上可跑,带动股价大涨

原文作者:AI前线

冷月清谈:

阿里云Qwen团队最新发布了QwQ-32B推理模型,参数规模仅320亿,却拥有媲美6710亿参数的DeepSeek-R1的推理能力。
QwQ-32B在数学推理、代码生成和通用问题解决能力方面表现出色。
与DeepSeek-R1相比,QwQ-32B部署成本更低,推理效率更高,几乎可单机运行,而DeepSeek-R1需要至少22台8卡服务器。
QwQ-32B采用了强化学习(RL)扩展技术,并集成了智能体相关能力,使其推理过程更具批判性和适应性。
该模型已开源,用户可通过Qwen Chat体验。

怜星夜思:

1、QwQ-32B参数量小,性能却很强,除了强化学习,还有哪些技术上的突破?
2、QwQ-32B模型的开源,对中小企业和个人开发者来说有哪些实际意义?
3、QwQ-32B的出现,会对大模型的未来发展趋势产生哪些影响?

原文内容

左右滑动查看更多图片

刚刚,阿里 Qwen 团队发布了最新的 QwQ-32B 推理模型。其参数规模为 320 亿,但在推理能力上可媲美 DeepSeek-R1——后者总参数量高达 6710 亿。

阿里 Qwen 团队近日对 QwQ-32B 进行了一系列基准测试,全面评估其在数学推理、代码生成及一般问题解决能力方面的表现。测试结果显示,QwQ-32B 在多个关键指标上展现出强劲竞争力,并与当前领先的多个模型,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始 DeepSeek-R1,进行了对比分析。

Hugging Face 和 ModelScope 介绍显示,QwQ-32B 是一个密集模型,未采用 MoE 结构,并支持 131k 的上下文长度。

有网友分析指出,由于 DeepSeek 模型规模高达 6710 亿参数,推理部署难度较大。要高效运行 DeepSeek,至少需要 22 台服务器,每台配备 8 张 GPU,这对企业来说是一个不小的成本和运维挑战。相比之下,QwQ-32B 仅有 320 亿参数,意味着它几乎可以在单机上高效运行,大大降低了推理部署的门槛。

“当然,许多企业在推理部署时会将预填充(Prefill)和解码(Decoding)阶段分开运行,因为它们的推理需求不同。但无论如何,QwQ-32B 避免了超大规模模型带来的复杂管道调度和专家并行(Expert Parallelism),简化了推理部署流程。”

还有网友调侃道:“关键问题是,Qwen QwQ-32B 能‘做空’英伟达吗?”

据阿里 Qwen 团队介绍,这是他们探索了强化学习(RL)扩展的成果,RL 训练可持续提升模型性能,特别是在数学和代码生成方面。同时,他们观察到,持续优化 RL 训练能使中等规模模型在性能上媲美超大规模 MoE 模型。

此外,QwQ-32B 还集成了智能体相关能力,能够使用工具的同时,根据环境反馈动态调整推理过程,使推理更具批判性与适应性。这一技术进展不仅进一步验证了 RL 的变革潜力,也为通用人工智能(AGI)的发展提供了新的思路。

QwQ-32B 以 Apache 2.0 许可证开源,用户可通过Qwen Chat直接进行体验。

阿里隔夜美股收盘涨8.61%,港股涨超7%。

我觉得也可能会促进模型的专用化发展。与其追求一个通用的超大模型,不如针对不同的应用场景开发更小、更专业的模型,这样可以更好地满足特定任务的需求。

我觉得数据质量和预训练任务的设计也很关键,说不定阿里在数据清洗和预处理上有什么独到之处,或者设计了更贴合实际应用场景的预训练任务,使得模型能够学到更有效的信息。

开源也促进了技术的交流和共享,大家可以在QwQ-32B的基础上进行二次开发和创新,共同推动AI技术的发展。说不定能涌现出一些很有创意的应用。

我感觉强化学习可能会成为大模型训练的标配。QwQ-32B的成功经验表明,强化学习可以有效提升模型的性能,未来可能会有更多的大模型采用强化学习技术进行训练。

关于“QwQ-32B的出现,会对大模型的未来发展趋势产生哪些影响?”,我觉得可能会推动大模型朝着更高效、更低成本的方向发展。QwQ-32B证明了小模型也能达到大模型的性能,这可能会促使研究者更加关注模型效率的提升,而不是一味追求更大的参数规模。

对于“QwQ-32B模型的开源,对中小企业和个人开发者来说有哪些实际意义?”,我觉得最大的意义在于降低了使用门槛。中小企业和个人开发者不用再耗费巨大的资源去训练大模型,可以直接使用开源的QwQ-32B模型进行微调和应用开发,这大大降低了研发成本和时间。

开源还能帮助培养更多的AI人才。开发者可以通过研究QwQ-32B的代码和架构,学习先进的模型设计和训练技术,提升自身的技能水平。未来AI人才缺口巨大,开源项目有助于弥补这个缺口。

针对“QwQ-32B参数量小,性能却很强,除了强化学习,还有哪些技术上的突破?”这个问题,我觉得除了强化学习的贡献,更高效的模型架构设计和训练优化策略也功不可没。比如,模型量化、知识蒸馏等技术都有可能在其中发挥作用,使得模型在更小的参数规模下也能保持强大的性能。

强化学习的奖励函数设计也值得关注,一个好的奖励函数可以引导模型更好地学习和优化,说不定阿里在这方面也做了不少尝试和创新,最终找到了一个非常有效的奖励函数。