阿里开源320亿参数推理模型QwQ-32B,性能比肩DeepSeek-R1满血版

阿里开源320亿参数推理模型QwQ-32B,性能比肩DeepSeek-R1满血版,现已开放体验。

原文标题:阿里半夜开源全新推理模型,QwQ-32B比肩DeepSeek-R1满血版

原文作者:机器之心

冷月清谈:

阿里凌晨开源了全新推理模型QwQ-32B,参数量320亿,但性能可与6710亿参数的DeepSeek-R1满血版媲美。QwQ-32B基于Qwen2.5-32B,通过强化学习训练,尤其在数学和编码任务上提升显著。该模型已在Hugging Face和ModelScope开源,采用Apache 2.0开源协议,并可通过Qwen Chat体验。
QwQ-32B通过大规模强化学习进行训练,初步阶段侧重数学和编程任务,通过验证答案正确性和代码执行结果来提供反馈。后续增加了通用能力的强化学习,使用通用奖励模型和基于规则的验证器进行训练,提升了模型的通用能力。
QwQ-32B在LiveBench、IFEval和BFCL等基准测试中表现出色,甚至在某些指标上超越了DeepSeek-R1-671B。阿里表示,将更强大的基础模型与强化学习结合是通往AGI的可能路径,未来将继续探索智能体与RL的集成,以实现更强的推理能力。

怜星夜思:

1、QwQ-32B参数量远小于DeepSeek-R1,却能达到类似性能,这背后的技术原理是什么?仅仅是强化学习的功劳吗?
2、QwQ-32B在数学和编程任务上的强化学习是如何进行的?具体的数据集和评估指标是什么?
3、阿里开源QwQ-32B,对开源大模型社区和AI发展会带来哪些影响?

原文内容

机器之心报道

机器之心编辑部

今天凌晨 3 点,阿里开源发布了新推理模型 QwQ-32B,其参数量为 320 亿,但性能足以比肩 6710 亿参数的 DeepSeek-R1 满血版。



千问的推文表示:「这次,我们研究了扩展 RL 的方法,并基于我们的 Qwen2.5-32B 取得了一些令人印象深刻的成果。我们发现 RL 训练可以不断提高性能,尤其是在数学和编码任务上,并且我们观察到 RL 的持续扩展可以帮助中型模型实现与巨型 MoE 模型相媲美的性能。欢迎与我们的新模型聊天并向我们提供反馈!」


QwQ-32B 已在 Hugging Face 和 ModelScope 开源,采用了 Apache 2.0 开源协议。大家也可通过 Qwen Chat 直接进行体验!


  • 博客:https://qwenlm.github.io/zh/blog/qwq-32b/
  • Hugging Face:https://huggingface.co/Qwen/QwQ-32B
  • ModelScope:https://modelscope.cn/models/Qwen/QwQ-32B
  • 演示:https://huggingface.co/spaces/Qwen/QwQ-32B-Demo
  • Qwen Chat:https://chat.qwen.ai/


本地部署工具 Ollama 也第一时间提供了支持:ollama run qwq



千问官方发布了题为「QwQ-32B: 领略强化学习之力」的官方中文博客介绍这一吸睛无数的进展。考虑到,QwQ-32B 的发布可说是非常应景。



博客中写到,大规模强化学习(RL)非常具有潜力,在提升模型性能方面可望超越传统的预训练和后训练方法。


近期的研究表明,强化学习可以显著提高模型的推理能力。例如,DeepSeek-R1 通过整合冷启动数据和多阶段训练,实现了最先进的性能,使其能够进行深度思考和复杂推理。


而千问团队则探索了大规模强化学习(RL)对大语言模型的智能的提升作用,推理模型 QwQ-32B 便由此而生。


这是一款拥有 320 亿参数的模型,其性能可媲美具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1。该团队表示:「这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。」


QwQ-32B 中还集成了与 Agent(智能体)相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。该团队表示:「我们希望我们的一点努力能够证明强大的基础模型叠加大规模强化学习也许是一条通往通用人工智能的可行之路。」


模型效果


QwQ-32B 在一系列基准测试中进行了评估,包括数学推理、编程和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。



可以看到,QwQ-32B 的表现非常出色,在 LiveBench、IFEval 和 BFCL 基准上甚至略微超过了 DeepSeek-R1-671B。


强化学习


QwQ-32B 的大规模强化学习是在冷启动的基础上开展的。


在初始阶段,先特别针对数学和编程任务进行 RL 训练。与依赖传统的奖励模型(reward model)不同,千问团队通过校验生成答案的正确性来为数学问题提供反馈,并通过代码执行服务器评估生成的代码是否成功通过测试用例来提供代码的反馈。


随着训练轮次的推进,QwQ-32B 在这两个领域中的性能持续提升。


在第一阶段的 RL 过后,他们又增加了另一个针对通用能力的 RL。此阶段使用通用奖励模型和一些基于规则的验证器进行训练。结果发现,通过少量步骤的通用 RL,可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。


API


如果你想通过 API 使用 QwQ-32B,可以参考以下代码示例:



未来工作


千问团队还在博客中分享了未来计划,其中写到:「这是 Qwen 在大规模强化学习(RL)以增强推理能力方面的第一步。通过这一旅程,我们不仅见证了扩展 RL 的巨大潜力,还认识到预训练语言模型中尚未开发的可能性。在致力于开发下一代 Qwen 的过程中,我们相信将更强大的基础模型与依托规模化计算资源的 RL 相结合,将会使我们更接近实现人工通用智能(AGI)。此外,我们正在积极探索将智能体与 RL 集成,以实现长时推理,目标是通过推理时间扩展来释放更高的智能。」


QwQ-32B 收获无数好评


QwQ-32B 一发布就收获了无数好评,甚至我们的不少读者也在催促我们赶紧报道。


在前段时间的 DeepSeek 热潮中,大家都热衷于讨论满血版,因为蒸馏版性能受限。但是 671B 的满血版模型无法轻易部署,普通的端侧设备只能退而求其次。现在,Qwen 把模型大小打下来了,端侧有希望了吗?



有网友表示,手机上肯定还不行,但运行内存比较高的 Mac 或许可以一战。



还有人喊话阿里巴巴通义实验室科学家 Binyuan Hui 去做更小的模型。




还有人晒出体验,表示运行很快:



图片

苹果机器学习研究者 Awni Hannun 也同样已经在 M4 Max 上成功运行了 QwQ-32B,看起来速度非常快。

图片

在 Qwen 的官方聊天界面(Qwen Chat),我们已经能看到 QwQ-32B 的预览版模型。感兴趣的读者可以前去测试。


测试链接:https://chat.qwen.ai/


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


文章里提到,数学题是通过验证答案的正确性来提供反馈,编程题是通过代码执行结果来判断。至于具体的数据集和评估指标,文章没有详细说明,可能需要查阅官方博客或者论文。

强化学习肯定是关键因素,它能让模型更好地理解任务目标并进行优化。但我觉得模型架构和训练数据的影响也不能忽视,QwQ-32B可能是使用了更高效的架构或更优质的数据,才能在参数量较小的情况下达到如此性能。

开源模型的增多也可能引发一些担忧,比如模型被滥用或用于非法目的。所以,在推动开源的同时,也需要加强监管和伦理规范。

我觉得这会进一步推动开源大模型的发展,促进更多人参与到AI研究中来,并加速AI技术的应用落地。

QwQ-32B的开源可能会降低AI研究的门槛,让更多中小企业和开发者能够使用和定制大模型,从而促进创新和竞争。

这个我也很好奇,估计数据集应该包含各种数学和编程问题,评估指标可能包括准确率、代码运行效率等等。希望官方能公布更多细节。

我猜他们可能用了类似GSM8K、HumanEval之类的benchmark来评估模型的数学和编程能力,具体的数据集和指标还得等官方消息。

我觉得可以从两个方面来看。一是模型压缩和优化技术,可能QwQ-32B使用了某些技术,在保证性能的前提下减少了参数量;二是强化学习的有效性,通过强化学习,模型可以学习到更有效的推理策略,从而提高性能。

除了强化学习,我觉得预训练阶段也很重要。一个好的预训练模型可以为后续的强化学习提供一个更强大的基础,使其更容易达到高性能。QwQ-32B基于Qwen2.5-32B,这个基础模型本身可能就非常优秀。