DeepCoder-14B-Preview:媲美 OpenAI o3-mini 的开源代码推理模型,附一键部署教程

DeepCoder-14B-Preview开源!代码推理能力媲美 OpenAI o3-mini,附一键部署教程,快速体验高性能。

原文标题:在线教程丨媲美 o3-mini,开源代码推理模型 DeepCoder-14B-Preview 狂揽 3k stars

原文作者:数据派THU

冷月清谈:

Agentica 团队与 Together AI 联合开源了 DeepCoder-14B-Preview,这是一款基于 DeepSeek-R1-Distilled-Qwen-14B 进行微调的代码推理 LLM。它使用分布式强化学习扩展上下文长度,在 LiveCodeBench v5 上实现了 60.6% 的单次通过率,性能媲美 OpenAI o3-mini。本文提供了在 HyperAI 上一键部署该模型的详细教程,包括环境配置、资源选择以及 Demo 运行步骤,旨在帮助用户快速上手体验。

怜星夜思:

1、DeepCoder-14B-Preview 的开源,会对闭源的类似模型带来什么影响?
2、文章中提到 DeepCoder-14B-Preview 使用了分布式强化学习来扩展上下文长度,这种方法有什么优势?
3、教程中推荐使用 RTX 4090 显卡和 vLLM 镜像,这对模型的性能有什么影响?

原文内容

本文共800字,建议阅读5分钟

本文手把手教你如何一键部署OpenAI o3-Mini 的新模型。


目前「一键部署 DeepCoder-14B-Preview」教程已上线至 HyperAI超神经官网的教程板块中,模型克隆完成后进入「API 地址」即可快速体验模型!


近期,Agentica 团队携手 Together AI 联合开源了名为 DeepCoder-14B-Preview 的代码推理模型,这个仅需 14B 即可媲美 OpenAI o3-Mini 的新模型迅速引起业界广泛关注,在 GitHub 狂揽 3k stars。


DeepCoder 在多项评测中的得分情况


具体而言,DeepCoder-14B-Preview 是一款基于 DeepSeek-R1-Distilled-Qwen-14B 进行微调的代码推理 LLM,使用分布式强化学习 (RL) 扩展上下文长度。该模型在 LiveCodeBench v5 (8/1/24-2/1/25) 上实现了 60.6% 的单次通过率 (Pass@1),不仅超越了其基础模型,并且仅凭 140 亿参数就达到了与 OpenAI o3-mini 相当的性能。


目前「一键部署 DeepCoder-14B-Preview」教程已上线至 HyperAI超神经官网的教程板块中,模型克隆完成后进入「API 地址」即可快速体验模型!


教程链接:https://go.hyper.ai/0J82f


Demo 运行


1. 登录 hyper.ai,在「教程」页面,选择「一键部署 DeepCoder-14B-Preview」,点击「在线运行此教程」。




2. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。



3.选择「NVIDIA GeForce RTX 4090」以及「vLLM」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!


HyperAI超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_NR0n




4.等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。




效果展示


进入 Demo 页面后即可体验模型。本教程以 DeepCoder-14B-Preview 模型为演示案例,采用 bitsandbytes 提供的 8-bit 量化方法来优化显存占用。


在「input」栏中输入内容,点击「Submit」生成。点击「Clear History」可清除对话记录。



此处以经典的冒泡排序为例,可以看到模型很快地对问题做出了答复。



编辑:于腾凯
校对:刘茹宁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

楼上说得对,显卡和镜像都很关键。RTX 4090 提供了强大的计算能力,可以更快地完成模型推理。vLLM 则通过各种优化技术,如量化、剪枝等,来减少模型的显存占用和计算复杂度,从而提高推理速度和效率。如果预算有限,可以考虑其他型号的显卡,但性能肯定会有所下降。

同意楼上的观点,开源的力量不容小觑。DeepCoder-14B-Preview 这种开源模型的出现,可能会促使闭源模型更加注重用户体验和性价比。毕竟,如果开源模型能达到差不多的效果,而且成本更低,用户肯定会更倾向于选择开源的。

从工程角度分析,选择合适的硬件和软件环境,是保证模型性能的关键。RTX 4090 提供了充足的计算资源,vLLM 镜像则提供了优化的推理引擎。这两者的结合,可以最大限度地发挥 DeepCoder-14B-Preview 的潜力。当然,也可以根据实际情况进行调整,比如使用更低端的显卡,或者采用其他的推理框架,但需要权衡性能和成本。

RTX 4090 显卡,那可是现在消费级显卡的天花板了,用它跑模型,速度杠杠的!vLLM 镜像也是专门针对大模型推理优化的,能进一步提升性能。简单来说,就是“好马配好鞍”,能让 DeepCoder-14B-Preview 跑得更快更稳。

从更学术的角度来看,DeepCoder-14B-Preview 的开源,实际上提供了一个很好的研究平台。研究人员可以基于这个模型进行各种实验,探索代码推理的更多可能性。这对于推动相关领域的学术研究具有重要意义。另一方面也会加速闭源模型的技术迭代。

补充一下,分布式强化学习还有助于提高模型的泛化能力。因为不同的计算节点可能会探索不同的策略,这可以帮助模型更好地适应不同的输入和环境。简单来说,就是“三个臭皮匠,顶个诸葛亮”的道理。

我理解的优势在于,分布式强化学习可以处理更大的数据集和更复杂的任务。通过将任务分解成多个子任务,并在不同的计算节点上并行处理,可以显著提高训练效率。这对于像代码推理这样需要处理大量代码和复杂逻辑的任务来说,尤其重要。

从技术角度来说,传统的强化学习在处理大规模问题时,计算和存储的复杂度会急剧增加。分布式强化学习通过将计算任务分摊到多个节点上,有效缓解了这个问题。另外,通过引入参数服务器等机制,还可以实现模型的全局共享和更新,提高模型的整体性能。

我觉得短期内可能不会有特别大的冲击,毕竟像 OpenAI 这样的公司,他们在数据和算力上还是有绝对优势的。但是长期来看,开源模型的发展肯定会推动整个行业的技术进步,让更多的人能参与到 AI 的研发中来,这对整个生态都是有好处的。