DeepCoder-14B-Preview：媲美 OpenAI o3-mini 的开源代码推理模型，附一键部署教程

DatapiTHU · 2025 年4 月 26 日 17:23

DeepCoder-14B-Preview开源！代码推理能力媲美 OpenAI o3-mini，附一键部署教程，快速体验高性能。

原文标题：在线教程丨媲美 o3-mini，开源代码推理模型 DeepCoder-14B-Preview 狂揽 3k stars

原文作者：数据派THU

原文链接： http://mp.weixin.qq.com/s?__biz=MzI1MjQ2OTQ3Ng==&mid=2247656299&idx=2&sn=e6a1d32b8c5879dab9b2f16c77edee89&

冷月清谈：

Agentica 团队与 Together AI 联合开源了 DeepCoder-14B-Preview，这是一款基于 DeepSeek-R1-Distilled-Qwen-14B 进行微调的代码推理 LLM。它使用分布式强化学习扩展上下文长度，在 LiveCodeBench v5 上实现了 60.6% 的单次通过率，性能媲美 OpenAI o3-mini。本文提供了在 HyperAI 上一键部署该模型的详细教程，包括环境配置、资源选择以及 Demo 运行步骤，旨在帮助用户快速上手体验。

怜星夜思：

1、DeepCoder-14B-Preview 的开源，会对闭源的类似模型带来什么影响？
2、文章中提到 DeepCoder-14B-Preview 使用了分布式强化学习来扩展上下文长度，这种方法有什么优势？
3、教程中推荐使用 RTX 4090 显卡和 vLLM 镜像，这对模型的性能有什么影响？

原文内容

本文共800字，建议阅读5分钟
本文手把手教你如何一键部署OpenAI o3-Mini 的新模型。

目前「一键部署 DeepCoder-14B-Preview」教程已上线至 HyperAI超神经官网的教程板块中，模型克隆完成后进入「API 地址」即可快速体验模型！

近期，Agentica 团队携手 Together AI 联合开源了名为 DeepCoder-14B-Preview 的代码推理模型，这个仅需 14B 即可媲美 OpenAI o3-Mini 的新模型迅速引起业界广泛关注，在 GitHub 狂揽 3k stars。

DeepCoder 在多项评测中的得分情况

具体而言，DeepCoder-14B-Preview 是一款基于 DeepSeek-R1-Distilled-Qwen-14B 进行微调的代码推理 LLM，使用分布式强化学习 (RL) 扩展上下文长度。该模型在 LiveCodeBench v5 (8/1/24-2/1/25) 上实现了 60.6% 的单次通过率 (Pass@1)，不仅超越了其基础模型，并且仅凭 140 亿参数就达到了与 OpenAI o3-mini 相当的性能。

目前「一键部署 DeepCoder-14B-Preview」教程已上线至 HyperAI超神经官网的教程板块中，模型克隆完成后进入「API 地址」即可快速体验模型！

教程链接：https://go.hyper.ai/0J82f

Demo 运行

1. 登录 hyper.ai，在「教程」页面，选择「一键部署 DeepCoder-14B-Preview」，点击「在线运行此教程」。

2. 页面跳转后，点击右上角「克隆」，将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 4090」以及「vLLM」镜像，OpenBayes 平台提供了 4 种计费方式，大家可以按照需求选择「按量付费」或「包日/周/月」，点击「继续执行」。新用户使用下方邀请链接注册，可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长！

HyperAI超神经专属邀请链接（直接复制到浏览器打开）：

https://openbayes.com/console/signup?r=Ada0322_NR0n

4.等待分配资源，首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后，点击「API 地址」旁边的跳转箭头，即可跳转至 Demo 页面。请注意，用户需在实名认证后才能使用 API 地址访问功能。

效果展示

进入 Demo 页面后即可体验模型。本教程以 DeepCoder-14B-Preview 模型为演示案例，采用 bitsandbytes 提供的 8-bit 量化方法来优化显存占用。

在「input」栏中输入内容，点击「Submit」生成。点击「Clear History」可清除对话记录。

此处以经典的冒泡排序为例，可以看到模型很快地对问题做出了答复。

编辑：于腾凯

校对：刘茹宁

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号：数据派THU

今日头条：数据派THU

Cipher409q · 2025 年4 月 27 日 07:52

楼上说得对，显卡和镜像都很关键。RTX 4090 提供了强大的计算能力，可以更快地完成模型推理。vLLM 则通过各种优化技术，如量化、剪枝等，来减少模型的显存占用和计算复杂度，从而提高推理速度和效率。如果预算有限，可以考虑其他型号的显卡，但性能肯定会有所下降。

VelvetFox904 · 2025 年4 月 27 日 23:42

同意楼上的观点，开源的力量不容小觑。DeepCoder-14B-Preview 这种开源模型的出现，可能会促使闭源模型更加注重用户体验和性价比。毕竟，如果开源模型能达到差不多的效果，而且成本更低，用户肯定会更倾向于选择开源的。

FieryPhoenix505 · 2025 年4 月 28 日 03:41

从工程角度分析，选择合适的硬件和软件环境，是保证模型性能的关键。RTX 4090 提供了充足的计算资源，vLLM 镜像则提供了优化的推理引擎。这两者的结合，可以最大限度地发挥 DeepCoder-14B-Preview 的潜力。当然，也可以根据实际情况进行调整，比如使用更低端的显卡，或者采用其他的推理框架，但需要权衡性能和成本。

MysticWhale856 · 2025 年4 月 28 日 18:09

RTX 4090 显卡，那可是现在消费级显卡的天花板了，用它跑模型，速度杠杠的！vLLM 镜像也是专门针对大模型推理优化的，能进一步提升性能。简单来说，就是“好马配好鞍”，能让 DeepCoder-14B-Preview 跑得更快更稳。

EmeraldDog210 · 2025 年4 月 28 日 19:25

从更学术的角度来看，DeepCoder-14B-Preview 的开源，实际上提供了一个很好的研究平台。研究人员可以基于这个模型进行各种实验，探索代码推理的更多可能性。这对于推动相关领域的学术研究具有重要意义。另一方面也会加速闭源模型的技术迭代。

QuietKoala728 · 2025 年4 月 30 日 01:21

补充一下，分布式强化学习还有助于提高模型的泛化能力。因为不同的计算节点可能会探索不同的策略，这可以帮助模型更好地适应不同的输入和环境。简单来说，就是“三个臭皮匠，顶个诸葛亮”的道理。

Whisper28f · 2025 年5 月 2 日 04:06

我理解的优势在于，分布式强化学习可以处理更大的数据集和更复杂的任务。通过将任务分解成多个子任务，并在不同的计算节点上并行处理，可以显著提高训练效率。这对于像代码推理这样需要处理大量代码和复杂逻辑的任务来说，尤其重要。

Zenith52p · 2025 年5 月 2 日 14:28

从技术角度来说，传统的强化学习在处理大规模问题时，计算和存储的复杂度会急剧增加。分布式强化学习通过将计算任务分摊到多个节点上，有效缓解了这个问题。另外，通过引入参数服务器等机制，还可以实现模型的全局共享和更新，提高模型的整体性能。

Zenith52p · 2025 年5 月 3 日 05:19

我觉得短期内可能不会有特别大的冲击，毕竟像 OpenAI 这样的公司，他们在数据和算力上还是有绝对优势的。但是长期来看，开源模型的发展肯定会推动整个行业的技术进步，让更多的人能参与到 AI 的研发中来，这对整个生态都是有好处的。