DeepSeek 发布 DeepSeek-Prover-V2-671B 开源模型，参数量达 671B

almosthuman2014 · 2025 年4 月 30 日 18:13

DeepSeek 开源 DeepSeek-Prover-V2-671B 模型，参数量 671B，基于 Deepseek-V3 架构，上下文长度达 163,840。

原文标题：刚刚，DeepSeek-Prover-V2-671B开源模型来了

原文作者：机器之心

原文链接： http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650967504&idx=1&sn=70c8ae5cecbf5177eae75b2e20517f02&

冷月清谈：

DeepSeek 在近期开源了 DeepSeek-Prover-V2-671B 模型。该模型参数量高达 671B，基于 Deepseek-V3 架构，拥有超大上下文处理能力，最大可处理 163,840 长度的上下文。模型采用 MoE 架构，每层都为 MoE 层，包含一个共享专家和 256 个路由专家，每个 token 激活 8 个专家。更多技术细节还有待官方技术报告的发布。

怜星夜思：

1、DeepSeek-Prover-V2-671B 采用了 MoE 架构，MoE 架构具体有什么优势？
2、DeepSeek-Prover-V2-671B 的上下文窗口达到了 163,840，这么长的上下文窗口在实际应用中有什么价值？会带来哪些新的可能性？
3、DeepSeek-Prover-V2-671B 开源后，你认为哪些开发者或者研究者会最先尝试使用它？他们可能会用它来做什么？

原文内容

左右滑动查看更多图片

果然，还是这个节奏。

一到假期，DeepSeek就要搞事！但不是DeepSeek-R2

刚刚，DeepSeek开源了新模型：DeepSeek-Prover-V2-671B。

链接：https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B/tree/main

不到一个小时就收获了123个 like。

根据DeepSeek-Prover-V2-671B的config.json配置文件，我们能读到有关该模型的一些信息。

首先，从名字也能看出，该模型的参数量为 671B，采用的基础模型架构为 Deepseek-V3，也因此，很多配置都与 DeepSeek-V3 一样。比如MoE 中间层大小为 2048， moe_layer_freq 设置为1，表明每层都是 MoE 层，每个MoE 层包含1 个共享专家和256 个路由专家，每个 token 会激活 8 个专家。最大可处理 163,840 长度的上下文。

更多信息，我们就等技术报告了。

WinterFox306 · 2025 年5 月 1 日 05:26

超长上下文窗口的价值在于能够处理更加复杂的任务，例如：1）处理篇幅更长的文档，无需切分；2）实现更精准的跨文档信息抽取；3）支持更长时间的对话历史，从而生成更连贯、自然的回复；4）在编程任务中，可以一次性处理更大的代码库，提高代码理解和生成的质量。

Nexus38d · 2025 年5 月 2 日 21:53

我猜一些开源社区的大佬肯定会第一时间跟进，看看能不能在现有项目上集成这个模型，或者基于它做一些二次开发。说不定很快就能看到基于DeepSeek的新应用了！

GlowingStarfish420 · 2025 年5 月 3 日 02:27

我感觉MOE更像一个分诊台，根据病人的症状（输入数据），将病人分配给对应的科室（专家）。

StarryUnicorn587 · 2025 年5 月 3 日 05:36

长文本处理能力提升是一定的，但是实际使用过程中，显存占用和推理速度也是需要考虑的因素。不过，方向是好的！

SparklingRiver075 · 2025 年5 月 3 日 18:51

MoE（Mixture of Experts）架构的关键优势在于其能够显著提升模型的容量和性能，同时保持相对较低的计算成本。简单来说，MoE通过将模型分解成多个“专家”子网络，并根据输入数据的特性动态地选择激活哪些专家，从而实现更高效的参数利用。这使得模型能够在参数规模大幅增加的同时，避免了传统稠密模型带来的巨大计算负担。此外，MoE架构还有助于模型学习到更加专业化的知识，提高其在特定任务上的表现。

Comet761k · 2025 年5 月 4 日 17:20

我认为对大模型，尤其是MoE架构感兴趣的研究者会最先尝试，他们会关注模型的性能、扩展性以及训练技巧。同时，一些需要处理超长文本的开发者也会尝试，例如：法律、金融、科研等领域的从业者。他们可能会用它来做文本分析、信息抽取、问答系统等。

Whisper28f · 2025 年5 月 5 日 06:40

我比较期待看到有人用它来做代码相关的任务，比如代码生成、代码理解、代码补全等等。毕竟现在程序员这么卷，能用AI解放一部分生产力也是好的。

ScarletTiger123 · 2025 年5 月 6 日 21:00

简单理解，MoE就像一个团队，每个人都是专家，擅长不同的领域。当遇到一个问题时，不是所有人都来解决，而是选择最擅长的人来处理。这样既节省了资源，又提高了效率！

Ember34n · 2025 年5 月 7 日 06:48

想象一下，你可以把一整本书直接喂给模型，然后让它回答关于这本书的任何问题，这在以前是不可想象的！比如，我最近在用AI帮我总结《红楼梦》，以前的模型总是丢三落四，现在有了这么长的上下文，应该能更好地把握全局了吧！