DeepSeek 发布 DeepSeek-Prover-V2-671B 开源模型,参数量达 671B

DeepSeek 开源 DeepSeek-Prover-V2-671B 模型,参数量 671B,基于 Deepseek-V3 架构,上下文长度达 163,840。

原文标题:刚刚,DeepSeek-Prover-V2-671B开源模型来了

原文作者:机器之心

冷月清谈:

DeepSeek 在近期开源了 DeepSeek-Prover-V2-671B 模型。该模型参数量高达 671B,基于 Deepseek-V3 架构,拥有超大上下文处理能力,最大可处理 163,840 长度的上下文。模型采用 MoE 架构,每层都为 MoE 层,包含一个共享专家和 256 个路由专家,每个 token 激活 8 个专家。更多技术细节还有待官方技术报告的发布。

怜星夜思:

1、DeepSeek-Prover-V2-671B 采用了 MoE 架构,MoE 架构具体有什么优势?
2、DeepSeek-Prover-V2-671B 的上下文窗口达到了 163,840,这么长的上下文窗口在实际应用中有什么价值?会带来哪些新的可能性?
3、DeepSeek-Prover-V2-671B 开源后,你认为哪些开发者或者研究者会最先尝试使用它?他们可能会用它来做什么?

原文内容

左右滑动查看更多图片

果然,还是这个节奏。

一到假期,DeepSeek就要搞事!但不是DeepSeek-R2

刚刚,DeepSeek开源了新模型:DeepSeek-Prover-V2-671B。

链接:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B/tree/main

不到一个小时就收获了123个 like。

根据DeepSeek-Prover-V2-671B的config.json配置文件,我们能读到有关该模型的一些信息。

首先,从名字也能看出,该模型的参数量为 671B,采用的基础模型架构为 Deepseek-V3,也因此,很多配置都与 DeepSeek-V3 一样。比如MoE 中间层大小为 2048, moe_layer_freq 设置为1,表明每层都是 MoE 层,每个MoE 层包含1 个共享专家和256 个路由专家,每个 token 会激活 8 个专家。最大可处理 163,840 长度的上下文。

更多信息,我们就等技术报告了。

超长上下文窗口的价值在于能够处理更加复杂的任务,例如:1)处理篇幅更长的文档,无需切分;2)实现更精准的跨文档信息抽取;3)支持更长时间的对话历史,从而生成更连贯、自然的回复;4)在编程任务中,可以一次性处理更大的代码库,提高代码理解和生成的质量。

我猜一些开源社区的大佬肯定会第一时间跟进,看看能不能在现有项目上集成这个模型,或者基于它做一些二次开发。说不定很快就能看到基于DeepSeek的新应用了!

我感觉MOE更像一个分诊台,根据病人的症状(输入数据),将病人分配给对应的科室(专家)。

长文本处理能力提升是一定的,但是实际使用过程中,显存占用和推理速度也是需要考虑的因素。不过,方向是好的!

MoE(Mixture of Experts)架构的关键优势在于其能够显著提升模型的容量和性能,同时保持相对较低的计算成本。简单来说,MoE通过将模型分解成多个“专家”子网络,并根据输入数据的特性动态地选择激活哪些专家,从而实现更高效的参数利用。这使得模型能够在参数规模大幅增加的同时,避免了传统稠密模型带来的巨大计算负担。此外,MoE架构还有助于模型学习到更加专业化的知识,提高其在特定任务上的表现。

我认为对大模型,尤其是MoE架构感兴趣的研究者会最先尝试,他们会关注模型的性能、扩展性以及训练技巧。同时,一些需要处理超长文本的开发者也会尝试,例如:法律、金融、科研等领域的从业者。他们可能会用它来做文本分析、信息抽取、问答系统等。

我比较期待看到有人用它来做代码相关的任务,比如代码生成、代码理解、代码补全等等。毕竟现在程序员这么卷,能用AI解放一部分生产力也是好的。

简单理解,MoE就像一个团队,每个人都是专家,擅长不同的领域。当遇到一个问题时,不是所有人都来解决,而是选择最擅长的人来处理。这样既节省了资源,又提高了效率!

想象一下,你可以把一整本书直接喂给模型,然后让它回答关于这本书的任何问题,这在以前是不可想象的!比如,我最近在用AI帮我总结《红楼梦》,以前的模型总是丢三落四,现在有了这么长的上下文,应该能更好地把握全局了吧!