DeepSeek V3-0324 低调发布:代码能力逼近 Claude 3.5 Sonnet

DeepSeek V3-0324 低调发布,代码能力直逼 Claude 3 Sonnet!采用 MoE 架构,引入 MLA 和 MTP 技术,显著提升性能和速度。图灵新书《一本书玩转 DeepSeek》同步上市。

原文标题:DeepSeek V3-0324 低调发布,代码能力直逼 Claude 3.7 Sonnet

原文作者:图灵编辑部

冷月清谈:

DeepSeek 近期低调发布了最新的 V3-0324 版本,虽然没有大肆宣传,但其在代码能力上的提升引人注目,甚至可以与 Claude 3 Sonnet 相媲美。该版本已被开源,并在 Hugging Face 上提供下载和测试。DeepSeek V3-0324 基于 DeepSeek V3 架构,参数量高达 6850 亿,但推理过程中仅激活约 370 亿参数,降低了硬件需求。模型引入了多头潜在注意力(MLA)和多 Token 预测(MTP)等创新技术,提升了长距离依赖关系处理能力和生成速度。早期测试表明,V3-0324 在多个指标上均有显著提升,已成为顶尖的非推理类模型之一。与此同时,图灵社区也推出了《一本书玩转 DeepSeek》,该书由 AI 领域专家陈云飞(@花生)撰写,旨在帮助读者掌握 DeepSeek 的核心玩法和应用场景。

怜星夜思:

1、DeepSeek V3-0324 的 MoE 架构,推理时只激活部分参数,这在实际应用中会带来哪些优势和局限?比如在不同任务上的表现会不会有差异?
2、DeepSeek V3-0324 中提到的 MLA(多头潜在注意力)和 MTP(多 Token 预测)技术,对模型性能的具体提升体现在哪些方面?有没有实际案例或者数据可以支撑?
3、文章提到《一本书玩转 DeepSeek》,如果让你向完全不了解 DeepSeek 的人推荐这本书,你会从哪些方面介绍它的价值?

原文内容

没有铺天盖地的宣传,也没有大张旗鼓的发布会,DeepSeek 在 3 月 24 日晚间低调推出了最新的 V3-0324 版本,目前已在 Hugging Face 开源,可供下载和测试。

这次更新虽称不上是一次代际跨越,但其提升的幅度足以引起广泛关注,尤其是在代码能力方面,DeepSeek V3-0324 的表现甚至直逼 Claude 3.7 Sonnet

许多用户猜测,这一更新的 V3-0324 将作为 DeepSeek-R2 的基础,当然不排除这一可能性。而 R2 预计将在 2024 年 4 月或 5 月发布。

DeepSeek 这次的发布没有任何附加资料,显得格外低调。开发者 Awni Hannun 在本地测试后率先注意到这一发布,并将使用感受发布在 X 上。

在 512GB 内存的 Mac Studio 上运行 量化版本(使用 vLLM 和 mlc-llm),他测试后报告称推理速度超过 20 tokens/s。他表示:“这是我在笔记本上运行过的最强大模型。”

模型页面提供了配置文件和权重,但没有正式文档或性能评估,进一步凸显了此次发布的低调风格。此外,该模型还可通过 OpenRouter 进行在线测试,用户可以直接与其交互。

早期测试者普遍认为该版本相较前代有显著提升。AI 研究员 Xeophon 在 X 上表示:“在我的内部基准测试中,新版 DeepSeek V3 在所有测试指标上都有巨大提升,现已成为最强的非推理类模型,成功取代 Sonnet 3.5。”

DeepSeek-V3-0324 并非全新模型,而是 DeepSeek V3 架构(最早于 2024 年底推出)下的首个开源权重检查点。

这一发布让该架构对公众开放,并内置 FP8 量化支持——这是一种能够在内存效率与计算精度之间取得平衡的数值格式。

该模型采用 Mixture-of-Experts (MoE) 混合专家模型(有关混合专家模型您可以看这篇:)。

尽管其总参数量高达 6850 亿,但在推理过程中,仅有约 370 亿参数是活跃的,这大幅降低了硬件需求。

此外,DeepSeek-V3-0324 还引入了两项专注于性能提升的创新技术:

  • 多头潜在注意力(MLA) —— 提升注意力机制在长距离依赖关系处理上的能力。
  • 多 Token 预测(MTP) —— 允许模型每个推理步骤生成多个 Token,而非逐个输出,提高生成速度。

这些优化帮助 DeepSeek V3 系列在去年 12 月的首次测试中取得了亮眼的基准测试成绩。其上一版本在 MATH-500 测试中得分 90.2,远超 GPT-4o 的 74.6。

在 MGSM 测试中达到 79.8,表现同样强劲。在编程基准测试 HumanEval-Mul 上,它的表现甚至与 GPT-4o 持平。

尽管这些数据并未直接反映 V3-0324 的性能,但仍然展现了 DeepSeek V3 这一架构的强大潜力。

图灵首本 DeepSeek 应用图书上市啦!

作者是 AI 大佬陈云飞(@花生),带你轻松掌握 DeepSeek 核心玩法儿。


《一本书玩转 DeepSeek》

陈云飞(@花生)|著

超牛 DeepSeek 应用书,内容涉及 13 大场景,90 个实用案例,7 大技巧,4 大王炸组合,内容涵盖高效办公、副业变现、数据分析、企业级 DeepSeek 使用方案等等。可以说是普通人了解 DeepSeek 最好的一本书。(附图书目录,点击查看)

作者简介

陈云飞(@花生),AI 自媒体博主,全网超过 20 万粉丝,是 AI 编程与 AI 应用领域的知名 KOL(其中 B 站粉丝 12 万+,YouTube 粉丝 5万+,小红书粉丝 4万+),其 B 站上关于 DeepSeek 的视频播放量已超过 300 万。
他拥有 10 年互联网大厂非技术工作经验,在不会写代码的情况下,曾借助 AI 编程开发 App Store 付费榜排名第一的爆款应用“小猫补光灯”。此外,他还运营知识星球“AI 编程:从入门到精通”,帮助数百名不会编程的普通人创作出自己的第一款产品。
同时,他也是 LinkedIn 上微软 AI 课程的培训讲师,并曾受邀前往美团、微软等国内外知名企业提供 AI 培训及分享。

大咖推荐

DeepSeek 带来了技术革命,如何更好地使用 AI,比反复讨论 AI 本身多厉害要更重要。未来未必会是 AI 负责一切,而更可能会是我们指挥和控制 AI 去完成一切。对 AI 的理解和使用,需要长期的探索和学习,而花生的这本书,正是一本入门的最佳指南,让你在面对空荡荡的输入框时,更有底气。

——刘飞,《三五环》《半拿铁》主播,产品经理

花生是我一直在关注的 AI 独立开发者,他不仅站在这波AI浪潮最前沿冲浪,还用 AI 做出了产品(比如“小猫补光灯”),赚到了钱,所以这本书比很多“AI爱好者”写的关于 DeepSeek 的书更落地。我拿到书稿以后,第一时间就全文阅读。DeepSeek 的热度也许很快过去(希望不要),但它周围那群理想主义的人,是未来真正的希望,希望我们都能成为其中一员。

——苏杰,产品创新顾问,《人人都是产品经理》丛书作者 

本书不仅是一本 AI 工具指南,更是一部探索人机协作新时代的实用宝典。陈云飞以清晰易懂的语言,带领读者从理解AI思维到掌握高效应用,再到探索进阶玩法,全方位展现了 DeepSeek 作为个人能力放大器的无限潜力。作为 AI 助手产品创始人,我深信这本书将助力你在 AI 时代脱颖而出。

——肖弘,蝴蝶效应(Monica)创始人&CEO

AI 的洪水已经淹过大腿。这本小书,记录了一个普通人的自救。读完后你会发现,跟网上热销的其他各种 AI 教程相比,它还挺靠谱的。

——杨健,腾讯集团副总裁,腾讯研究院总顾问

如何用好 AI 帮助我们创业,已经成为生财有术最重要的课题,花生在这个方向上走得很快且取得结果,这本书是他的经验总结,很有学习价值,推荐给大家。

——亦仁,生财有术创始人

AI 技术放大了个人的能力边界,作者花生以“零代码基础→ App Store 付费榜首”的实战成果验证了这一点。AI 时代战术层工具会迭代,但需求分析与工具整合的方法论永不过时。我把本书推荐给每一位想在这个时代更进一步的超级个体。

——庄明浩,前经纬创投 VP,《屠龙之术》主播

参考资料:https://www.newsbreak.com/

如果我向一个完全不了解 DeepSeek 的人推荐《一本书玩转 DeepSeek》,我会这样说:“这本书不是简单地教你用 DeepSeek,而是教你如何用 AI 改变你的工作和生活。它会告诉你 DeepSeek 到底是什么,能做什么,以及如何通过它来提高效率、创造价值。更重要的是,它会给你提供很多实际的案例和技巧,让你真正能够把 DeepSeek 用起来,而不是停留在‘听说很厉害’的阶段。无论你是想用 DeepSeek 来提高办公效率、做副业、还是进行数据分析,这本书都能给你提供很大的帮助。”

我会这样安利:“这本书就像 DeepSeek 的新手村指南,手把手教你从零开始玩转 DeepSeek。内容特别接地气,没有那些高大上的理论,全是实实在在的案例,教你如何用 DeepSeek 解决实际问题。就算你完全不懂 AI,也能轻松上手。而且,作者花生是大佬,跟着大佬学,肯定没错!”

这个问题问得好!MoE(Mixture of Experts)架构确实是 DeepSeek V3-0324 的一个亮点。它的优势在于可以用庞大的参数量来提升模型的能力,但实际推理时只激活一小部分参数,从而降低计算成本。这就像一个有很多专家的团队,每次只根据任务类型选择最合适的专家来工作。理论上,对于不同类型的任务,模型可以调用不同的“专家”,从而获得更好的表现。

局限性也是存在的。首先,如何有效地路由到合适的“专家”是一个挑战,路由策略的好坏会直接影响模型的效果。其次,MoE 模型的训练通常比传统模型更复杂,需要更多的数据和计算资源。最后,不同“专家”之间的能力差异可能会导致模型在某些特定任务上表现不佳。但总的来说,MoE 是一种很有潜力的架构,可以兼顾模型能力和效率,期待 DeepSeek 在这方面能有更多突破。

MLA 就像给模型装了个“超强大脑”,让它能记住更多更久的信息;MTP 就像给模型安了“火箭喷射器”,让它能更快地生成内容。虽然官方没给太多数据,但从字面上理解,肯定是对性能有很大提升的。我个人觉得,这两个技术对于需要处理长文本或者需要快速生成内容的场景特别有用。比如,写小说、写代码、做翻译等等,都能派上大用场。

MLA 和 MTP 这两个技术点确实值得关注。MLA 主要是为了增强模型处理长距离依赖关系的能力。在处理长文本时,模型需要记住很久之前的信息才能做出正确的判断。传统的注意力机制在这方面可能会遇到困难,而 MLA 通过引入多个“潜在头”,可以更好地捕捉这些长距离的关联。MTP 则可以提高模型的生成速度。传统的模型一次只能生成一个 Token,而 MTP 可以一次生成多个 Token,相当于“多线程”工作,大大提高了效率。目前,除了官方的介绍,我还没有看到太多实际案例或者数据来支撑这两个技术的具体效果,期待 DeepSeek 能够公布更多详细的评测报告。

从我个人理解来看,MoE 最大的好处就是可以用更少的资源跑更大的模型。你想啊,6850 亿参数,真要全激活,一般人根本玩不起。但只激活 370 亿,那就亲民多了。至于不同任务的表现差异,我觉得肯定有,毕竟每个“专家”擅长的领域不一样。就好像你让一个数学家去写代码,可能就没那么溜了。不过,只要路由策略做得好,应该可以尽量避免这种情况。当然,我这都是纸上谈兵,具体效果还得看实际测试数据。

关于 MLA 和 MTP 的性能提升,目前公开资料较少,主要还是基于 DeepSeek 官方的说法。从技术原理上分析,MLA 旨在改进注意力机制的效率和有效性,特别是在处理长序列时,可能减少计算复杂度并提高信息检索的准确性。MTP 则直接加速了生成过程,理论上可以线性提升生成速度,但这可能受到硬件和解码策略的限制。要获得更可靠的结论,需要进行更严谨的实验评估,比如对比不同长度文本的生成速度和质量,或者在特定任务上进行消融实验,分析 MLA 和 MTP 的贡献。

推荐这本书的理由主要有三点:一是系统性,它全面介绍了 DeepSeek 的核心概念和应用场景,构建了一个完整的知识体系;二是实践性,书中提供了大量的案例和技巧,可以帮助读者快速上手并解决实际问题;三是前瞻性,书中不仅介绍了 DeepSeek 的现有功能,还探讨了其未来的发展趋势,可以帮助读者更好地把握 AI 时代的机遇。总而言之,这本书是了解和应用 DeepSeek 的最佳入门指南。

谢邀,简单说两句。MoE 架构的优势在于其参数效率,允许模型在保持较低计算成本的同时扩展到更大的容量。但也存在一些挑战,比如负载均衡问题,需要确保每个专家都被充分利用,避免出现“冷门专家”的情况。此外,专家之间的协调也是一个问题,需要设计合理的路由机制来保证模型输出的一致性和流畅性。至于不同任务上的表现差异,这取决于专家的专业化程度和任务的领域分布。未来可能需要根据不同任务类型动态调整专家组合,以实现最佳性能。