DeepSeek V3-0324 低调发布,代码能力直逼 Claude 3 Sonnet!采用 MoE 架构,引入 MLA 和 MTP 技术,显著提升性能和速度。图灵新书《一本书玩转 DeepSeek》同步上市。
原文标题:DeepSeek V3-0324 低调发布,代码能力直逼 Claude 3.7 Sonnet
原文作者:图灵编辑部
冷月清谈:
怜星夜思:
2、DeepSeek V3-0324 中提到的 MLA(多头潜在注意力)和 MTP(多 Token 预测)技术,对模型性能的具体提升体现在哪些方面?有没有实际案例或者数据可以支撑?
3、文章提到《一本书玩转 DeepSeek》,如果让你向完全不了解 DeepSeek 的人推荐这本书,你会从哪些方面介绍它的价值?
原文内容
没有铺天盖地的宣传,也没有大张旗鼓的发布会,DeepSeek 在 3 月 24 日晚间低调推出了最新的 V3-0324 版本,目前已在 Hugging Face 开源,可供下载和测试。
这次更新虽称不上是一次代际跨越,但其提升的幅度足以引起广泛关注,尤其是在代码能力方面,DeepSeek V3-0324 的表现甚至直逼 Claude 3.7 Sonnet。
许多用户猜测,这一更新的 V3-0324 将作为 DeepSeek-R2 的基础,当然不排除这一可能性。而 R2 预计将在 2024 年 4 月或 5 月发布。
DeepSeek 这次的发布没有任何附加资料,显得格外低调。开发者 Awni Hannun 在本地测试后率先注意到这一发布,并将使用感受发布在 X 上。
在 512GB 内存的 Mac Studio 上运行 量化版本(使用 vLLM 和 mlc-llm),他测试后报告称推理速度超过 20 tokens/s。他表示:“这是我在笔记本上运行过的最强大模型。”
模型页面提供了配置文件和权重,但没有正式文档或性能评估,进一步凸显了此次发布的低调风格。此外,该模型还可通过 OpenRouter 进行在线测试,用户可以直接与其交互。
早期测试者普遍认为该版本相较前代有显著提升。AI 研究员 Xeophon 在 X 上表示:“在我的内部基准测试中,新版 DeepSeek V3 在所有测试指标上都有巨大提升,现已成为最强的非推理类模型,成功取代 Sonnet 3.5。”
这一发布让该架构对公众开放,并内置 FP8 量化支持——这是一种能够在内存效率与计算精度之间取得平衡的数值格式。
该模型采用 Mixture-of-Experts (MoE) 混合专家模型(有关混合专家模型您可以看这篇:)。
尽管其总参数量高达 6850 亿,但在推理过程中,仅有约 370 亿参数是活跃的,这大幅降低了硬件需求。
此外,DeepSeek-V3-0324 还引入了两项专注于性能提升的创新技术:
-
多头潜在注意力(MLA) —— 提升注意力机制在长距离依赖关系处理上的能力。
-
多 Token 预测(MTP) —— 允许模型每个推理步骤生成多个 Token,而非逐个输出,提高生成速度。
这些优化帮助 DeepSeek V3 系列在去年 12 月的首次测试中取得了亮眼的基准测试成绩。其上一版本在 MATH-500 测试中得分 90.2,远超 GPT-4o 的 74.6。
在 MGSM 测试中达到 79.8,表现同样强劲。在编程基准测试 HumanEval-Mul 上,它的表现甚至与 GPT-4o 持平。
尽管这些数据并未直接反映 V3-0324 的性能,但仍然展现了 DeepSeek V3 这一架构的强大潜力。
图灵首本 DeepSeek 应用图书上市啦!
作者是 AI 大佬陈云飞(@花生),带你轻松掌握 DeepSeek 核心玩法儿。
陈云飞(@花生)|著
作者简介
大咖推荐
DeepSeek 带来了技术革命,如何更好地使用 AI,比反复讨论 AI 本身多厉害要更重要。未来未必会是 AI 负责一切,而更可能会是我们指挥和控制 AI 去完成一切。对 AI 的理解和使用,需要长期的探索和学习,而花生的这本书,正是一本入门的最佳指南,让你在面对空荡荡的输入框时,更有底气。
——刘飞,《三五环》《半拿铁》主播,产品经理
花生是我一直在关注的 AI 独立开发者,他不仅站在这波AI浪潮最前沿冲浪,还用 AI 做出了产品(比如“小猫补光灯”),赚到了钱,所以这本书比很多“AI爱好者”写的关于 DeepSeek 的书更落地。我拿到书稿以后,第一时间就全文阅读。DeepSeek 的热度也许很快过去(希望不要),但它周围那群理想主义的人,是未来真正的希望,希望我们都能成为其中一员。
——苏杰,产品创新顾问,《人人都是产品经理》丛书作者
本书不仅是一本 AI 工具指南,更是一部探索人机协作新时代的实用宝典。陈云飞以清晰易懂的语言,带领读者从理解AI思维到掌握高效应用,再到探索进阶玩法,全方位展现了 DeepSeek 作为个人能力放大器的无限潜力。作为 AI 助手产品创始人,我深信这本书将助力你在 AI 时代脱颖而出。
——肖弘,蝴蝶效应(Monica)创始人&CEO
AI 的洪水已经淹过大腿。这本小书,记录了一个普通人的自救。读完后你会发现,跟网上热销的其他各种 AI 教程相比,它还挺靠谱的。
——杨健,腾讯集团副总裁,腾讯研究院总顾问
如何用好 AI 帮助我们创业,已经成为生财有术最重要的课题,花生在这个方向上走得很快且取得结果,这本书是他的经验总结,很有学习价值,推荐给大家。
——亦仁,生财有术创始人
——庄明浩,前经纬创投 VP,《屠龙之术》主播
参考资料:https://www.newsbreak.com/