深度揭秘DeepSeek大模型:《图解DeepSeek技术》一书技术亮点解析

一本书带你深度探秘DeepSeek大模型的底层技术!涵盖MoE架构、推理范式转变及强化学习训练,近120幅彩图助你轻松理解复杂概念。

原文标题:DeepSeek 到底是怎样工作的?120 幅彩图深度剖析国产大模型!

原文作者:图灵编辑部

冷月清谈:

《图解DeepSeek技术》一书深入剖析了国产大模型DeepSeek的底层技术和核心奥秘。全书分为三章,内容架构严谨而合理,层层递进,引领读者逐步深入大模型技术的核心领域。

第一章聚焦于推理大模型的范式转变,即从传统的“训练时计算”过渡到更灵活、更动态的“测试时计算”。这种转变使得模型在面对新的任务时,能够根据输入数据的特点,进行实时的计算,从而提高模型的适应性和泛化能力。

第二章重点解读了DeepSeek-R1所采用的混合专家(MoE)架构。通过将多个专家网络并行组合,并引入门控机制来动态选择不同的专家进行计算,MoE在模型规模和计算效率之间取得了良好平衡。文章指出,MoE架构与稠密模型相比,在预训练和推理速度上均有优势,但同时也会消耗大量显存,并且微调方面存在诸多挑战。每个专家网络都是独立的神经网络,能专注于学习不同的数据特征,而路由器则负责选择最佳匹配的专家。

第三章则详细展示了DeepSeek-R1的训练过程及核心技术,包括一个高质量LLM的三个关键阶段,以及基于GRPO(Generalized Reward Prediction Objective)的强化学习技术。GRPO作为一种新的强化学习目标函数,通过将奖励预测和策略优化相结合,使得模型能够在训练过程中更有效地学习和调整自己的行为。

本书的一大特色在于其通俗易懂的图解方式,近118幅全彩插图为读者提供了直观的视觉辅助,使得原本晦涩难懂的技术概念变得清晰易懂、生动有趣。本书由杰伊·阿拉马尔和马尔滕·格鲁滕多斯特等知名专家撰写,并由李博杰和孟佳颖翻译,保证了内容的专业性与准确性。

《图解DeepSeek技术》适合广泛的读者群体,包括大模型研究人员、人工智能专业的学生、数据科学家和机器学习工程师,以及对大模型技术感兴趣的非专业读者。它不仅为读者揭示了大模型技术的奥秘,也旨在帮助读者在当前大模型技术浪潮中更好地理解和应用这一前沿科技。

怜星夜思:

1、文章提到了DeepSeek用的MoE(混合专家)架构虽然训练和推理都快,但是牺牲了显存。对于我们这些没有“算力自由”的普通开发者或者中小企业来说,这种架构是不是意味着部署门槛更高?或者说,有没有办法能在显存消耗和性能之间找到一个更好的平衡点?
2、从“训练时计算”到“测试时计算”的范式转变,听起来很新颖。除了文章里说的提高模型的适应性和泛化能力,大家觉得这个转变还会给大模型的未来发展,或者我们日常使用大模型的方式带来哪些深远影响?会不会有更个性化的AI体验?
3、文章提到了DeepSeek-R1在训练中使用了GRPO强化学习。除了这种具体算法,大家觉得当前大模型训练中,哪些“软实力”或者说“独门秘技”(比如数据清洗、指令调优等)对于提升模型性能同样关键,甚至比堆算力更重要?

原文内容

在当今人工智能蓬勃发展、大模型技术风起云涌的时代, 我们对新技术的热爱已经痴迷。尤其是目前作为国产大模型扛鼎之作的 DeepSeek,你我是不是都很好奇它的底层技术呢?

诚然,我们需要一部能够深入浅出、清晰揭示大模型底层技术奥秘的作品,而《图解DeepSeek技术》无疑是这样的一本佳作。这本书它宛如一扇窗户,为我们开启了通往大模型前沿技术世界的大门。

01

逻辑清晰的深度探索

全书分为三章和附录,内容架构严谨而合理,层层递进,引领读者逐步深入大模型技术的核心领域。这里详细和大家分享一下具体的内容:

第一章聚焦于推理大模型的范式转变,即从“训练时计算”到“测试时计算”。这看似简单的转变,实则蕴含着大模型发展的深刻变革。

“训练时计算”是一种传统的计算模式,在这种模式下,模型在训练阶段会尽可能地学习和记忆数据中的模式和规律,以期望在测试阶段也就是推理的时候能够泛化到未见过的数据上。

而“测试时计算”则是一种更加灵活和动态的计算模式。在这种范式下,模型在测试阶段会根据输入数据的特点,进行实时的计算。允许模型在面对新的任务的时候,能够更加灵活地调整自己的策略和行为,从而提高模型的适应性和泛化能力,提升模型的效果

02

深入浅出的核心剖析

本书第二章着重解读了 DeepSeek-R1 的架构——混合专家(MoE)。

MoE 架构是近年来大模型领域的一个重要创新,它通过将多个专家网络并行组合,并引入门控机制来动态选择不同的专家进行计算,从而在模型规模和计算效率之间取得了良好的平衡。

混合专家模型 (MoE)的特点:

  • 与稠密模型相比, 预训练速度更快

  • R 与具有相同参数数量的模型相比,具有更快的推理速度

  • R 消耗大量显存,所有专家系统都需要加载到内存中(内存换速度)

  • R 混合专家模型的微调存在诸多挑战

在 MoE 架构中,每个专家网络都是一个独立的神经网络,它们可以专注于学习数据的不同特征和模式。

另外混合专家路由器(Router)输出概率,用于混合专家(MoE)模型选择最佳匹配专家(Expert),选择的专家(Expert)也是一个前馈神经网络(FFNN)

MoE 架构能够更好地利用大规模的分布式计算资源,从而实现更高效的训练和推理过程。很显然这对于大模型在实际应用中的部署和使用具有重要的意义。我个人觉得,能部署能使用好使用是一个考验大模型能力的重要指标

另外本章作者还以图示的方式介绍了 DeepSeek 结合三种方法实现专家的有效分工的方案,感兴趣的小伙伴可以自己进行阅读。

03

深入DeepSeek-R1

第三章则展示了 DeepSeek-R1 的详细训练过程及核心技术,包括大模型的训练过程、基于 GRPO 的强化学习等主要内容。

训练过程是大模型开发中的关键环节,作者在这里毫无保留地分享了他们的经验和技术细节,比如作者向我们诠释了 DeepSeek-R1 的训练过程:

以及一个高质量的 LLM 的三个阶段:

基于 GRPO(Generalized Reward Prediction Objective)的强化学习是 DeepSeek-R1 训练中的一个核心技术。GRPO 是一种新的强化学习目标函数,它通过将奖励预测和策略优化相结合,使得模型能够在训练过程中更加有效地学习和调整自己的行为。 这里不再过多进行阐述了,感兴趣的小伙伴可以查看相关的论文实现。

04

图解与实战的完美结合

图解的知识往往能带来最直观的理解,直击心灵。正好本书的一大特色在于其通俗图解的方式。近 118 幅全彩插图为读者提供了直观的视觉辅助,使得原本晦涩难懂的技术概念变得清晰易懂、生动有趣。这种图文并茂的方式,让读者能够更轻松地理解复杂的计算过程和模型架构,极大地提升了阅读体验,强化理解知识体系

05

作译者专业背景强大

本书的作者杰伊·阿拉马尔(Jay Alammar)和马尔滕·格鲁滕多斯特(Maarten Grootendorst)在大模型领域享有极高的声誉。

译者李博杰和孟佳颖也凭借各自在学术和研发领域的深厚背景,为本书的中文版增色不少。

06

推荐阅读对象

个人觉得以下读者适合阅读《图解DeepSeek技术》:

(1)大模型领域的研究人员研究人员需要不断了解大模型领域的最新理论进展。本书深入剖析了推理大模型的范式转变,从“训练时计算”到“测试时计算”,为研究人员提供了新的研究视角和理论基础。

(2)人工智能相关专业的学生对于人工智能专业的学生来说,这本书是构建和完善其知识体系的宝贵资料。它系统地讲解了大模型的核心概念和技术,如推理大模型的原理、架构设计和训练方案等,帮助学生从理论层面深入理解大模型技术,打下坚实的专业基础。

(3)数据科学家和机器学习工程师:数据科学家和机器学习工程师在实际工作中,常常需要应用大模型来解决复杂的问题。本书提供了 DeepSeek 技术的详细解读,包括 DeepSeek-R1-Zero 的推理能力和 DeepSeek-V3 的效率优化策略等,帮助他们更好地理解和应用大模型技术。

(4)对大模型技术感兴趣的非专业读者:本书通俗易懂,采用大量图解的方式进行讲解,降低了大模型技术的学习门槛。对于非专业但对大模型技术感兴趣的读者来说,这本书能够激发他们的学习兴趣。 

07

结语

在人工智能快速发展的今天,大模型技术正在不断地改变着我们的生活和工作方式。而《图解DeepSeek技术》这本书,无疑将成为读者在这个领域探索和前行的重要指南。它不仅为读者揭示了大模型技术的奥秘,也为读者打开了通往未来人工智能世界的大门。对于很多非技术人员,相信也能借助 DeepSeek 来高效完成自己的工作,成为大模型技术浪潮中的“参与者”。

关于“除了GRPO,大模型训练中哪些‘软实力’同样关键”这个问题,我认为数据质量和指令微调的重要性可能不亚于甚至超越算力本身。高品质、多样化的预训练数据是模型知识的基石,而精心设计的指令数据则直接决定了模型如何理解和响应用户意图。此外,评估体系的设计、人类偏好对齐(RLHF)、灾难性遗忘的规避、以及高效且稳定的分布式训练策略,这些“工程智慧”在实际项目中常常是决定成败的关键。算力固然重要,但没有这些“软实力”的支撑,再强的算力也可能训练出“食之无味,弃之可惜”的模型。

从实际部署角度看,MoE的高显存消耗确实是中小企业的一大挑战。这意味着你需要更多、更高端的GPU资源,或者选择成本更高的云GPU实例。为了平衡性能和显存,可以考虑进行更精细的模型裁剪(pruning)或量化(quantization),甚至尝试部分专家模型的蒸馏。此外,一些高效的模型服务框架也在尝试优化MoE的加载和推理,但核心还是需要足够的硬件支持。也许未来会有更高效的稀疏激活(sparse activation)技术出现,进一步降低门槛。

嘿,说到“大模型训练中的软实力”,我真的觉得数据清洗和数据筛选才是真正的“苦活累活”但又“无可替代”!你数据源再多,垃圾数据一堆,模型学出来的都是噪声。还有就是人工标注的质量,直接影响指令微调的效果。另外,各种奇奇怪怪的bug调试能力,处理分布式训练中的玄学问题,也是妥妥的“软实力”。这些东西可不是堆硬件就能解决的,得靠经验和耐心。GRPO什么的,那都是算法的艺术,但数据和工程才是基础啊!

这个问题问得好!就好像你买了个豪华游艇,引擎超猛,结果发现自家车库根本停不下。MoE就是这样,性能是顶级的,但对硬件的要求也高。我们这些穷玩家,可能就只能先玩玩小快艇了。或者等哪天云计算的价格能降到坐公交车的水平,那就可以随便“租”游艇了!对于小团队来说,可能得寻求更轻量化的模型或者云服务商提供的MoE优化方案,目前确实门槛不低。

就像你问的,这个范式转变确实意义非凡。它不仅仅是效率的问题,更深层的是让模型拥有了“在线学习”或“动态适应”的潜力。传统模型推断时基本就是个查表器+算力转发器,但如果推断过程本身就能进行某种程度的“自我优化”甚至“微调”,那它的能力边界会被大大拓展,尤其是在处理罕见、复杂、或者需要持续交互的任务时,这简直是革命性的。想象一下,一个模型在你使用过程中不断地调整和优化自己的推理路径,不通过额外的再训练就能变得更“懂你”。

确实是!针对MoE显存消耗大的问题,学界和业界都在积极探索很多优化方案,比如“专家卸载”(offloading experts)或者更智能的“门控机制”(gating mechanism)来减少同时激活的专家数量。还有像“知识蒸馏”(Knowledge Distillation),把MoE大模型的知识压缩到小模型里,也是一个思路。不过这些技术都还在发展中,普及还需要时间,短期内对于算力有限的团队挑战依然存在。

关于从“训练时计算”到“测试时计算”的转变,我觉得它未来会带来一个非常明显的变化,就是大模型会变得更加“活”和“智能”。现在很多模型还是“一刀切”的回答,但如果能实时根据我的输入进行更深度的个性化计算和策略调整,那未来的AI助手可能真的能成为每个人独有的、持续成长的“第二大脑”,体验感会大幅提升,实现真正的个性化定制。

“测试时计算”这种听起来就很高大上的变化,我感觉就像是AI从一个死记硬背的学霸,变成了能现场看题、现场发挥的“临场高手”。以前是把所有知识都塞进脑子里,然后考场上快速回忆;现在是边做题边思考,甚至能针对题目特点调整思考方式。这样一来,AI会不会变得和《西部世界》里的智能机器人一样,在交互中逐渐觉醒意识,形成更复杂的“人格”?想想都有点细思恐极,但又很令人期待!