豆瓣9.5分神作《从零构建大模型》火爆全球，程序员都在读！

turingbooks · 2025 年5 月 30 日 23:51

《从零构建大模型》豆瓣9.5分，手把手教你从零搭建LLM！从数据准备到模型部署，告别算力焦虑，真正理解大模型。

原文标题：豆瓣评分 9.5，海外疯传，这本书凭什么圈粉全球无数程序员？

原文作者：图灵编辑部

原文链接： http://mp.weixin.qq.com/s?__biz=MjM5Njc0MjIwMA==&mid=2649835648&idx=1&sn=3480e283addadf64d13a65ca4917f942&

冷月清谈：

《从零构建大模型》一书在海内外均获得极高评价，被誉为是理解和构建LLM的实战指南。本书作者是GitHub 超 4 万星项目 LLMs-from-scratch 作者塞巴斯蒂安·拉施卡。本书不只停留在理论层面，而是从零开始，手把手教你搭建完整的大语言模型，涵盖训练数据准备、Transformer实现、推理、部署与优化等环节，让读者不仅能理解，还能亲手实践。读者评价本书深入浅出，即使没有PyTorch基础也能看懂，对Transformer的讲解尤其清晰，适合动手实践，内容扎实，配套资源到位，能帮助CV背景的开发者快速上手NLP。全球读者也纷纷称赞该书是理解AI概念的转折点，能真正学会构建LLM，而不仅仅是照搬模型，非常适合入门LLM。

怜星夜思：

1、书中提到“scaling law 已经成为了共识”，scaling law具体指的是什么？为什么说它是共识？对于我们训练自己的小模型有什么指导意义?
2、书中提到“人类反馈微调（RLHF）：让 LLM 学会理解指令，避免胡言乱语！”，那么除了RLHF，还有没有其他方法可以让LLM更好的理解指令？各自有什么优缺点?
3、这本书强调从零构建LLM，而不是直接使用Hugging Face等工具。从头开始构建LLM，对新手来说，最大的价值或者说意义是什么？

原文内容

在豆瓣，这本书评分高达 9.5，不少读者推荐：“建议团队人手一本”。

在 OReilly、GitHub、Amazon 等海外平台，它同样被誉为“构建 LLM 最值得读的实战书之一”。

上市几个月，来自不同国家、不同背景的开发者和学习者，却不约而同地说出了同一句话：

“这是我第一次真正理解了大语言模型！”

到底是哪本书，又是怎样的魔力，能让中外读者产生如此一致的共鸣？

答案就是它——由 GitHub 超 4 万星项目 LLMs-from-scratch 作者、大模型公司 Lightning AI 工程师塞巴斯蒂安·拉施卡编写的《从零构建大模型》！

它不是只讲理论，而是从零出发，手把手带你搭建一个完整的大语言模型。从训练数据的准备、Transformer 的实现，到推理、部署与优化，你不仅读得懂，还能亲手跑通整个流程。

今天这篇文章，我们不列大纲、不摆技术栈。我们只做一件事——带你看看读者怎么说。

来自全球各地的真实评价，会告诉你为什么这本书值得反复阅读，也许还会重新点燃你“动手搭一个 LLM”的冲动。

中文版读者评价

🔹写得深入浅出，没有 Pytorch 基础也能看懂

写得真好，深入浅出，居然能在默认读者都没 Pytorch 基础的情况下，用 200 页的篇幅讲明白了全流程。

一直以来我都把 llm 当黑盒用，看完此书才发现，模型内部真就是预测了词汇表里几万个词作为下一个词的概率，之后按贪心或者其他规则决定下一个词是什么。

无限猴子定理和诗云的排列组合，某种意义上不就是一个词汇表均等概率的情况吗？现如今 scaling law 已经成为了共识，但在 GPT 2 之后，OpenAI 居然能那么笃定地把 GPT 3 推进至 175b 规模。

怀义，你当年到底悟得了什么？

—— @细逐空香瑶月麓

🔹Transformer 讲解极其清晰，堪称五星！

对 Transform 的理解，还得是这本书，一下子就清楚了。什么是深入浅出，这就是。还有作者录了视频讲解，只能说太棒了，值得五星。

—— @非此即彼

🔹偏重动手实践，读起来轻松流畅！

一本很精彩的大模型构建书籍，偏向入门和动手，看下来非常舒服。

—— @学习菜鸟

🔹内容沉稳扎实，配套资源也很到位。

非常扎实的一本书，沉甸甸的。作者还做了视频，出版社同步到了国内。双方都很给力。

—— @花花Binki

🔹CV 转 NLP 快速上手，结构清晰友好。

多年 CV 经验背景，NLP 经验约等于 0，五天时间快速过了一遍，只有第 3 章讲解注意力的内容稍难理解，其它章节和 CNN 大面积重叠，读起来比较快。总体来说是一本入门大语言模型不可多得的好书，后续准备精读第 3 章，然后动手实现一遍。

—— @天外来客

🔹Attention 讲得最清楚的一本书!

读完第 3 章先来评分，这本书是我看过的讲 Attention 讲得最清楚的。

—— @阿飞

全球读者热评汇总

🔹这是我理解 AI 和机器学习概念的转折点

虽然我才读到第 2 章，但目前为止内容真的太棒了。语言非常精准，很多我之前一直搞不懂的概念，现在都被清晰地讲解出来了。我很期待做完所有练习并读完整本书。我真的想对作者表达感谢——这本书改变了我对通用机器学习和人工智能概念的理解。

——@Steve

🔹不再照搬模型，而是真的学会构建 LLM！

我买过无数本机器学习、数据工程、编程、云架构方面的书……但是这本书真的太棒了！

它逐步构建了 Transformer 架构的每一个组成部分，写得极其清晰，我现在真的觉得自己能亲手构建一个 LLM 了。

哪怕最低限度，这本书也能帮你理解 Attention 机制、前馈网络、层归一化等核心结构，而不是像过去一样只会从 Hugging Face 导入模型却不懂其背后的逻辑。

如果你和我一样，不满足于只堆 RAG 和调用 API，而是想真正理解模型本体，那这本书就是写给你的！只要作者还能维持这种内容质量，我会一直买下去。

—— @Higgs meets Boson

🔹不是只讲原理，而是带你亲手做！

学习大模型最好的方式就是自己动手去构建，而这正是这本书在 LLM 领域所做到的。

你可以在网上找到很多关于 LLM 工作原理的解释，但这本书的独特之处在于：它把原理讲清楚的同时，还带你一起实现。

如果你能完成这本书的阅读并完成练习代码，你将拥有一套扎实、最新的关于 LLM 底层工作机制的理解。

—— @S.Wang

🔹非常适合入门 LLM，从第一步开始就很有价值！

从我目前跟着这本书学习的进度来看，它对任何想入门大语言模型的人都非常有价值。我会继续深入阅读，获取更多知识。

—— @B.Clarke

🔹比我读过的论文更清楚，早该从这本书开始！

这本书对我来说简直太合适了。我是一名计算机性能专家，还没真正开始系统学习机器学习和语言模型之前，我偶尔会读一些概览类文章，所以对“向量”“矩阵乘法”这些术语有些了解，但始终没能拼出完整的图景。

我之前买的机器学习方面的书，往往试图“面面俱到”，结果我一本都没读完过。而这本书不仅提供了完整的实战示例和源码，还从头到尾清晰展示了如何训练你自己的简化语言模型（用 Python / PyTorch 实现）。

它最让我惊喜的地方是：对于训练架构的讲解，几页内容就比我之前读过的那些深奥论文讲得更清楚。

我现在觉得，我其实应该一开始就从这本书读起，而不是绕远路看那些论文。

——@tanelP

当然除了诸多好评外，也有一些小建议。

章节内容很好，就是配图如果能彩色或者高分辨率就更好了。

—— @Wael Mohsen

不过中文版在印刷质量上有了显著提升，图文更清晰，整体阅读体验也更加舒适。

内容简介

内容很接地气，作者手把手带你亲手构建、训练、微调一个属于自己的大模型。从数据准备到预训练，从指令微调到模型部署，每一步都讲得清清楚楚。

读完这本书，你会学到什么：

🔹从零开始：自己动手构建模型架构！

🔹 模型训练：教你如何准备数据、搭建训练管道，并优化模型效果！

🔹 让 LLM 更聪明：微调、加载预训练权重，让你的 LLM 适应不同任务！

🔹 人类反馈微调（RLHF）：让 LLM 学会理解指令，避免胡言乱语！

🔹 轻量级开发：一台普通笔记本就能跑，告别「算力焦虑」！

作者让你用最小的算力跑通最大的逻辑，你只要拥有一台笔记本，具备一定的 Python 基础，那你都可以来试试！附上中文版思维导图：

作译者简介

作者塞巴斯蒂安·拉施卡（Sebastian Raschka），极具影响力的人工智能专家，GitHub 项目 LLMs-from-scratch 的 star 数达 44k。

现在大模型独角兽公司 Lightning AI 任资深研究工程师。博士毕业于密歇根州立大学，2018~2023 年威斯康星大学麦迪逊分校助理教授（终身教职），从事深度学习科研和教学。

除本书外，他还写作了畅销书《大模型技术30讲》（图灵已出版：）和《Python机器学习》。

译者覃立波，中南大学特聘教授，博士生导师。现任中国中文信息学会青工委秘书长。主要研究兴趣为人工智能、自然语言处理、大模型等。曾担任 ACL、EMNLP、NAACL、IJCAI 等国际会议领域主席或高级程序委员会委员。

译者冯骁骋，哈尔滨工业大学计算学部社会计算与交互机器人研究中心教授，博士生导师，人工智能学院副院长。研究兴趣包括自然语言处理、大模型等。在 ACL、AAAI、IJCAI、TKDE、TOIS 等 CCF A/B 类国际会议及期刊发表论文 50 余篇。

译者刘乾，新加坡某公司的研究科学家，主要研究方向是代码生成与自然语言推理。他在顶级人工智能会议（如ICLR、NeurIPS、ICML）上发表了数十篇论文，曾获得 2020 年百度奖学金提名奖、北京市 2023 年优秀博士论文提名奖、2024 年 KAUST Rising Stars in AI 等荣誉。

主审人简介

车万翔，哈尔滨工业大学计算学部长聘教授，博士生导师，人工智能研究院副院长，国家级青年人才，斯坦福大学访问学者。

黄科科，中南大学教授，博士生导师，自动化学院副院长，国家级青年人才。

业内专家评价

我们已迈入了 AI 时代，深刻理解大模型的工作机制极有必要，而这本书可谓深入理解主流生成式AI的实践指南。本书以“亲手构建才是真理解”为核心理念，带领读者从零搭建类 GPT 模型，作者以工程师视角剖析LLM黑箱，通过清晰的代码示例与模块化拆解，完整覆盖模型架构设计、预训练、指令微调等核心环节，是掌握 Transformer 时代模型精髓的必读之作。

——张俊林，新浪微博首席科学家 & AI 研发部负责人

作为一名大模型从业者，我自认为对书中大部分内容已经足够熟悉，但当我看到书稿的时候，仍忍不住认真读了一遍，因为这种文字、代码、图示、注释四合一的讲解方式实在太引人入胜了。不得不说，这是一本从零入门大模型的难得的好书！

——苏剑林，NLP知名博客“科学空间”博主

这真是一本鼓舞人心的书！它激励你将新技能付诸实践。

——Benjamin Muskalla，GitHub 高级工程师

这是目前对语言模型最通俗易懂且全面的解析！其独特而实用的教学方式，能够达到其他方式都无法企及的理解深度。

——Cameron Wolfe，Netflix 资深科学家

塞巴斯蒂安不仅能够将深邃的理论知识与工程实践完美结合，更拥有化繁为简的魔力。这正是你需要的指南！

——Chip Huyen，《设计机器学习系统》与 AI Engineering 作者

本书内容权威且前沿，强烈推荐！

——Vahid Mirjalili博士，FM Global高级数据科学家

最后，请读过这本书的小伙伴聊聊对这本书的印象？

欢迎大家在评论区写下你读后的评价，我们也将选出更多真实反馈，分享给还在路上的大模型学习者。

Quartz24q · 2025 年6 月 4 日 03:41

scaling law 告诉我们，模型、数据和算力都重要，但更重要的是找到一个平衡点。对于小模型，我觉得可以借鉴大模型的训练方法，比如 Curriculum Learning (课程学习) ，从简单到复杂，逐步提升模型的学习难度。此外，我觉得也可以尝试一些模型压缩和加速技术，比如剪枝、量化等等，在保证模型性能的前提下，降低计算资源的消耗。

NobleStag037 · 2025 年6 月 4 日 10:10

我觉得还可以从模型结构上入手。比如，可以借鉴一些最新的研究成果，设计更适合指令理解的模型结构。像最近比较火的 MoE (Mixture of Experts) 架构，通过引入多个专家模型，可以让模型更好地处理不同类型的指令。但是这种方法实现起来比较复杂，需要一定的研究基础。

Mystic98x · 2025 年6 月 4 日 23:50

我觉得最大的价值在于能够真正的理解 LLM 的底层原理。现在很多工具库都把 LLM 封装的很好，用起来很方便，但是也屏蔽了很多细节。从零开始构建 LLM，可以让你深入了解 Transformer 的结构、Attention 的机制、梯度下降的原理等等。只有理解了这些底层原理，才能更好的应用 LLM，解决实际问题。

MorningDew906 · 2025 年6 月 6 日 03:25

除了RLHF， Prompt Engineering 也是一种有效的方法。Prompt Engineering 通过精心设计提示语，引导 LLM 产生期望的输出。优点是不需要额外的训练数据和算力，缺点是需要大量的实验和调整，找到合适的 prompt 不容易。此外，Instruction Tuning 也是一种常见的方法，通过构建指令数据集，让 LLM 学习理解和执行指令。优点是效果比较好，缺点是需要大量的人工标注数据,成本较高。

Crest196j · 2025 年6 月 7 日 00:16

scaling law 就是大力出奇迹的理论基础嘛。虽然大家都知道“大力”能提升模型能力，但是scaling law给出了一个相对明确的关系，也就是投入和产出的预期。不过个人感觉 scaling law 也有局限性，它更多的是一种经验法则，并没有解释为什么会这样。对于小模型，我觉得更应该关注数据清洗、特征工程这些“精雕细琢”的工作，而不是一味地 scaling。没钱就得有没钱的玩法。

Zen15e · 2025 年6 月 7 日 02:17

对新手来说，从零构建 LLM 就像练武功扎马步一样，虽然很苦很累，但是能打下坚实的基础。以后无论遇到什么新的模型、新的技术，都能很快上手。而且，从零构建 LLM 也能培养解决问题的能力，遇到 bug 只能自己 debug，能学到很多实用的技能。

ElectricEel339 · 2025 年6 月 7 日 03:54

我觉得 Instruction Tuning 和 RLHF 可以看作是两种不同的微调策略。Instruction Tuning 侧重于让模型学习遵循指令，而 RLHF 侧重于让模型生成更符合人类偏好的内容。两种方法各有侧重，可以结合使用。例如，可以先用 Instruction Tuning 提高模型对指令的理解能力，再用 RLHF 优化模型的输出质量。

MorningDew906 · 2025 年6 月 7 日 16:53

我觉得不仅仅是技术上的提升，更重要的是思维方式的转变。从零构建 LLM 可以让你从一个“使用者”变成一个“创造者”。你会开始思考如何设计模型结构、如何优化训练过程、如何解决实际问题。这种思维方式的转变，对你未来的职业发展非常有帮助。

Haven14j · 2025 年6 月 8 日 03:06

scaling law指的是模型参数量、训练数据量和计算资源投入与模型性能之间的关系。简单来说，就是模型越大、数据越多、算的越多，效果就越好。说它是共识，是因为大量实验结果都验证了这一点，尤其是在大模型领域。对我们训练小模型来说，scaling law 提醒我们，在资源有限的情况下，要优先保证数据质量和训练的充分性，而不是盲目追求模型规模，只有在算力允许的情况下再尽可能扩大模型和数据规模。