豆瓣9.5分神作《从零构建大模型》火爆全球,程序员都在读!

《从零构建大模型》豆瓣9.5分,手把手教你从零搭建LLM!从数据准备到模型部署,告别算力焦虑,真正理解大模型。

原文标题:豆瓣评分 9.5,海外疯传,这本书凭什么圈粉全球无数程序员?

原文作者:图灵编辑部

冷月清谈:

《从零构建大模型》一书在海内外均获得极高评价,被誉为是理解和构建LLM的实战指南。本书作者是GitHub 超 4 万星项目 LLMs-from-scratch 作者塞巴斯蒂安·拉施卡。本书不只停留在理论层面,而是从零开始,手把手教你搭建完整的大语言模型,涵盖训练数据准备、Transformer实现、推理、部署与优化等环节,让读者不仅能理解,还能亲手实践。读者评价本书深入浅出,即使没有PyTorch基础也能看懂,对Transformer的讲解尤其清晰,适合动手实践,内容扎实,配套资源到位,能帮助CV背景的开发者快速上手NLP。全球读者也纷纷称赞该书是理解AI概念的转折点,能真正学会构建LLM,而不仅仅是照搬模型,非常适合入门LLM。

怜星夜思:

1、书中提到“scaling law 已经成为了共识”,scaling law具体指的是什么?为什么说它是共识?对于我们训练自己的小模型有什么指导意义?
2、书中提到“人类反馈微调(RLHF):让 LLM 学会理解指令,避免胡言乱语!”,那么除了RLHF,还有没有其他方法可以让LLM更好的理解指令?各自有什么优缺点?
3、这本书强调从零构建LLM,而不是直接使用Hugging Face等工具。从头开始构建LLM,对新手来说,最大的价值或者说意义是什么?

原文内容

在豆瓣,这本书评分高达 9.5,不少读者推荐:“建议团队人手一本”。
OReilly、GitHub、Amazon 等海外平台,它同样被誉为“构建 LLM 最值得读的实战书之一”。

上市几个月,来自不同国家、不同背景的开发者和学习者,却不约而同地说出了同一句话:

“这是我第一次真正理解了大语言模型!”

到底是哪本书,又是怎样的魔力,能让中外读者产生如此一致的共鸣?

答案就是它——由 GitHub 超 4 万星项目 LLMs-from-scratch 作者、大模型公司 Lightning AI 工程师塞巴斯蒂安·拉施卡编写的《从零构建大模型》!

它不是只讲理论,而是从零出发,手把手带你搭建一个完整的大语言模型。从训练数据的准备、Transformer 的实现,到推理、部署与优化,你不仅读得懂,还能亲手跑通整个流程

今天这篇文章,我们不列大纲、不摆技术栈。我们只做一件事——带你看看读者怎么说。

来自全球各地的真实评价,会告诉你为什么这本书值得反复阅读,也许还会重新点燃你“动手搭一个 LLM”的冲动。


🔹写得深入浅出,没有 Pytorch 基础也能看懂

写得真好,深入浅出,居然能在默认读者都没 Pytorch 基础的情况下,用 200 页的篇幅讲明白了全流程。

一直以来我都把 llm 当黑盒用,看完此书才发现,模型内部真就是预测了词汇表里几万个词作为下一个词的概率,之后按贪心或者其他规则决定下一个词是什么。

无限猴子定理和诗云的排列组合,某种意义上不就是一个词汇表均等概率的情况吗?现如今 scaling law 已经成为了共识,但在 GPT 2 之后,OpenAI 居然能那么笃定地把 GPT 3 推进至 175b 规模。

怀义,你当年到底悟得了什么?

—— @细逐空香瑶月麓

🔹Transformer 讲解极其清晰,堪称五星!

对 Transform 的理解,还得是这本书,一下子就清楚了。什么是深入浅出,这就是。还有作者录了视频讲解,只能说太棒了,值得五星。

—— @非此即彼

🔹偏重动手实践,读起来轻松流畅!

一本很精彩的大模型构建书籍,偏向入门和动手,看下来非常舒服。

—— @学习菜鸟

🔹内容沉稳扎实,配套资源也很到位。

非常扎实的一本书,沉甸甸的。作者还做了视频,出版社同步到了国内。双方都很给力。

—— @花花Binki

🔹CV 转 NLP 快速上手,结构清晰友好。

多年 CV 经验背景,NLP 经验约等于 0,五天时间快速过了一遍,只有第 3 章讲解注意力的内容稍难理解,其它章节和 CNN 大面积重叠,读起来比较快。总体来说是一本入门大语言模型不可多得的好书,后续准备精读第 3 章,然后动手实现一遍。

—— @天外来客

🔹Attention 讲得最清楚的一本书!

读完第 3 章先来评分,这本书是我看过的讲 Attention 讲得最清楚的。

—— @阿飞


🔹这是我理解 AI 和机器学习概念的转折点

虽然我才读到第 2 章,但目前为止内容真的太棒了。语言非常精准,很多我之前一直搞不懂的概念,现在都被清晰地讲解出来了。我很期待做完所有练习并读完整本书。我真的想对作者表达感谢——这本书改变了我对通用机器学习和人工智能概念的理解。

——@Steve

🔹不再照搬模型,而是真的学会构建 LLM!

我买过无数本机器学习、数据工程、编程、云架构方面的书……但是这本书真的太棒了!

它逐步构建了 Transformer 架构的每一个组成部分,写得极其清晰,我现在真的觉得自己能亲手构建一个 LLM 了。

哪怕最低限度,这本书也能帮你理解 Attention 机制、前馈网络、层归一化等核心结构,而不是像过去一样只会从 Hugging Face 导入模型却不懂其背后的逻辑。

如果你和我一样,不满足于只堆 RAG 和调用 API,而是想真正理解模型本体,那这本书就是写给你的!只要作者还能维持这种内容质量,我会一直买下去。

—— @Higgs meets Boson

🔹不是只讲原理,而是带你亲手做!

学习大模型最好的方式就是自己动手去构建,而这正是这本书在 LLM 领域所做到的。

你可以在网上找到很多关于 LLM 工作原理的解释,但这本书的独特之处在于:它把原理讲清楚的同时,还带你一起实现。

如果你能完成这本书的阅读并完成练习代码,你将拥有一套扎实、最新的关于 LLM 底层工作机制的理解。

—— @S.Wang

🔹非常适合入门 LLM,从第一步开始就很有价值!

从我目前跟着这本书学习的进度来看,它对任何想入门大语言模型的人都非常有价值。我会继续深入阅读,获取更多知识。

—— @B.Clarke

🔹比我读过的论文更清楚,早该从这本书开始!

这本书对我来说简直太合适了。我是一名计算机性能专家,还没真正开始系统学习机器学习和语言模型之前,我偶尔会读一些概览类文章,所以对“向量”“矩阵乘法”这些术语有些了解,但始终没能拼出完整的图景。

我之前买的机器学习方面的书,往往试图“面面俱到”,结果我一本都没读完过。而这本书不仅提供了完整的实战示例和源码,还从头到尾清晰展示了如何训练你自己的简化语言模型(用 Python / PyTorch 实现)。

它最让我惊喜的地方是:对于训练架构的讲解,几页内容就比我之前读过的那些深奥论文讲得更清楚。

我现在觉得,我其实应该一开始就从这本书读起,而不是绕远路看那些论文。

——@tanelP

当然除了诸多好评外,也有一些小建议。

章节内容很好,就是配图如果能彩色或者高分辨率就更好了。

—— @Wael Mohsen

不过中文版在印刷质量上有了显著提升,图文更清晰,整体阅读体验也更加舒适。

内容很接地气,作者手把手带你亲手构建训练微调一个属于自己的大模型。从数据准备到预训练,从指令微调到模型部署,每一步都讲得清清楚楚。
读完这本书,你会学到什么:

🔹从零开始:自己动手构建模型架构!

🔹 模型训练:教你如何准备数据、搭建训练管道,并优化模型效果!

🔹 让 LLM 更聪明:微调、加载预训练权重,让你的 LLM 适应不同任务!

🔹 人类反馈微调(RLHF):让 LLM 学会理解指令,避免胡言乱语!

🔹 轻量级开发:一台普通笔记本就能跑,告别「算力焦虑」!

作者让你用最小的算力跑通最大的逻辑,你只要拥有一台笔记本,具备一定的 Python 基础,那你都可以来试试!附上中文版思维导图:
作者塞巴斯蒂安·拉施卡(Sebastian Raschka),极具影响力的人工智能专家,GitHub 项目 LLMs-from-scratch 的 star 数达 44k。

现在大模型独角兽公司 Lightning AI 任资深研究工程师。博士毕业于密歇根州立大学,2018~2023 年威斯康星大学麦迪逊分校助理教授(终身教职),从事深度学习科研和教学。

除本书外,他还写作了畅销书《大模型技术30讲》(图灵已出版:)和《Python机器学习》。



译者覃立波,中南大学特聘教授,博士生导师。现任中国中文信息学会青工委秘书长。主要研究兴趣为人工智能、自然语言处理、大模型等。曾担任 ACL、EMNLP、NAACL、IJCAI 等国际会议领域主席或高级程序委员会委员。

译者冯骁骋,哈尔滨工业大学计算学部社会计算与交互机器人研究中心教授,博士生导师,人工智能学院副院长。研究兴趣包括自然语言处理、大模型等。在 ACL、AAAI、IJCAI、TKDE、TOIS 等 CCF A/B 类国际会议及期刊发表论文 50 余篇。

译者刘乾,新加坡某公司的研究科学家,主要研究方向是代码生成与自然语言推理。他在顶级人工智能会议(如ICLR、NeurIPS、ICML)上发表了数十篇论文,曾获得 2020 年百度奖学金提名奖、北京市 2023 年优秀博士论文提名奖、2024 年 KAUST Rising Stars in AI 等荣誉。

车万翔,哈尔滨工业大学计算学部长聘教授,博士生导师,人工智能研究院副院长,国家级青年人才,斯坦福大学访问学者。

黄科科,中南大学教授,博士生导师,自动化学院副院长,国家级青年人才。

我们已迈入了 AI 时代,深刻理解大模型的工作机制极有必要,而这本书可谓深入理解主流生成式AI的实践指南。本书以“亲手构建才是真理解”为核心理念,带领读者从零搭建类 GPT 模型,作者以工程师视角剖析LLM黑箱,通过清晰的代码示例与模块化拆解,完整覆盖模型架构设计、预训练、指令微调等核心环节,是掌握 Transformer 时代模型精髓的必读之作。

——张俊林,新浪微博首席科学家 & AI 研发部负责人 

作为一名大模型从业者,我自认为对书中大部分内容已经足够熟悉,但当我看到书稿的时候,仍忍不住认真读了一遍,因为这种文字、代码、图示、注释四合一的讲解方式实在太引人入胜了。不得不说,这是一本从零入门大模型的难得的好书!

——苏剑林,NLP知名博客“科学空间”博主

这真是一本鼓舞人心的书!它激励你将新技能付诸实践。

——Benjamin Muskalla,GitHub 高级工程师

这是目前对语言模型最通俗易懂且全面的解析!其独特而实用的教学方式,能够达到其他方式都无法企及的理解深度。

——Cameron Wolfe,Netflix 资深科学家

塞巴斯蒂安不仅能够将深邃的理论知识与工程实践完美结合,更拥有化繁为简的魔力。这正是你需要的指南!

——Chip Huyen,《设计机器学习系统》与 AI Engineering 作者

本书内容权威且前沿,强烈推荐!

——Vahid Mirjalili博士,FM Global高级数据科学家

最后,请读过这本书的小伙伴聊聊对这本书的印象?

欢迎大家在评论区写下你读后的评价,我们也将选出更多真实反馈,分享给还在路上的大模型学习者。

scaling law 告诉我们,模型、数据和算力都重要,但更重要的是找到一个平衡点。对于小模型,我觉得可以借鉴大模型的训练方法,比如 Curriculum Learning (课程学习) ,从简单到复杂,逐步提升模型的学习难度。此外,我觉得也可以尝试一些模型压缩和加速技术,比如剪枝、量化等等,在保证模型性能的前提下,降低计算资源的消耗。

我觉得还可以从模型结构上入手。比如,可以借鉴一些最新的研究成果,设计更适合指令理解的模型结构。像最近比较火的 MoE (Mixture of Experts) 架构,通过引入多个专家模型,可以让模型更好地处理不同类型的指令。但是这种方法实现起来比较复杂,需要一定的研究基础。

我觉得最大的价值在于能够真正的理解 LLM 的底层原理。现在很多工具库都把 LLM 封装的很好,用起来很方便,但是也屏蔽了很多细节。从零开始构建 LLM,可以让你深入了解 Transformer 的结构、Attention 的机制、梯度下降的原理等等。只有理解了这些底层原理,才能更好的应用 LLM,解决实际问题。

除了RLHF, Prompt Engineering 也是一种有效的方法。Prompt Engineering 通过精心设计提示语,引导 LLM 产生期望的输出。优点是不需要额外的训练数据和算力,缺点是需要大量的实验和调整,找到合适的 prompt 不容易。此外,Instruction Tuning 也是一种常见的方法,通过构建指令数据集,让 LLM 学习理解和执行指令。优点是效果比较好,缺点是需要大量的人工标注数据,成本较高。

scaling law 就是大力出奇迹的理论基础嘛。虽然大家都知道“大力”能提升模型能力,但是scaling law给出了一个相对明确的关系,也就是投入和产出的预期。不过个人感觉 scaling law 也有局限性,它更多的是一种经验法则,并没有解释为什么会这样。对于小模型,我觉得更应该关注数据清洗、特征工程这些“精雕细琢”的工作,而不是一味地 scaling。没钱就得有没钱的玩法。

对新手来说,从零构建 LLM 就像练武功扎马步一样,虽然很苦很累,但是能打下坚实的基础。以后无论遇到什么新的模型、新的技术,都能很快上手。而且,从零构建 LLM 也能培养解决问题的能力,遇到 bug 只能自己 debug,能学到很多实用的技能。

我觉得 Instruction Tuning 和 RLHF 可以看作是两种不同的微调策略。Instruction Tuning 侧重于让模型学习遵循指令,而 RLHF 侧重于让模型生成更符合人类偏好的内容。两种方法各有侧重,可以结合使用。例如,可以先用 Instruction Tuning 提高模型对指令的理解能力,再用 RLHF 优化模型的输出质量。

我觉得不仅仅是技术上的提升,更重要的是思维方式的转变。从零构建 LLM 可以让你从一个“使用者”变成一个“创造者”。你会开始思考如何设计模型结构、如何优化训练过程、如何解决实际问题。这种思维方式的转变,对你未来的职业发展非常有帮助。

scaling law指的是模型参数量、训练数据量和计算资源投入与模型性能之间的关系。简单来说,就是模型越大、数据越多、算的越多,效果就越好。说它是共识,是因为大量实验结果都验证了这一点,尤其是在大模型领域。对我们训练小模型来说,scaling law 提醒我们,在资源有限的情况下,要优先保证数据质量和训练的充分性,而不是盲目追求模型规模,只有在算力允许的情况下再尽可能扩大模型和数据规模。