一本手把手教你从零构建大模型的实战指南

《从零构建大模型》:手把手教你用普通电脑搭建并训练属于自己的LLM!

原文标题:GitHub 62.6k Star 爆款项目,我终于看懂了!

原文作者:图灵编辑部

冷月清谈:

《从零构建大模型》是一本旨在帮助读者亲手打造大型语言模型的实践性教程。本书由AI领域专家塞巴斯蒂安·拉施卡撰写,通过系统化的“三阶段”教学法,详细讲解了构建LLM的关键步骤。

内容上,它首先从模型发展历程讲起,继而深入探讨了数据处理中的Byte Pair Encoding (BPE) 算法,以及大模型核心的注意力(Attention)机制。作者将Transformer架构拆解为核心组件,指导读者一步步实现,最终“手搓”一个小型GPT模型。书中详细阐述了预训练环节模型如何通过海量无标注文本“自监督学习”累积通用能力,以及如何通过微调(如指令微调)使其适应特定任务,甚至理解人类意图。

此书的独特之处在于其极高的可操作性与普适性。即使是普通笔记本电脑,也能通过作者设计的“轻量级模型”进行训练,解决了许多学习者面临的算力限制。同时,教程配套GitHub开源代码和B站视频教程,为读者提供了丰富的辅助学习资源。这本书不仅被业内专家高度评价(豆瓣9.5分),更因其清晰易懂的讲解方式,成为那些希望从零开始深入理解并实践大模型开发的理想选择。

怜星夜思:

1、书里说只要有台普通笔记本和基本的Python基础就能学大模型开发,有没有同学试过?这个“基础”到底要到什么程度啊?是不是还要补点数学或者线代知识才行?
2、《从零构建大模型》强调用轻量级模型在本地训练,这对初学者来说意味着什么?是降低门槛的好事,还是说和工业界真正的大模型开发会有很大差距?大家觉得用小模型入门,对未来上手大模型项目有多大帮助?
3、文章提到了指令微调和RLHF(人类反馈强化学习),让模型更理解人话,感觉挺关键的。想问问大家,在构建一个真正能用的AI大模型时,是前期的大规模预训练更重要,还是后期这些微调和对齐工作更重要?或者说,它们是缺一不可的组合拳?

原文内容

在如今 AI 大模型霸屏的时代,想不想弄清楚像 ChatGPT、DeepSeek 这些大模型到底是怎样造出来的?

这本在 GitHub 上打星 62.6k 的书像一位导师,手把手一步步教你从 0 到 1 来构建和应用大模型。

作者 GitHub 地址:https://github.com/rasbt/LLMs-from-scratch

这本书的作者是 Sebastian Raschka,他是一位在人工智能和数据科学领域的技术专家。虽然他是一名学者,但是他有个本事,可以把复杂的大模型知识讲得明明白白。

构建大语言模型的 3 个主要阶段:实现模型架构和准备数据(第一阶段)、预训练大语言模型以获得基础模型(第二阶段),以及微调基础模型以得到个人助手或文本分类器(第三阶段)

作者先从大语言模型发展历程也就是前世今生讲起,然后在处理数据这块,有 Byte Pair Encoding(BPE) 算法做训练模型的打底。

而在模型架构中的核心部分,注意力(attention)机制作者用了 “三步教学法”把这个概念慢慢讲透。

大语言模型的预训练目标是在大量无标注的文本语料库(原始文本)上进行下一单词预测。预训练完成后,可以使用较小的带标注的数据集对大语言模型进行微调

最后在实践应用部分,作者带着读者“手搓”了一个小参数量的微型 GPT 模型。

从最初搭建前馈神经网络,到最后实现生成文本,每个步骤都有详细代码和图文的讲解。跟着作者一步一步,最后就必定可以打造出一个属于自己的“小模型”。这个过程会非常有成就感。

我们编写GPT架构的步骤是:首先从GPT主干入手,创建一个占位符架构;然后实现各个核心组件;最后将它们组装成 Transformer 块,形成完整的 GPT 架构

书中对预训练、微调这些关键环节也讲得很到位。自监督预训练是怎么让模型从海量文本里 “偷师学艺”,积累通用能力;微调又是怎么把预训练模型改装一下,适应各种具体任务,像情感分析、主题分类这些。还有指令微调,可以让模型更懂我们人类的心思,跟我们交流起来更顺畅。

两种指令微调场景。由图的上半部分可知,模型的任务是判断给定文本是否为垃圾消息;由图的下半部分可知,模型被指示将英语句子翻译成德语

另外,这本书配套资源非常丰富。GitHub 上有开源代码可以直接使用,B 站还有配套视频教程,可以搭配学习。

观看地址:https://space.bilibili.com/3546869640726821

哪怕你只有一台普通笔记本,也不用担心没有算力跑不动——作者特别设计了“轻量级模型”,在本地就能训练。高铁上、咖啡厅、周末宿舍里,随时随地都能学。不用担心没有算力,和大模型学习无缘了。

豆瓣评分9.5

《从零构建大模型》
塞巴斯蒂安·拉施卡|著

覃立波,冯骁骋,刘乾 | 译

豆瓣评分 9.5,全网疯传的大模型教程,由畅销书作家塞巴斯蒂安•拉施卡撰写,通过清晰的文字、图表和实例,逐步指导读者创建自己的大模型。

在本书中,你将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练,以及定制特定任务的微调。此外,本书还将探讨如何利用人工反馈确保大模型遵循指令,以及如何将预训练权重加载到大模型中。还有惊喜彩蛋 DeepSeek,作者深入解析构建与优化推理模型的方法和策略。

作者手把手带你亲手构建训练微调一个属于自己的大模型。从数据准备到预训练,从指令微调到模型部署,每一步都讲得清清楚楚。
读完这本书,你会学到什么:

🔹从零开始:自己动手构建模型架构!

🔹 模型训练:教你如何准备数据、搭建训练管道,并优化模型效果!

🔹 让 LLM 更聪明:微调、加载预训练权重,让你的 LLM 适应不同任务!

🔹 人类反馈微调(RLHF):让 LLM 学会理解指令,避免胡言乱语!

🔹 轻量级开发:一台普通笔记本就能跑,告别「算力焦虑」!

作者让你用最小的算力跑通最大的逻辑,你只要拥有一台笔记本,具备一定的 Python 基础,那你都可以来试试!本书中文版思维导图:


作译者简介

作者塞巴斯蒂安·拉施卡(Sebastian Raschka),极具影响力的人工智能专家,GitHub 项目 LLMs-from-scratch 的 star 数达 44k。

现在大模型独角兽公司 Lightning AI 任资深研究工程师。博士毕业于密歇根州立大学,2018~2023 年威斯康星大学麦迪逊分校助理教授(终身教职),从事深度学习科研和教学。

除本书外,他还写作了畅销书《大模型技术30讲》(图灵已出版:)和《Python机器学习》。


译者覃立波,中南大学特聘教授,博士生导师。现任中国中文信息学会青工委秘书长。主要研究兴趣为人工智能、自然语言处理、大模型等。曾担任 ACL、EMNLP、NAACL、IJCAI 等国际会议领域主席或高级程序委员会委员。

译者冯骁骋,哈尔滨工业大学计算学部社会计算与交互机器人研究中心教授,博士生导师,人工智能学院副院长。研究兴趣包括自然语言处理、大模型等。在 ACL、AAAI、IJCAI、TKDE、TOIS 等 CCF A/B 类国际会议及期刊发表论文 50 余篇。

译者刘乾,新加坡某公司的研究科学家,主要研究方向是代码生成与自然语言推理。他在顶级人工智能会议(如ICLR、NeurIPS、ICML)上发表了数十篇论文,曾获得 2020 年百度奖学金提名奖、北京市 2023 年优秀博士论文提名奖、2024 年 KAUST Rising Stars in AI 等荣誉。

主审人简介

车万翔,哈尔滨工业大学计算学部长聘教授,博士生导师,人工智能研究院副院长,国家级青年人才,斯坦福大学访问学者。

黄科科,中南大学教授,博士生导师,自动化学院副院长,国家级青年人才。

我们已迈入了 AI 时代,深刻理解大模型的工作机制极有必要,而这本书可谓深入理解主流生成式AI的实践指南。本书以“亲手构建才是真理解”为核心理念,带领读者从零搭建类 GPT 模型,作者以工程师视角剖析LLM黑箱,通过清晰的代码示例与模块化拆解,完整覆盖模型架构设计、预训练、指令微调等核心环节,是掌握 Transformer 时代模型精髓的必读之作。

——张俊林,新浪微博首席科学家 & AI 研发部负责人 

作为一名大模型从业者,我自认为对书中大部分内容已经足够熟悉,但当我看到书稿的时候,仍忍不住认真读了一遍,因为这种文字、代码、图示、注释四合一的讲解方式实在太引人入胜了。不得不说,这是一本从零入门大模型的难得的好书!

——苏剑林,NLP知名博客“科学空间”博主

这真是一本鼓舞人心的书!它激励你将新技能付诸实践。

——Benjamin Muskalla,GitHub 高级工程师

这是目前对语言模型最通俗易懂且全面的解析!其独特而实用的教学方式,能够达到其他方式都无法企及的理解深度。

——Cameron Wolfe,Netflix 资深科学家

塞巴斯蒂安不仅能够将深邃的理论知识与工程实践完美结合,更拥有化繁为简的魔力。这正是你需要的指南!

——Chip Huyen,《设计机器学习系统》与 AI Engineering 作者

本书内容权威且前沿,强烈推荐!

——Vahid Mirjalili博士,FM Global高级数据科学家

我感觉这俩是“矛与盾”的关系,缺一不可。预训练就像是给模型打下了深厚内功,让它具备了理解语言和生成通用知识的能力,这是地基。但光有内功,模型可能还不够“开窍”,不知道怎么把这些内功用到特定任务上,或者不那么“听话”。这时候就需要微调和对齐,让模型学会“做人”,变得听指挥,能高效解决具体问题。所以,两者相辅相成,共同决定了模型的最终表现和可用性。

作为行业内的人,我个人觉得这个方法非常实用。大模型开发最难的是它的规模和复杂度,但其基础模块和训练范式(如Transformer、Adam、梯度下降、注意力机制等)在大小模型上是一致的。通过轻量级模型,你可以先完整跑通端到端流程,理解每个组件的作用。这为日后上手大型训练框架,处理分布式计算、模型并行等复杂问题打下坚实基础。可以说,这是从理解理论到实际操作的完美过渡,非常有帮助。

这就像学做菜,你先从炒个青菜、炖个番茄鸡蛋开始,你总不能一上来就去挑战满汉全席吧?轻量级模型就是让你掌握“烹饪”的基本功:怎么切菜、怎么调味。等这些都会了,再去学处理更复杂的食材、更大规模的宴席,就会发现很多原理是相通的。所以,我觉得用小模型入门是非常明智的,否则光是搭环境、抢算力就够劝退一大波人了。

从投入成本上看,预训练是真正的大烧钱环节,需要海量数据、算力和时间。但从用户体验和商业价值上看,微调和对齐才是决定模型能否落地、用户是否会买单的关键。想想看,一个预训练得再好的模型,如果不能准确回答你的指令,或者动不动就“胡言乱语”,那它的价值就会大打折扣。所以,对于普通应用开发者来说,掌握微调技术,能让预训练好的模型发挥最大价值,甚至比从头预训练更重要。

从我的经验来看,如果只是想跟着代码跑通流程、理解大概逻辑,确实Python基础+逻辑思维就够了。但若要真正理解Transformer、Attention机制的精髓,以及优化器、损失函数这些背后深层次的数学原理,起码微积分和线性代数的基础知识是不可或缺的。否则,你只是一个API调用者,而不是真正意义上的“构建者”。当然,可以先实践,再反过来补理论,这种学习路径往往效率更高。

额,我感觉只要你不是Python零基础,有点编程思维就行。至于数学嘛……我当年高数线代都还给老师了,现在靠着ChatGPT和Google硬啃也能凑合哈哈。实践出真知,先动手搞起来,遇到不懂的再查,效率杠杠的!别被一堆理论吓跑了!毕竟作者都说了“手把手”教你,那肯定是很通俗易懂的。

轻量级模型对初学者绝对是福音!首先它解决了算力焦虑,让你能真正动手实践。其次,麻雀虽小五脏俱全,核心的训练流程、模型结构你都能亲身体验。但确实,相比工业级万亿参数的大模型,小模型在数据规模、分布式训练、部署优化等方面差距还是挺大的。不过,先把基础打牢,理解了原理,以后再接触复杂场景会更容易适应,算是一个非常好的敲门砖。

我也看了这本书评,感觉它真的把门槛拉低了。Python基础我觉得就是能看懂代码、知道数据结构和一些常用库(比如NumPy、Pandas)怎么用就行。至于数学和线代,如果你想深入理解模型背后的原理,肯定会有帮助,但我觉得这本书可能更侧重实践,边做边学可能更能激发兴趣。不用一开始就钻牛角尖!先动起来再说!

哈哈,这就像小孩学说话,预训练就是让他听了海量的中文,具备了说中文的基础能力。但他可能说出来的都是些‘吃了吗?’、‘嗯嗯’这种通用语料。这时候就需要‘指令微调’和‘RLHF’这两位‘家庭老师’,教他怎么礼貌地和人交流,怎么解决你的问题,比如‘帮我把这句话翻译成英文’,或者‘评价一下这部电影’。所以,预训练是让他‘能说’,微调是对齐让他‘会说好话’,两者都很重要,但后期调教是让模型从‘能说’到‘好用’的关键一步。