一本手把手教你从零构建大模型的实战指南

turingbooks · 2025 年8 月 7 日 13:15

《从零构建大模型》：手把手教你用普通电脑搭建并训练属于自己的LLM！

原文标题：GitHub 62.6k Star 爆款项目，我终于看懂了！

原文作者：图灵编辑部

原文链接： http://mp.weixin.qq.com/s?__biz=MjM5Njc0MjIwMA==&mid=2649837206&idx=1&sn=4bc5bb3a90d21b579b447ca911bc6458&

冷月清谈：

《从零构建大模型》是一本旨在帮助读者亲手打造大型语言模型的实践性教程。本书由AI领域专家塞巴斯蒂安·拉施卡撰写，通过系统化的“三阶段”教学法，详细讲解了构建LLM的关键步骤。

内容上，它首先从模型发展历程讲起，继而深入探讨了数据处理中的Byte Pair Encoding (BPE) 算法，以及大模型核心的注意力（Attention）机制。作者将Transformer架构拆解为核心组件，指导读者一步步实现，最终“手搓”一个小型GPT模型。书中详细阐述了预训练环节模型如何通过海量无标注文本“自监督学习”累积通用能力，以及如何通过微调（如指令微调）使其适应特定任务，甚至理解人类意图。

此书的独特之处在于其极高的可操作性与普适性。即使是普通笔记本电脑，也能通过作者设计的“轻量级模型”进行训练，解决了许多学习者面临的算力限制。同时，教程配套GitHub开源代码和B站视频教程，为读者提供了丰富的辅助学习资源。这本书不仅被业内专家高度评价（豆瓣9.5分），更因其清晰易懂的讲解方式，成为那些希望从零开始深入理解并实践大模型开发的理想选择。

怜星夜思：

1、书里说只要有台普通笔记本和基本的Python基础就能学大模型开发，有没有同学试过？这个“基础”到底要到什么程度啊？是不是还要补点数学或者线代知识才行？
2、《从零构建大模型》强调用轻量级模型在本地训练，这对初学者来说意味着什么？是降低门槛的好事，还是说和工业界真正的大模型开发会有很大差距？大家觉得用小模型入门，对未来上手大模型项目有多大帮助？
3、文章提到了指令微调和RLHF（人类反馈强化学习），让模型更理解人话，感觉挺关键的。想问问大家，在构建一个真正能用的AI大模型时，是前期的大规模预训练更重要，还是后期这些微调和对齐工作更重要？或者说，它们是缺一不可的组合拳？

原文内容

在如今 AI 大模型霸屏的时代，想不想弄清楚像 ChatGPT、DeepSeek 这些大模型到底是怎样造出来的？

这本在 GitHub 上打星 62.6k 的书像一位导师，手把手一步步教你从 0 到 1 来构建和应用大模型。

作者 GitHub 地址：https://github.com/rasbt/LLMs-from-scratch

这本书的作者是 Sebastian Raschka，他是一位在人工智能和数据科学领域的技术专家。虽然他是一名学者，但是他有个本事，可以把复杂的大模型知识讲得明明白白。

构建大语言模型的 3 个主要阶段：实现模型架构和准备数据（第一阶段）、预训练大语言模型以获得基础模型（第二阶段），以及微调基础模型以得到个人助手或文本分类器（第三阶段）

作者先从大语言模型发展历程也就是前世今生讲起，然后在处理数据这块，有 Byte Pair Encoding(BPE) 算法做训练模型的打底。

而在模型架构中的核心部分，注意力（attention）机制作者用了 “三步教学法”把这个概念慢慢讲透。

大语言模型的预训练目标是在大量无标注的文本语料库（原始文本）上进行下一单词预测。预训练完成后，可以使用较小的带标注的数据集对大语言模型进行微调

最后在实践应用部分，作者带着读者“手搓”了一个小参数量的微型 GPT 模型。

从最初搭建前馈神经网络，到最后实现生成文本，每个步骤都有详细代码和图文的讲解。跟着作者一步一步，最后就必定可以打造出一个属于自己的“小模型”。这个过程会非常有成就感。

我们编写GPT架构的步骤是：首先从GPT主干入手，创建一个占位符架构；然后实现各个核心组件；最后将它们组装成 Transformer 块，形成完整的 GPT 架构

书中对预训练、微调这些关键环节也讲得很到位。自监督预训练是怎么让模型从海量文本里 “偷师学艺”，积累通用能力；微调又是怎么把预训练模型改装一下，适应各种具体任务，像情感分析、主题分类这些。还有指令微调，可以让模型更懂我们人类的心思，跟我们交流起来更顺畅。

两种指令微调场景。由图的上半部分可知，模型的任务是判断给定文本是否为垃圾消息；由图的下半部分可知，模型被指示将英语句子翻译成德语

另外，这本书配套资源非常丰富。GitHub 上有开源代码可以直接使用，B 站还有配套视频教程，可以搭配学习。

观看地址：https://space.bilibili.com/3546869640726821

哪怕你只有一台普通笔记本，也不用担心没有算力跑不动——作者特别设计了“轻量级模型”，在本地就能训练。高铁上、咖啡厅、周末宿舍里，随时随地都能学。不用担心没有算力，和大模型学习无缘了。

豆瓣评分9.5

《从零构建大模型》

塞巴斯蒂安·拉施卡｜著

覃立波，冯骁骋，刘乾｜译

豆瓣评分 9.5，全网疯传的大模型教程，由畅销书作家塞巴斯蒂安•拉施卡撰写，通过清晰的文字、图表和实例，逐步指导读者创建自己的大模型。

在本书中，你将学习如何规划和编写大模型的各个组成部分、为大模型训练准备适当的数据集、进行通用语料库的预训练，以及定制特定任务的微调。此外，本书还将探讨如何利用人工反馈确保大模型遵循指令，以及如何将预训练权重加载到大模型中。还有惊喜彩蛋 DeepSeek，作者深入解析构建与优化推理模型的方法和策略。

内容简介

作者手把手带你亲手构建、训练、微调一个属于自己的大模型。从数据准备到预训练，从指令微调到模型部署，每一步都讲得清清楚楚。

读完这本书，你会学到什么：

🔹从零开始：自己动手构建模型架构！

🔹 模型训练：教你如何准备数据、搭建训练管道，并优化模型效果！

🔹 让 LLM 更聪明：微调、加载预训练权重，让你的 LLM 适应不同任务！

🔹 人类反馈微调（RLHF）：让 LLM 学会理解指令，避免胡言乱语！

🔹 轻量级开发：一台普通笔记本就能跑，告别「算力焦虑」！

作者让你用最小的算力跑通最大的逻辑，你只要拥有一台笔记本，具备一定的 Python 基础，那你都可以来试试！本书中文版思维导图：

作译者简介

作者塞巴斯蒂安·拉施卡（Sebastian Raschka），极具影响力的人工智能专家，GitHub 项目 LLMs-from-scratch 的 star 数达 44k。

现在大模型独角兽公司 Lightning AI 任资深研究工程师。博士毕业于密歇根州立大学，2018~2023 年威斯康星大学麦迪逊分校助理教授（终身教职），从事深度学习科研和教学。

除本书外，他还写作了畅销书《大模型技术30讲》（图灵已出版：）和《Python机器学习》。

译者覃立波，中南大学特聘教授，博士生导师。现任中国中文信息学会青工委秘书长。主要研究兴趣为人工智能、自然语言处理、大模型等。曾担任 ACL、EMNLP、NAACL、IJCAI 等国际会议领域主席或高级程序委员会委员。

译者冯骁骋，哈尔滨工业大学计算学部社会计算与交互机器人研究中心教授，博士生导师，人工智能学院副院长。研究兴趣包括自然语言处理、大模型等。在 ACL、AAAI、IJCAI、TKDE、TOIS 等 CCF A/B 类国际会议及期刊发表论文 50 余篇。

译者刘乾，新加坡某公司的研究科学家，主要研究方向是代码生成与自然语言推理。他在顶级人工智能会议（如ICLR、NeurIPS、ICML）上发表了数十篇论文，曾获得 2020 年百度奖学金提名奖、北京市 2023 年优秀博士论文提名奖、2024 年 KAUST Rising Stars in AI 等荣誉。

主审人简介

车万翔，哈尔滨工业大学计算学部长聘教授，博士生导师，人工智能研究院副院长，国家级青年人才，斯坦福大学访问学者。

黄科科，中南大学教授，博士生导师，自动化学院副院长，国家级青年人才。

专家评价

我们已迈入了 AI 时代，深刻理解大模型的工作机制极有必要，而这本书可谓深入理解主流生成式AI的实践指南。本书以“亲手构建才是真理解”为核心理念，带领读者从零搭建类 GPT 模型，作者以工程师视角剖析LLM黑箱，通过清晰的代码示例与模块化拆解，完整覆盖模型架构设计、预训练、指令微调等核心环节，是掌握 Transformer 时代模型精髓的必读之作。

——张俊林，新浪微博首席科学家 & AI 研发部负责人

作为一名大模型从业者，我自认为对书中大部分内容已经足够熟悉，但当我看到书稿的时候，仍忍不住认真读了一遍，因为这种文字、代码、图示、注释四合一的讲解方式实在太引人入胜了。不得不说，这是一本从零入门大模型的难得的好书！

——苏剑林，NLP知名博客“科学空间”博主

这真是一本鼓舞人心的书！它激励你将新技能付诸实践。

——Benjamin Muskalla，GitHub 高级工程师

这是目前对语言模型最通俗易懂且全面的解析！其独特而实用的教学方式，能够达到其他方式都无法企及的理解深度。

——Cameron Wolfe，Netflix 资深科学家

塞巴斯蒂安不仅能够将深邃的理论知识与工程实践完美结合，更拥有化繁为简的魔力。这正是你需要的指南！

——Chip Huyen，《设计机器学习系统》与 AI Engineering 作者

本书内容权威且前沿，强烈推荐！

——Vahid Mirjalili博士，FM Global高级数据科学家

MorningDew906 · 2025 年8 月 8 日 01:19

我感觉这俩是“矛与盾”的关系，缺一不可。预训练就像是给模型打下了深厚内功，让它具备了理解语言和生成通用知识的能力，这是地基。但光有内功，模型可能还不够“开窍”，不知道怎么把这些内功用到特定任务上，或者不那么“听话”。这时候就需要微调和对齐，让模型学会“做人”，变得听指挥，能高效解决具体问题。所以，两者相辅相成，共同决定了模型的最终表现和可用性。

HarvestMoon921 · 2025 年8 月 9 日 18:50

作为行业内的人，我个人觉得这个方法非常实用。大模型开发最难的是它的规模和复杂度，但其基础模块和训练范式（如Transformer、Adam、梯度下降、注意力机制等）在大小模型上是一致的。通过轻量级模型，你可以先完整跑通端到端流程，理解每个组件的作用。这为日后上手大型训练框架，处理分布式计算、模型并行等复杂问题打下坚实基础。可以说，这是从理解理论到实际操作的完美过渡，非常有帮助。

Whisper51y · 2025 年8 月 9 日 19:57

这就像学做菜，你先从炒个青菜、炖个番茄鸡蛋开始，你总不能一上来就去挑战满汉全席吧？轻量级模型就是让你掌握“烹饪”的基本功：怎么切菜、怎么调味。等这些都会了，再去学处理更复杂的食材、更大规模的宴席，就会发现很多原理是相通的。所以，我觉得用小模型入门是非常明智的，否则光是搭环境、抢算力就够劝退一大波人了。

Ion31q · 2025 年8 月 10 日 03:28

从投入成本上看，预训练是真正的大烧钱环节，需要海量数据、算力和时间。但从用户体验和商业价值上看，微调和对齐才是决定模型能否落地、用户是否会买单的关键。想想看，一个预训练得再好的模型，如果不能准确回答你的指令，或者动不动就“胡言乱语”，那它的价值就会大打折扣。所以，对于普通应用开发者来说，掌握微调技术，能让预训练好的模型发挥最大价值，甚至比从头预训练更重要。

Valor47z · 2025 年8 月 10 日 18:56

从我的经验来看，如果只是想跟着代码跑通流程、理解大概逻辑，确实Python基础+逻辑思维就够了。但若要真正理解Transformer、Attention机制的精髓，以及优化器、损失函数这些背后深层次的数学原理，起码微积分和线性代数的基础知识是不可或缺的。否则，你只是一个API调用者，而不是真正意义上的“构建者”。当然，可以先实践，再反过来补理论，这种学习路径往往效率更高。

SoaringEagle839 · 2025 年8 月 11 日 01:50

额，我感觉只要你不是Python零基础，有点编程思维就行。至于数学嘛……我当年高数线代都还给老师了，现在靠着ChatGPT和Google硬啃也能凑合哈哈。实践出真知，先动手搞起来，遇到不懂的再查，效率杠杠的！别被一堆理论吓跑了！毕竟作者都说了“手把手”教你，那肯定是很通俗易懂的。

ElectricEel339 · 2025 年8 月 12 日 01:19

轻量级模型对初学者绝对是福音！首先它解决了算力焦虑，让你能真正动手实践。其次，麻雀虽小五脏俱全，核心的训练流程、模型结构你都能亲身体验。但确实，相比工业级万亿参数的大模型，小模型在数据规模、分布式训练、部署优化等方面差距还是挺大的。不过，先把基础打牢，理解了原理，以后再接触复杂场景会更容易适应，算是一个非常好的敲门砖。

WanderingWolf359 · 2025 年8 月 13 日 18:25

我也看了这本书评，感觉它真的把门槛拉低了。Python基础我觉得就是能看懂代码、知道数据结构和一些常用库（比如NumPy、Pandas）怎么用就行。至于数学和线代，如果你想深入理解模型背后的原理，肯定会有帮助，但我觉得这本书可能更侧重实践，边做边学可能更能激发兴趣。不用一开始就钻牛角尖！先动起来再说！

DreamyParrot272 · 2025 年8 月 13 日 23:42

哈哈，这就像小孩学说话，预训练就是让他听了海量的中文，具备了说中文的基础能力。但他可能说出来的都是些‘吃了吗？’、‘嗯嗯’这种通用语料。这时候就需要‘指令微调’和‘RLHF’这两位‘家庭老师’，教他怎么礼貌地和人交流，怎么解决你的问题，比如‘帮我把这句话翻译成英文’，或者‘评价一下这部电影’。所以，预训练是让他‘能说’，微调是对齐让他‘会说好话’，两者都很重要，但后期调教是让模型从‘能说’到‘好用’的关键一步。