告别大厂依赖,从零构建你的大模型:图灵新书中文版来了!

《从零构建大模型》中文版发布,手把手教你从零开始训练自己的大模型,告别高昂算力依赖,小白也能上手!

原文标题:全网催更的大模型爆款书《从零构建大模型》,中文版来了!

原文作者:图灵编辑部

冷月清谈:

还在为高昂的算力和复杂的理论发愁?《从零构建大模型》这本书将打破你对大模型的固有认知。作者塞巴斯蒂安·拉施卡(Sebastian Raschka)通过动手实践,带你从零开始构建、训练和微调属于自己的大模型,无需依赖大型团队和昂贵的计算资源。本书不仅深入讲解了LLM的理论,还提供了一套极具操作性的工程路线图,即使只有一台普通笔记本,也能轻松上手。本书内容涵盖数据准备、预训练、指令微调和模型部署等关键步骤,并配有代码和示意图,作者还在中文版中新增了 DeepSeek 的深度解析,让你掌握前沿技术。这本书拒绝“调包侠”套路,不依赖任何现成 LLM 库,而是真正理解底层逻辑。通过可视化和代码示例,将训练数据准备拆解为“小白操作指南”。更重要的是,它还教你如何用人类反馈优化模型表现,打造更智能的AI。

怜星夜思:

1、书中提到可以使用普通笔记本训练大模型,这是否意味着以后个人开发者也能轻松参与到大模型的研究和应用中?这会带来哪些影响?
2、书中提到了RLHF(人类反馈微调),这种方法是如何让LLM“学会理解指令,避免胡言乱语”的?除了RLHF,还有没有其他方法可以提升LLM的指令遵循能力?
3、这本书强调从零开始构建LLM,而不是直接使用现成的库。这样做的好处是什么?对于初学者来说,直接使用现成的库快速上手和从零开始构建,哪种方式更合适?

原文内容

2025 年,人工智能依然是科技圈最热的风口。ChatGPT、Claude、DeepSeek 等模型层出不穷,不断刷新人们对 AI 能力的想象。而支撑这一切的,正是大语言模型(LLM)——这个曾经只是大厂的专属!

但问题来了:构建一个属于自己的大模型,真的非得依赖大团队、大算力、大预算不可吗?

其实未必!

Build a Large Language Model (From Scratch) 这本书,正在彻底打破这个思维定式。作者不仅深入讲解了 LLM 的理论和未来,更是在用一套极具操作性的工程路线图,告诉你:即使只有一台普通笔记本,也能从零开始训练一个 LLM

这本书一上线就引发了全球开发者的广泛关注——GitHub 上斩获 43.7k 星标,Amazon 美区评分高达 4.7 分。

作者塞巴斯蒂安·拉施卡(Sebastian Raschka)也早就是技术社区里的“红人”了。他的视频教程在 YouTube 上被无数 AI 爱好者点赞收藏,评论区常常出现“看完我就上手了”“原来训练大模型没那么遥不可及”这样的反馈。

不少人看完作者视频教程的学习者,立刻动手实践,甚至已经训练出了属于自己的“小模型”,并在 Hugging Face 上部署 Demo,开源代码,分享日志。

在 YouTube、Twitter 等平台上,#TrainYourOwnLLM 的话题持续升温,评论区几乎被“我居然真的训出来了!”刷屏。可以说,这本书不只是一本讲方法论的工具书,更像是一次大模型开发的行动指南。

作者教学视频地址:

https://space.bilibili.com/3546869640726821

它让 LLM 不再高高在上,而是真正进入了普通开发者的工具箱里。

如果你曾幻想过用自己的代码构建一个大模型,如果你想真正理解 GPT、DeepSeek 等模型背后的运行逻辑,如果你厌倦了只会“调用接口”而不知其所以然——那这本书,可能正是你一直在等的那一本。

封面上有一个公爵夫人,很好辨认,而且这本的内容独一无二!

这本书到底讲了啥?

这是一本注重实战、内容透彻的 LLM 入门书。作者手把手带你亲手构建训练微调一个属于自己的大模型。从数据准备到预训练,从指令微调到模型部署,每一步都讲得清清楚楚,还配有代码、示意图,手把手带你实现。


另外,作者还在中文版里首次新增了有关 DeepSeek 的深度解析,让读者能够学到最前沿的技术!


🔹 从零开始:自己动手构建模型架构!
🔹 模型训练:教你如何准备数据、搭建训练管道,并优化模型效果!
🔹 让 LLM 更聪明:微调、加载预训练权重,让你的 LLM 适应不同任务!
🔹 人类反馈微调(RLHF):让 LLM 学会理解指令,避免胡言乱语!
🔹 轻量级开发:一台普通笔记本就能跑,告别「算力焦虑」!

(本书内容要点导图)

为什么这本书不一样?
❌ 拒绝「调包侠」套路:不依赖任何现成 LLM 库,真正理解底层逻辑。
✔️ 可视化+代码示例:连训练数据准备都拆成「小白操作指南」。
🔥 彩蛋级技巧:用人类反馈优化模型表现,打造更听话、更智能的 AI。

这不仅仅是一本“教科书”,更是一场硬核的 AI 之旅。当你亲手打造一个 LLM 时,黑盒不再是黑盒,你会真正理解大模型的工作原理,构建出属于自己的应用!


附上中文版思维导图:



作译者是谁?

作者塞巴斯蒂安·拉施卡(Sebastian Raschka),极具影响力的人工智能专家,GitHub 项目 LLMs-from-scratch 的 star 数达 43.7k。

现在大模型独角兽公司 Lightning AI 任资深研究工程师。博士毕业于密歇根州立大学,2018~2023 年威斯康星大学麦迪逊分校助理教授(终身教职),从事深度学习科研和教学。

除本书外,他还写作了畅销书《大模型技术30讲》(图灵已出版:)和《Python机器学习》。


译者覃立波,中南大学特聘教授,博士生导师。现任中国中文信息学会青工委秘书长。主要研究兴趣为人工智能、自然语言处理、大模型等。曾担任 ACL、EMNLP、NAACL、IJCAI 等国际会议领域主席或高级程序委员会委员。

译者冯骁骋,哈尔滨工业大学计算学部社会计算与交互机器人研究中心教授,博士生导师,人工智能学院副院长。研究兴趣包括自然语言处理、大模型等。在 ACL、AAAI、IJCAI、TKDE、TOIS 等 CCF A/B 类国际会议及期刊发表论文 50 余篇。

译者刘乾,新加坡某公司的研究科学家,主要研究方向是代码生成与自然语言推理。他在顶级人工智能会议(如ICLR、NeurIPS、ICML)上发表了数十篇论文,曾获得 2020 年百度奖学金提名奖、北京市 2023 年优秀博士论文提名奖、2024 年 KAUST Rising Stars in AI 等荣誉。



主审人简介
车万翔,哈尔滨工业大学计算学部长聘教授,博士生导师,人工智能研究院副院长,国家级青年人才,斯坦福大学访问学者。
黄科科,中南大学教授,博士生导师,自动化学院副院长,国家级青年人才。

原版读者评价

只需跟着作者一步步操作,相信你一定能掌握构建 LLM 的核心技能,成功构建属于自己的大模型!如果你正在探索如何打造大模型,这本书绝对是你的最佳指南!

中文版业内专家评价

我们已迈入了 AI 时代,深刻理解大模型的工作机制极有必要,而这本书可谓深入理解主流生成式AI的实践指南。本书以“亲手构建才是真理解”为核心理念,带领读者从零搭建类 GPT 模型,作者以工程师视角剖析LLM黑箱,通过清晰的代码示例与模块化拆解,完整覆盖模型架构设计、预训练、指令微调等核心环节,是掌握 Transformer 时代模型精髓的必读之作。

——张俊林,新浪微博首席科学家 & AI 研发部负责人 

作为一名大模型从业者,我自认为对书中大部分内容已经足够熟悉,但当我看到书稿的时候,仍忍不住认真读了一遍,因为这种文字、代码、图示、注释四合一的讲解方式实在太引人入胜了。不得不说,这是一本从零入门大模型的难得的好书!

——苏剑林,NLP知名博客“科学空间”博主

这真是一本鼓舞人心的书!它激励你将新技能付诸实践。

——Benjamin Muskalla,GitHub 高级工程师

这是目前对语言模型最通俗易懂且全面的解析!其独特而实用的教学方式,能够达到其他方式都无法企及的理解深度。

——Cameron Wolfe,Netflix 资深科学家

塞巴斯蒂安不仅能够将深邃的理论知识与工程实践完美结合,更拥有化繁为简的魔力。这正是你需要的指南!

——Chip Huyen,《设计机器学习系统》与 AI Engineering 作者

本书内容权威且前沿,强烈推荐!

——Vahid Mirjalili博士,FM Global高级数据科学家

作者博客文章

1.

2.

3.

4.

5.

关注不迷路,扫码学习大模型不孤单!👇

图片

这让我想起了当年PC互联网刚兴起的时候,大家也是觉得只有大公司才能做网站。现在,小学生都能用各种工具搭建自己的个人主页。如果大模型开发也像这样普及,那简直不敢想象!但是,会不会也出现大量低质量、甚至有害的模型呢?这需要我们提前思考和应对。

从学术角度讲,RLHF利用强化学习,通过人类的偏好数据来训练奖励模型,然后用这个奖励模型来指导LLM的生成过程。这个过程可以看作是在优化LLM的策略,使其更符合人类的价值观和期望。但是,RLHF的成本很高,需要大量的人工标注数据。所以,也有研究者在探索无监督或半监督的方法来提升LLM的指令遵循能力。

打个比方,RLHF就像是给狗狗训练才艺,你给它正确的指令,它做对了就给奖励,做错了就批评。狗狗通过不断地学习,就知道怎么做才能得到奖励。

谢邀。作为一个偏学院派的人,我肯定推荐从零开始。只有了解了底层原理,才能真正掌握技术,而不是成为一个只会“调包”的工具人。当然,这需要花费更多的时间和精力。但是,从长远来看,这是值得的。而且,从零开始构建的过程本身就是一种学习和探索的过程,可以培养解决问题的能力和创新精神。

(利益相关:我当年就是啃了好几本数学书,才勉强入门深度学习的。)

个人开发者能参与大模型研究,绝对是好事!想想开源软件的普及,就是靠无数个人贡献者。如果大模型也这样,创新速度肯定更快,应用也会更普及。不过,实际操作可能没那么简单,数据、算法优化还是需要专业知识。但至少门槛降低了,对整个行业是积极的。

RLHF就像给AI找了个“老师”,老师通过正向和负向的反馈,让AI知道哪些回答是好的,哪些是坏的。这个过程迭代下来,AI就越来越会“看人脸色”了。不过,RLHF也挺依赖“老师”的水平的,如果“老师”自己都胡说八道,那AI也学不到啥好的。

除了RLHF, Prompt Engineering也很重要,设计更清晰、更明确的指令,也能有效提升LLM的理解能力。还有一些研究在探索直接修改模型内部结构的方法,让模型更好地理解人类意图,但这些方法还比较新。

我觉得这取决于你的目标。如果你只是想快速做出一个能用的产品,那直接用现成的库肯定更高效。但如果你想深入理解LLM的原理,或者想在LLM领域有所创新,那从零开始是必经之路。而且,从零开始也能让你更好地理解现成库的局限性,从而更好地利用它们。

打个比方,就像你想做一个网站,可以直接用WordPress,也可以自己写代码。前者可以让你快速搭建一个网站,后者可以让你完全掌控网站的每一个细节。

从零开始的好处就是知其所以然!就像学开车,直接上手开很简单,但如果你懂发动机原理、底盘结构,开车时会更有信心,也能更好地应对突发情况。对于LLM来说,理解底层原理能让你在遇到问题时更有思路,也能更好地进行定制和优化。

初学者的话,我建议先用现成的库快速上手,感受一下LLM的强大。然后再回过头来研究底层原理,这样会更有动力,也更能理解其中的奥妙。

我认为这是一个非常积极的趋势。大模型不再是少数机构的专属,更多个人开发者参与进来,可以促进技术的民主化。当然,这也会带来一些挑战,例如如何保证模型的安全性和可靠性,如何避免被滥用等。但总体来说,这是一个值得期待的未来。而且,以后我们普通人也可以根据自己的需求定制专属大模型了,想想就觉得酷!

ps:我已经开始期待看到各种奇奇怪怪的个人大模型了,希望能有人做个“方言生成器”模型。