从零构建大模型:一本全网追捧的AI实战指南

🔥全网追捧的AI实战指南!《从零构建大模型》带你手把手打造专属LLM,告别算力焦虑,普通开发者也能轻松上手!

原文标题:这本书为啥全网都在追?我看了3页就明白了!

原文作者:图灵编辑部

冷月清谈:

Sebastian Raschka 的《从零构建大模型》一书因其清晰、实用的教程而备受关注。区别于“概念小册子”,本书以“亲手构建”为核心,带领读者从零开始构建、训练和微调大模型。内容涵盖数据准备、预训练、指令微调、模型部署等环节,并提供代码示例和模块化拆解,即使是普通的开发者也能用笔记本电脑跑通。书中还包含人类反馈微调(RLHF)等进阶内容,以及中文版独有的DeepSeek优化推理策略和部署讲解。作者还提供了YouTube教学视频,配合书籍学习,降低了学习门槛,让LLM不再高高在上,而是真正进入普通开发者的工具箱。受到张俊林、苏剑林、Chip Huyen等众多专家和从业者推荐。

怜星夜思:

1、这本书强调“从零开始构建大模型”,但从零开始的定义是什么?需要哪些预备知识?完全没有机器学习背景的人能看懂吗?
2、书中提到了RLHF(人类反馈微调),这个技术在实际应用中面临哪些挑战?如何确保人类反馈的质量和一致性?
3、这本书强调在普通笔记本上跑大模型,那性能肯定会受到限制,在实际应用中,如何平衡模型大小、推理速度和资源消耗?

原文内容

要不是那个 GitHub 44k star 的热门项目在网上疯传,我可能一辈子都记不住这个名字要怎么拼:Sebastian Raschka。

虽然总是拼错他的名字,但他却在大模型的混沌中,一次次救了我。搜索一下,发现这哥们还挺“反差萌”,不拍炫技视频、不走网红路线,安安静静地搞教程。

你别说,他出的教程,是真的火,从机器学习、深度学习,到如今的大模型,他几乎每一步都走在最前面。

就连 Designing Machine Learning Systems 的作者 Chip Huyen 都曾转发他的项目说“这是学习大模型底层原理的绝佳资源”。


国内专家张俊林、苏剑林、Netflix 工程师也都纷纷点赞力推。

最妙的是,他的教程不仅靠谱、清晰、能跑通,重点是——你能看懂!

就连 Hugging Face 上让人头大的文档,他都能顺顺溜溜地讲明白,还能带你一步步手搓大模型。

十几年前,Sebastian Raschka 还是个学生,在一个统计模式分类课程上,他完成了首个独立项目:一个能通过歌词识别歌曲所蕴含情绪的模型,以及相应的网页应用程序。别人草草交个作业了事,他不仅建了模型,还能跑起来。

就是这事儿,一下子点燃了他对 AI 的热情。

之后几年,他打怪升级,一路自学、深挖、分享,从机器学习写到神经网络,从 YouTube 视频分享到 GitHub 开源项目,每一步都稳扎稳打。

而现在,他把这条「自学→实战→输出」的路,浓缩成一本书——《从零构建大模型》,来帮助更多想学习大模型的人。

这本书不是“AI 概念小册子”,更没有虚的东西,你真正能用上的实打实的方法

Sebastian 的风格一向都很直接:“我不是大神,我只是一个把复杂问题讲清楚的人。”

所以别怕自己基础薄弱,起点低,跟不上——他写书不是为了给大佬拍手看的,是写给你我这样的普通开发者的

这本不是会“告诉你这事多牛逼”的那种书,它是“你来,我教你上手”的那种书。看过的人几乎都一致好评,高赞作者!
书中的内容很接地气,作者手把手带你亲手构建训练微调一个属于自己的大模型。从数据准备到预训练,从指令微调到模型部署,每一步都讲得清清楚楚。
读完这本书,你会学到什么:

🔹从零开始:自己动手构建模型架构!

🔹 模型训练:教你如何准备数据、搭建训练管道,并优化模型效果!

🔹 让 LLM 更聪明:微调、加载预训练权重,让你的 LLM 适应不同任务!

🔹 人类反馈微调(RLHF):让 LLM 学会理解指令,避免胡言乱语!

🔹 轻量级开发:一台普通笔记本就能跑,告别「算力焦虑」!

作者让你用最小的算力跑通最大的逻辑,你只要拥有一台笔记本,具备一定的 Python 基础,那你都可以来试试!作者让 LLM 不再高高在上,而是真正进入了普通开发者的工具箱里。附上中文版思维导图:

如果你在操作中遇到困难,作者还亲自录了 YouTube 教学视频(真·手把手讲代码),这样你也无需担心学不会了!真的是很贴心。

作者教学视频地址:

https://space.bilibili.com/3546869640726821


而且,中文版还增加了 DeepSeek 方面的内容,这可使原版里没有的干货哟!独一无二,主要讲解了如何优化推理策略和部署,实用性拉满!

可以说学习大模型这一路并不轻松,但好在有人走在前面,把路写成了文档。


如果你正准备入门大模型开发,就来翻翻这本书吧!一定不会让你失望。



作译者是谁?

作者塞巴斯蒂安·拉施卡(Sebastian Raschka),极具影响力的人工智能专家,GitHub 项目 LLMs-from-scratch 的 star 数达 44k。

现在大模型独角兽公司 Lightning AI 任资深研究工程师。博士毕业于密歇根州立大学,2018~2023 年威斯康星大学麦迪逊分校助理教授(终身教职),从事深度学习科研和教学。

除本书外,他还写作了畅销书《大模型技术30讲》(图灵已出版:)和《Python机器学习》。


译者覃立波,中南大学特聘教授,博士生导师。现任中国中文信息学会青工委秘书长。主要研究兴趣为人工智能、自然语言处理、大模型等。曾担任 ACL、EMNLP、NAACL、IJCAI 等国际会议领域主席或高级程序委员会委员。

译者冯骁骋,哈尔滨工业大学计算学部社会计算与交互机器人研究中心教授,博士生导师,人工智能学院副院长。研究兴趣包括自然语言处理、大模型等。在 ACL、AAAI、IJCAI、TKDE、TOIS 等 CCF A/B 类国际会议及期刊发表论文 50 余篇。

译者刘乾,新加坡某公司的研究科学家,主要研究方向是代码生成与自然语言推理。他在顶级人工智能会议(如ICLR、NeurIPS、ICML)上发表了数十篇论文,曾获得 2020 年百度奖学金提名奖、北京市 2023 年优秀博士论文提名奖、2024 年 KAUST Rising Stars in AI 等荣誉。



主审人简介

车万翔,哈尔滨工业大学计算学部长聘教授,博士生导师,人工智能研究院副院长,国家级青年人才,斯坦福大学访问学者。

黄科科,中南大学教授,博士生导师,自动化学院副院长,国家级青年人才。

中文版业内专家评价

我们已迈入了 AI 时代,深刻理解大模型的工作机制极有必要,而这本书可谓深入理解主流生成式AI的实践指南。本书以“亲手构建才是真理解”为核心理念,带领读者从零搭建类 GPT 模型,作者以工程师视角剖析LLM黑箱,通过清晰的代码示例与模块化拆解,完整覆盖模型架构设计、预训练、指令微调等核心环节,是掌握 Transformer 时代模型精髓的必读之作。

——张俊林,新浪微博首席科学家 & AI 研发部负责人 

作为一名大模型从业者,我自认为对书中大部分内容已经足够熟悉,但当我看到书稿的时候,仍忍不住认真读了一遍,因为这种文字、代码、图示、注释四合一的讲解方式实在太引人入胜了。不得不说,这是一本从零入门大模型的难得的好书!

——苏剑林,NLP知名博客“科学空间”博主

这真是一本鼓舞人心的书!它激励你将新技能付诸实践。

——Benjamin Muskalla,GitHub 高级工程师

这是目前对语言模型最通俗易懂且全面的解析!其独特而实用的教学方式,能够达到其他方式都无法企及的理解深度。

——Cameron Wolfe,Netflix 资深科学家

塞巴斯蒂安不仅能够将深邃的理论知识与工程实践完美结合,更拥有化繁为简的魔力。这正是你需要的指南!

——Chip Huyen,《设计机器学习系统》与 AI Engineering 作者

本书内容权威且前沿,强烈推荐!

——Vahid Mirjalili博士,FM Global高级数据科学家

作者博客文章
1.
2.
3.
4.
5.
关注不迷路,扫码学习大模型不孤单!👇

图片

其实我觉得这本书最大的亮点在于它提供了一种“动手学”的思路。 即使你没有深厚的理论基础,也可以通过跟着书中的步骤一步步操作,来感受大模型的构建过程。 这种实践出真知的学习方式,往往比单纯的理论学习更有效。 而且,大模型领域发展迅速,很多时候我们都是在实践中不断学习和探索。 所以,即使一开始看不懂,也不要气馁,先动手跑起来,然后在实践中不断思考和总结,相信你一定会有所收获。

我觉得可以借鉴一下游戏行业的经验。 游戏公司为了测试游戏的平衡性和用户体验,通常会招募大量的玩家进行测试,并收集他们的反馈。 我们可以参考这种模式,建立一个大模型反馈平台,招募志愿者或者付费用户来提供反馈。 为了保证反馈的质量和一致性,可以制定详细的反馈指南,并对反馈进行审核和筛选。 另外一个思路是引入自动化评估指标,比如使用一些现有的自然语言处理模型来评估模型的生成质量和一致性,从而减少对人工反馈的依赖。

这个问题问得好! “从零开始”更多的是指从模型架构的搭建开始,逐步深入到训练、微调和部署的各个环节。 预备知识方面,我认为至少需要一定的 Python 编程基础,因为书中会涉及到不少代码实现。 最好对机器学习,尤其是深度学习有一些了解,比如知道什么是梯度下降、什么是损失函数等。 如果完全没有机器学习背景,上手可能会有些吃力,但可以先学习一些基础概念,再结合这本书进行实践,应该也能逐渐理解。书里有代码、有图示,还提供了视频教程,还是挺友好的,可以硬着头皮啃一下,说不定就啃下来了!

除了楼上提到的模型压缩和加速方法,还可以考虑以下几个方面: 选择合适的模型架构:不同的模型架构在性能和资源消耗方面有所差异,可以根据实际需求选择合适的模型。 使用缓存机制:对于一些常见的query,可以将其结果缓存起来,避免重复计算。 异步推理:将推理任务放到后台执行,避免阻塞主线程,提高系统的响应速度。 模型并行:将模型放到多个设备上并行计算,提高推理速度。 但需要注意的是,这些方法都有各自的优缺点,需要根据实际情况进行权衡。

RLHF绝对是大模型训练里的一大难点!挑战确实不少。 首先,数据质量是个大问题。如果用来训练模型的反馈数据本身就带有偏见或者不一致,那训练出来的模型也会受到影响。 其次,如何高效地收集高质量的人工反馈也是个挑战。毕竟,标注员的成本很高,而且每个人的理解和偏好也可能不同。 最后,RLHF的训练过程也比较复杂,需要不断地调整模型和奖励函数,才能达到最佳效果。 感觉就像在调教一个熊孩子,需要耐心和技巧!

我来补充一点学术的看法。 从学术角度来看,RLHF 的挑战可以归结为以下几个方面: 1. Reward Hacking:模型可能会为了获得更高的奖励而采取一些不符合人类意图的行为。 2. Distribution Shift:RLHF 训练过程中,模型的数据分布会发生变化,导致泛化能力下降。 3. Sample Efficiency:RLHF 通常需要大量的样本才能达到较好的效果。 为了解决这些问题,研究人员提出了很多方法,比如引入对抗训练、使用更有效的探索策略等等。 但总的来说,RLHF 仍然是一个活跃的研究领域,还有很多问题需要解决。

楼上的朋友说的很对,我也觉得“从零开始”更多的是指实践层面。个人理解,这本书主要面向有一定编程基础,但对大模型底层原理和实际构建流程不太熟悉的开发者。 如果你是零基础,建议先补充一些机器学习和深度学习的基础知识,比如可以通过一些在线课程或者入门书籍了解一下。 另外,这本书的作者 Sebastian Raschka 之前也写过《Python机器学习》,可以作为入门的参考资料。 总之,学习任何新知识都需要一个过程,不要害怕起点低,关键是坚持学习和实践。

这个问题非常关键! 资源有限的情况下,模型的压缩和加速是必选项。 常见的方法包括: 模型剪枝(Pruning):减少模型中不重要的连接,降低模型复杂度。 量化(Quantization):用更低精度的数据类型(比如 int8)来表示模型参数,减少存储空间和计算量。 知识蒸馏(Knowledge Distillation):训练一个小模型来模仿大模型的行为,从而在保证性能的同时降低资源消耗。 使用更高效的推理引擎:比如 ONNX Runtime、TensorRT 等,可以对模型进行优化,提高推理速度。 总之,需要根据具体的应用场景和资源限制,选择合适的优化方法。