Sebastian Raschka新作《机器学习与AI核心30问》免费开放,助力新手和专家提升技能

Sebastian Raschka免费开放《机器学习与AI核心30问》,覆盖机器学习、计算机视觉、自然语言处理等领域,助力技术面试和技能提升。

原文标题:Sebastian Raschka著作免费开放!《机器学习与AI核心30问》,新手专家皆宜

原文作者:机器之心

冷月清谈:

知名AI技术博主 Sebastian Raschka 将其著作《机器学习 Q 与 AI:30 个必备问答》全部内容免费开放,旨在帮助大家应对夏季实习和技术面试。本书涵盖神经网络、计算机视觉、自然语言处理、生产部署和模型评估等五大领域,共 30 个章节,内容从机器学习新手到专家级别,适合不同水平的读者。书中讨论了嵌入、自监督学习、少样本学习、Transformer、生成式AI模型等多个热门话题,并深入探讨了模型优化、过拟合处理、推理加速等实用技术。作者强调本书并非由AI生成,而是自己多年经验的总结。

怜星夜思:

1、书中提到了多种减少过拟合的方法,例如数据增强、正则化等。在实际项目中,你通常会优先尝试哪种方法?为什么?
2、书中提到了多种评估生成式大语言模型的指标,如困惑度、BLEU等。你认为这些指标能够全面反映一个生成式模型的质量吗?还有哪些方面是这些指标无法覆盖的?
3、书中提到了“以数据为中心的AI”和“以模型为中心的AI”两种范式。你更倾向于哪种范式?为什么?在你的实际工作中,你是如何平衡数据和模型的重要性?

原文内容

机器之心报道

编辑:杜伟


知名 AI 技术博主、《Python 机器学习》作者 Sebastian Raschka 又来放福利了!


今天,他宣布,正值夏季实习和技术面试之际,自己著作《机器学习 Q 与 AI:30 个必备问答》的全部 30 章内容免费开放。他希望能为大家带来帮助,并祝面试的小伙伴好运。



这本书纸质版(+ 电子版)原价 49.99 美元(约合 358 元),电子版原价 39.9 美元(约合 286 元)。



如今,机器学习和人工智能领域正以前所未有的速度发展。研究人员和从业者常常疲于追赶层出不穷的概念与技术。


本书为你的成长旅途提供了碎片化的知识精华 —— 从机器学习新手到专家,涵盖多个领域的主题。即便是经验丰富的机器学习研究者和从业者,也能从中发现可纳入自身技能库的新内容



评论区有人问,「这本书是用 AI 写的吗?」Sebastian 称当然不是,这样做违背他的个人伦理。有趣的是:这本书的大部分内容写于 2022 年 11 月第一版 ChatGPT 发布前的几个月,最开始是在 LeanPub 上发布,后来在 2024 年由 No Starch 出版社出版。这本书可能曾是 ChatGPT 的训练数据。



Sebastian 还链接到了自己 2023 年 1 月关于本书的一则动态,他向书中添加了很多新内容,包括无状态与有状态训练、恰当评估指标以及有限标注数据。



Sebastian 的这本书收获了很多普通读者与业界同行的好评。



《Designing Machine Learning Systems》一书的作者 Chip Huyen 表示,「Sebastian 独特地融合了学术深度、工程敏捷性以及化繁为简的能力。他能深入探讨任何理论主题,通过实验验证新想法,然后用简单的语言向你解释清楚。如果你正开启机器学习之旅,这本书就是你的向导。」


《How AI Works》一书的作者 Ronald T. Kneusel 称,Sebastian 的书籍《机器学习 Q 和 AI》,是关于大多数入门课程未涵盖的关键 AI 主题概述的一站式指南…… 如果你已经通过深度神经网络踏入了 AI 世界,那么这本书将为你提供定位和理解下一阶段所需的知识。


接下来,我们看看这本书涵盖了哪些内容。


书籍介绍


本书共有 5 大部分,30 个章节。


第一部分讲「神经网络和机器学习」,包括如下主题:



第 1 章:嵌入、隐空间与表征。


深入解析嵌入向量、隐向量与表示的异同,阐述这些概念如何帮助机器学习模型编码信息。


第 2 章:自监督学习。


聚焦自监督学习方法,该技术使神经网络能够以监督学习的方式利用大规模无标注数据集。


第 3 章:少样本学习。


介绍专为小规模训练数据集设计的监督学习技术 —— 少样本学习。


第 4 章:彩票假设


探讨「随机初始化的神经网络中包含更小的有效子网络」这一理论。


第 5 章:利用数据减少过拟合。


针对机器学习中的过拟合问题,讨论以数据增强和无标注数据利用为核心的解决方案。


第 6 章:通过模型修改减少过拟合。


延续过拟合讨论,重点分析正则化、简化模型结构和集成学习等模型层面的解决方法。


第 7 章:多 GPU 训练范式。


详解数据并行与模型并行等多 GPU 加速训练方案。


第 8 章:Transformers 的成功。


解析 Transformer 架构流行起来的原因,包括注意力机制、并行化优势和高参数量等关键特性。


第 9 章:生成式 AI 模型。


全面综述能生成图像、文本和音频等多媒体内容的深度生成模型,分析各类模型的优缺点。


第 10 章:随机性来源。


剖析深度神经网络训练中可能导致结果不一致的随机性因素(包括训练和推理阶段)。这些随机性既可能来自意外因素,也可能是设计者有意引入。


第二部分讲「计算机视觉」,包含如下主题:



第 11 章:计算参数量。


详细解析卷积神经网络(CNN)中参数量的计算方法,该技术对于评估模型的存储与内存需求至关重要。


第 12 章:全连接层和卷积层。


探讨卷积层在何种场景下可完全替代全连接层,这对硬件优化或模型简化具有重要实践价值。


第 13 章:ViT(Vision Transformers)的大型训练集。


深入研究视觉 Transformer(ViT)相比传统卷积神经网络(CNN)为何需要更大量训练数据的内在机理。


第三部分讲「自然语言处理」,包含如下主题:



第 14 章:分布假说


深入探讨分布假说,该语言学理论认为,出现在相同上下文中的词语往往具有相似含义,这一理论对机器学习模型的训练具有重要指导意义。


第 15 章:文本数据增强。


重点介绍文本数据增强技术,该方法通过人工扩展数据集规模,能有效提升模型性能。


第 16 章:自注意力。


解析自注意力机制,该技术使神经网络的每个输入片段都能与其他部分建立关联,是现代大语言模型的核心组件。


第 17 章:编码器 — 解码器风格的 Transformers。


详细对比编码器和解码器两类 Transformer 架构的差异,并阐明不同架构在各类语言处理任务中的适用场景。


第 18 章:使用和微调预训练 Transformers。


系统阐述预训练大语言模型的微调方法,并分析不同方法的优势与局限性。


第 19 章:评估生成式大语言模型。


列举困惑度(Perplexity)、BLEU、ROUGE 和 BERTScore 等主流语言模型评估指标。


第四部分讲「生产和部署」,包含如下主题:



第 20 章:无状态和有状态训练。


区分模型部署中使用的无状态与有状态训练方法,阐明两者在实时推理与持续学习中的不同应用场景。


第 21 章:以数据为中心的 AI。


探讨以数据为中心的 AI 范式,该范式通过优化数据集(而非调整模型架构)来提升性能,与传统以模型为中心(Model-Centric)的方法形成鲜明对比。


第 22 章:加速推理。


介绍不改变模型架构且不损失精度的推理加速方法,包括模型量化、知识蒸馏等关键技术。


第 23 章:数据分布偏移。


解析 AI 模型部署后可能面临的训练数据与实际数据分布偏移问题,系统分类并阐述以下常见偏移类型:协变量偏移、概念漂移、标签偏移和领域偏移。


第五部分讲「预测性能和模型评估」,包含如下主题:



第 24 章:泊松回归与有序回归。


重点解析泊松回归与有序回归的区别,泊松回归适用于符合泊松分布的计数数据(如飞机上感冒感染人数),而有序回归则针对有序分类数据(如疾病严重程度分级),且不预设类别间距相等。


第 25 章:置信区间。


深入探讨机器学习分类器置信区间的构建方法,首先阐述置信区间的核心作用 —— 估计未知总体参数,随后系统介绍三大关键技术:正态近似区间法、自助法以及多随机种子重训练法。


第 26 章:置信区间 vs. 保形预测


深入辨析置信区间与保形预测的本质差异:置信区间聚焦参数估计的不确定性,而保形预测则是构建具有确定概率保证(如 95%)的预测区间,确保能够覆盖真实观测值的关键技术。


第 27 章:恰当评估指标。


着重阐释优秀评估指标在数学与计算机科学领域应具备的核心特性,并系统验证机器学习常用损失函数(如均方误差 MSE、交叉熵损失 Cross-Entropy Loss)是否符合这些特性。


第 28 章:k 折交叉验证中的 k。


深入探讨 k 折交叉验证中 k 值参数的核心作用,系统性地分析选择较大 k 值时需要权衡的利弊关系。


第 29 章:训练集与测试集分布差异。


针对模型在测试集上表现优于训练集的情况,本文提出了解决方案。通过分析训练集与测试集之间的分布差异,介绍了对抗验证的概念及其应用策略,以识别并解决两类数据集间的偏差问题。


第 30 章:有限标注数据。


介绍在数据有限的情况下提升模型性能的多种技术方法,涵盖数据标注、自助采样以及迁移学习、主动学习和多模态学习等范式,以有效应对小样本场景下的机器学习挑战。


  • 书籍链接:https://sebastianraschka.com/books/ml-q-and-ai/#table-of-contents

  • GitHub 地址:https://github.com/rasbt/MachineLearning-QandAI-book


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

这些指标只能反映模型在某些特定方面的表现,并不能全面反映模型的质量。例如,困惑度衡量的是模型预测文本的流畅程度,BLEU衡量的是生成文本与参考文本的相似度。但这些指标无法评价生成文本的创造性、逻辑性、是否符合人类价值观等。此外,这些指标也容易受到攻击,例如可以通过一些 trick 刷高 BLEU 值,但生成文本的质量并没有实质性提升。

还是得看场景,如果数据获取成本比较高,那肯定是以模型为中心,想办法用更少的数据训练出更好的模型。比如医疗领域,标注数据要医生来做,成本很高。但如果数据获取成本低,比如电商领域,用户行为数据很多,那就以数据为中心,不断优化数据pipeline和特征工程。

我会优先尝试数据增强。因为数据增强相当于直接扩充了训练集,让模型见过更多不同的数据,从根本上提升模型的泛化能力。而且数据增强的实现成本通常也比较低,比如图像可以做旋转、裁剪,文本可以做同义词替换等等。相比之下,正则化虽然也能起到防止过拟合的效果,但本质上是通过约束模型复杂度来实现的,可能会牺牲一些模型的表达能力。

指标毕竟是指标,主要还是看实际应用效果。生成模型最终是要给人用的,所以用户体验才是最重要的。可以考虑引入人工评估,让用户对生成文本的质量进行打分或者排序。当然,人工评估的成本比较高,可以考虑采用众包的方式。

我个人更倾向于“以数据为中心的AI”。因为在很多情况下,数据质量的提升比模型结构的改进更能有效地提升模型性能。尤其是在数据量足够大的情况下,高质量的数据能够让简单的模型也取得不错的效果。当然,这并不意味着模型不重要,而是说在资源有限的情况下,应该优先关注数据质量。

模型修改减少过拟合我投一票,从奥卡姆剃刀原则出发,我会觉得是模型本身是不是过于复杂了,引入了不必要的参数,增加数据增强不如先减少模型复杂度,然后合理正则化。如果模型已经足够精简了,那再考虑增加数据增强。

我觉得这两种范式不应该对立起来,而是应该根据具体问题来选择。如果数据量很小,那么可能需要花更多精力在模型设计上,例如采用迁移学习等方法。如果数据量很大,那么就可以更多地关注数据清洗和标注质量。在实际工作中,我会根据数据量、数据质量、计算资源等因素来综合考虑,找到一个合适的平衡点。

我一般会先用L1或者L2正则化。这两种方法实现起来简单,而且效果通常不错。如果正则化效果不明显,再考虑数据增强。数据增强需要根据具体任务来设计,比较麻烦,而且有些数据增强方法可能会引入噪声,反而降低模型性能。

赞同楼上,作为一个使用体验者,我更看重生成内容是否流畅、自然、有逻辑。有时候看AI生成的文章,流畅度还可以,但是仔细读会发现逻辑不通顺,感觉是把一些不相关的句子硬凑到一起。所以逻辑性和一致性非常重要,当前的指标体系在这方面还有待加强。