“西瓜书”《机器学习》官方配套习题集出版

“西瓜书”《机器学习》官方配套习题集已出版,包含142道习题及详细解答,帮助读者巩固机器学习核心知识。

原文标题:终于等到你!“西瓜书”《机器学习》官方配套习题集重磅出版 | 送书福利

原文作者:AI前线

冷月清谈:

南京大学周志华教授的《机器学习》(俗称“西瓜书”)现已推出官方配套习题集《《机器学习》习题参考》。该习题集由周志华教授推荐,叶翰嘉和詹德川两位老师编写,旨在帮助读者更好地理解和掌握“西瓜书”中的核心概念和算法。

习题集包含 142 道习题,涵盖简答题、计算题和编程题,并提供详细解答,包括解题思路、知识点总结、其他解法以及易错点分析。习题集分为两部分:基础考评篇(对应“西瓜书”前 10 章)和综合应用篇(综合应用前 10 章知识)。

基础考评篇循序渐进地讲解知识点,并结合一些前沿研究成果;综合应用篇则以“大作业”的形式考察读者对知识的综合运用能力,包含编程题和简答题,旨在提升读者解决实际问题的能力。

编程题基于 Python 3 脚本语言,方便读者进行实践操作。该习题集适合“西瓜书”的读者、机器学习爱好者以及相关专业的学生和研究人员使用。

怜星夜思:

1、习题集中提到的“结合当前机器学习的前沿研究”具体指哪些方面?有没有相关的例子?
2、对于初学者来说,如何更好地结合“西瓜书”和习题集进行学习?
3、除了“西瓜书”和这本习题集外,还有哪些学习资源可以推荐给想要深入学习机器学习的朋友?

原文内容

作为人工智能领域(AI)中文教材扛鼎之作,南京大学周志华教授所著的《机器学习》帮助无数 AI 从业者理清了机器学习的基本原理。在书中,周志华解释机器学习基本术语和问题时,贯穿全书用西瓜进行比喻讲解,因此该书也被读者们昵称为“西瓜书”。

近日,机械工业出版社携手南京大学人工智能学院推出《《机器学习》习题参考》,本书配套周志华教授所著《机器学习》的教学及自学的辅助参考书。

周志华教授撰文推荐

由叶翰嘉和詹德川两位老师合作的《〈机器学习〉习题参考》(以下简称“本书”)是一本配合本人所撰《机器学习》(清华大学出版社于 2016 年出版,以下采用读者给予的昵称“西瓜书”)的教学参考书。

西瓜书于 2016 年出版后即被用作南京大学计算机系本科课程“机器学习导论”的教材(讲授前 9 章),2018 年南京大学成立人工智能学院后,又被用作人工智能学院本硕核心必修课的教材(本科讲授前 10 章、研究生讲授全书)。八年来在南京大学课堂以西瓜书为教材进行学习的同学已逾 3000 人,另有海内外五百余家单位以其为教材进行授课。西瓜书中每章通常提供 10 道习题,有不少同学希望有更多的习题以供练习。

本书的两位作者都是南京大学人工智能学院的优秀青年教师,在机器学习领域有扎实的研究基础,成果斐然。两位都先后三轮担任本人授课的助教,并已开始独立授课,有较为丰富的教学经验。本书是对南京大学教学实践中使用的课程作业的总结和拓展,书中习题试图从不同角度帮助读者更好地掌握和巩固西瓜书中前 10 章所涉及的主要知识点,并综合考虑习题的难度和广度,尽可能兼顾不同读者的需求。

希望本书的出版能够辅助读者加深对机器学习的理解,并为教师授课提供有益的补充材料。

——周志华,南京大学副校长

国际人工智能联合会理事会主席、《机器学习》作者

关于本书
  • 本书是“西瓜书”《机器学习》的教学或自学的辅助参考书,包含 142 道习题,题型分为简答题、计算题和编程题,对“西瓜书”中关于基本概念和常用算法的第 1~10 章内容进行考查,习题涵盖不同难度级别,尽可能兼顾不同读者的学习需求。

  • 本书分为两部分,共 16 章。第一部分为“基础考评篇”,对应“西瓜书”前 10 章内容,对书中知识点进行循序渐进地探究。第二部分为“综合应用篇”,考查对“西瓜书”前 10 章知识点融会贯通的能力。

  • 书中习题均具有详细解答, 给出了出题的主要思路、所考查的知识要点、其他可能的解法,以及相关知识点的关联和拓展,并对以往授课过程中发现的易错点进行了探讨。

作者介绍
  • 叶翰嘉 南京大学人工智能学院副教授、博士生导师。从事机器学习领域研究工作,入选全国高校计算机专业优秀教师奖励计划,获中国计算机学会优秀博士学位论文奖等荣誉。

  • 詹德川 南京大学人工智能学院教授、博士生导师,南京大学科研院副院长。主要研究方向为机器学习、人工智能,入选全国高校计算机专业优秀教师奖励计划,获江苏省科学技术一等奖等荣誉。

内容简介

本书配套周志华教授所著的《机器学习》教材,通过大量习题考查读者对机器学习相关知识点的理解与掌握。全书分为两个部分:第一部分习题对应《机器学习》第 1~10 章的内容,包括绪论、模型评估与选择、线性模型、决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习;第二部分包含 6 章应用专题,通过综合题的形式对知识点进行多角度考查,包括线性模型的优化与复用、面向类别不平衡数据的分类、神经网络的优化与应用、EM 算法及其应用、集成学习的过拟合现象研究、度量学习及其应用。书中包含简答题、计算题和编程题,涵盖不同难度级别,机器学习初学者可以通过这些习题深入了解和巩固教材的关键概念,对机器学习有一定基础的读者也可以通过习题发现对一些知识点不同角度的解读,为后续机器学习的深入研究打下基础。

本书面向《机器学习》读者以及广大机器学习爱好者,可作为高等院校人工智能、计算机、自动化及相关专业的本科生或研究生的教学辅助书籍,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。

如何使用本书?

本书是“西瓜书”《机器学习》(简称为“教材”)的教学或自学的辅助参考书,包含大量习题、解答和注释,就像一位学习助手从不同角度帮助读者更好地掌握和巩固教材中关于基本概念和常用算法的前 10 章所涉及的主要知识点,并综合考虑习题的难度和广度,尽可能兼顾不同读者的需求。

本书的 142 道习题与教材章节末的习题并不重合,包含简答题、计算题和编程题三种题型,一方面可以为教师授课提供作业、考评的思路参考,同时也可帮助学生在上课或自学之余通过习题练习的方式对知识点的掌握情况进行自我评测。

本书分为两部分。第一部分为“基础考评篇”,共 10 章,对应教材第 1~10 章以及附录中机器学习数学基础部分的内容,包括 105 题,以计算题、简答题为主,这部分习题大多采用多个子问题的形式对书中知识点进行循序渐进的探究,部分习题和当前机器学习的前沿研究相结合,对教材中知识点的当前研究进展进行了一定程度的介绍,并给出了相应的参考文献。第二部分为“综合应用篇”,共 6 章,以“大作业”的形式考查对教材前 10 章知识点融会贯通的能力,包含 37 题,以编程题、简答题为主,这部分中每一章节将包含第一部分中一个或多个章节所覆盖的知识点。一方面考查将不同知识点灵活应用于实际问题的能力,另一方面考查对所学内容灵活拓展的能力。

本书提供的编程题的实验环境基于 Python 3 脚本语言,通过编程实践能够更便捷地在实际数据上探究知识点和算法的性质,同时也能更方便地展示如何在实际问题中应用机器学习算法。

目录

推荐序

前言

基础考评篇

第 1 章 绪论 2

1.1 基本术语 2

1.2 假设空间 5

1.3 归纳偏好 9

1.4 矩阵、优化和概率分布 13

参考文献 21

第 2 章 模型评估与选择 23

2.1 经验误差与过拟合 23

2.2 评估方法 26

2.3 性能度量 31

2.4 比较检验 41

2.5 偏差与方差 43

参考文献 47

第 3 章 线性模型 49

3.1 线性回归 49

3.2 对数几率回归 60

3.3 线性判别分析 63

3.4 多分类学习 74

参考文献 78

第 4 章 决策树 80

4.1 基本流程 80

4.2 划分选择 81

4.3 剪枝处理 90

4.4 连续与缺失值 93

4.5 多变量决策树 100

参考文献 105

第 5 章 神经网络 106

5.1 感知机与多层网络 106

5.2 误差逆传播算法 112

5.3 全局最小与局部极小 128

5.4 其他常见神经网络 130

参考文献 132

第 6 章 支持向量机 134

6.1 间隔、支持向量与对偶问题 134

6.2 软间隔与正则化 142

6.3 核函数 154

6.4 核方法 158

参考文献 160

第 7 章 贝叶斯分类器 162

7.1 贝叶斯决策论 162

7.2 极大似然估计 166

7.3 朴素贝叶斯分类器 179

7.4 贝叶斯网 188

参考文献 190

第 8 章 集成学习 191

8.1 Boosting191

8.2 Bagging 与随机森林 201

8.3 结合策略 207

8.4 多样性 211

8.5 集成剪枝 222

参考文献 223

第 9 章 聚类 225

9.1 距离计算 225

9.2 k 均值算法 229

9.3 高斯混合聚类 249

9.4 性能度量 251

9.5 密度聚类与层次聚类 254

参考文献 262

第 10 章 降维与度量学习 263

10.1 k 近邻学习 263

10.2 维数灾难 265

10.3 主成分分析 268

10.4 核化线性降维 287

10.5 低维嵌入与流形学习 288

10.6 度量学习 291

参考文献 295

综合应用篇

第 11 章 线性模型的优化与复用 298

11.1 数据获取和预处理 298

11.2 岭回归分类器的优化方法探究 302

11.3 线性模型的参数选择 314

11.4 线性模型的参数复用 320

参考文献 324

第 12 章 面向类别不平衡数据的分类 326

12.1 类别不平衡现象与评价指标 326

12.2 类别不平衡模型初探 334

12.3 基于采样的“再缩放”方法 340

12.4 类别不平衡问题的多分类扩展 348

参考文献 356

第 13 章 神经网络的优化与应用 357

13.1 数值求导和自动求导 357

13.2 神经网络优化实例 362

13.3 BP 算法的回顾与思考 374

13.4 SOM 神经网络 377

参考文献 385

第 14 章 EM 算法及其应用 387

14.1 数据中的隐变量 387

14.2 EM 算法的迭代优化视角 391

14.3 EM 算法的隐变量视角 396

14.4 EM 算法应用实例——缺失值处理 398

参考文献 413

第 15 章 集成学习的过拟合现象研究 415

15.1 分布有偏移数据集的构造和划分 415

15.2 机器学习中的过拟合现象 418

15.3 AdaBoost 的多分类算法实现 425

15.4 AdaBoost 是否会过拟合 433

参考文献 437

第 16 章 度量学习及其应用 438

16.1 近邻分类器 438

16.2 降维方法的评价 444

16.3 度量学习 448

16.4 度量学习的回顾与思考 461

参考文献 466

▲上下滑动查看本书目录

读者福利

福利时刻到!叶翰嘉和詹德川两位老师精心打造的《〈机器学习〉习题参考》免费送!搭配周志华教授的 “西瓜书”,一边学理论,一边刷实战习题,让你的机器学习知识掌握得无比扎实。书中对习题抽丝剥茧,让你学有所思、学有所悟。【AI 前线】联合机械工业出版社开启送书福利,给执着钻研的你,让知识短板不复存在!现在关注公众号,回复关键字【西瓜书】即可参与抽奖!

我觉得可以把“西瓜书”和习题集结合起来,当成一个完整的学习计划。比如,每天学习一章“西瓜书”的内容,然后完成对应的习题。这样既能巩固知识,又能检验学习效果。

关于“除了“西瓜书”和这本习题集外,还有哪些学习资源可以推荐给想要深入学习机器学习的朋友?”这个问题,我推荐一些其他的学习资源。首先,一些经典的教材,例如《统计学习方法》、《模式识别与机器学习》等,可以作为补充阅读。其次,一些网上的公开课,例如吴恩达的机器学习课程,也是很好的学习资源。最后,可以关注一些机器学习的公众号或博客,例如机器之心、AI科技评论等,了解最新的研究进展。

如果想深入学习,可以去看一些更专业的书籍,例如 Ian Goodfellow 的《深度学习》,或者一些特定领域的书籍,比如自然语言处理、计算机视觉等等。也可以参加一些学术会议或者工作坊,与其他研究者交流学习。

哈哈,这个问题问得好!我盲猜一波,书里会不会结合一些新的Python库或者框架?比如 TensorFlow、PyTorch 这些,现在很多研究都离不开这些工具。

引用一下问题:习题集中提到的“结合当前机器学习的前沿研究”具体指哪些方面?有没有相关的例子?

我觉得这个得结合习题集的具体内容来看。不过,按现在机器学习的趋势,我猜想可能包含深度学习的优化策略(例如Adam、SGD的各种变体)、迁移学习、强化学习、图神经网络等方向。具体的例子,我建议可以看看书的目录或者前言部分,应该会有介绍。

推荐一些实践平台吧,比如 Kaggle,可以参加一些比赛,提升自己的实战能力。也可以关注一些开源项目,学习别人的代码和经验。

“结合当前机器学习的前沿研究” 这句话确实很吸引人!我猜测可能会涉及到一些比较热门的领域,比如联邦学习、AutoML、可解释AI等等。毕竟这些都是现在研究的热点。当然,具体内容还是要看习题集本身。

针对“对于初学者来说,如何更好地结合“西瓜书”和习题集进行学习?”这个问题,我的建议是先把“西瓜书”对应章节的内容仔细阅读一遍,理解基本概念和原理,然后尝试独立完成习题。如果遇到不会的,再去看答案和解析,并反思自己为什么没有想到。不要一开始就看答案,这样学到的东西比较 superficial。

对于初学者,我的建议是循序渐进,不要贪多。可以先从“西瓜书”的基础章节开始,配合习题集的对应章节进行学习。先把基础打牢,再逐步深入到更高级的主题。