数据科学家的统计学基础:必学概念一览

掌握数据科学必备的统计学概念,有助于提升分析及决策能力。

原文标题:独家 | 每个数据科学家都必学的统计学概念

原文作者:数据派THU

冷月清谈:

本文介绍了数据科学中不可或缺的统计学概念,强调其在数据分析与决策中的重要性,包括描述统计、推断统计、回归分析等基本知识,旨在帮助读者理解数据背后的信息,促进科学决策。在数据科学的每个步骤中,统计学都提供了必需的工具和方法,让数据科学家能够更有效地探索、分析数据并做出预测。不论是刚开始接触数据科学的初学者,还是从业多年的资深人士,这些统计概念都是构建数据科学知识体系的重要模块。

怜星夜思:

1、为什么统计学对数据科学如此重要?
2、你认为学习哪些统计学概念尤其重要?
3、在数据科学的实际应用中,统计学应用的案例有哪些?

原文内容

作者:Dhilip Maharish  

翻译:尤杨

校对:王紫岳


本文约3200字,建议阅读7分钟

本文介绍了必备的统计学概念。


基础统计学概念是现代数据科学家的基石📊

资料来源:Pixels images

在数据科学领域,有一些重要的思想帮助人们提高了工作流程的效率,并且也成为了强大的工具。这些思想帮助数据科学家们理解他们所处理的所有信息。

没错,这些重要的思想就是统计学。正是这些基本概念构建了数据科学的流程。

在本文中,我们将会探索统计学概念是如何对数据科学做出贡献的。无论你是刚接触数据科学还是已经从事这个行业一段时间了,这些概念都是你的一本指南。它们帮助你进一步理解数据中的数字并用它们做出明智的决策。

那么,让我们深入探究这些让数据科学变得如此强劲有力的基本统计学概念吧。

首先,我们需要弄清楚什么是数据科学?

顾名思义,应用统计学、概率论以及微积分等科学概念,从获取的数据中获取有意义的见解的过程即是数据科学。

数据科学正理解过去,预测未来。


资料来源:Pixels images

举例来说:

数据科学帮助我们预测未来,就像天气预报告诉我们明天是否会下雨。它并不是一种魔法,而是使用了数据和机器学习。这是一个关于在数据中寻找真相的过程。它会帮助我们回答并解决问题。

现在,我们可以深入探讨为什么在数据科学中需要统计学以及它是如何对数据科学做出贡献的。

统计学是数据科学的支柱。

统计学为数据科学家提供了必要的工具、方法以及准则去探索、分析数据并且从中提取有价值的见解。离开了统计学,数据科学将失去制定数据驱动决策以及解决复杂问题的严谨性和可靠性。

它在数据科学的每一个步骤中都有贡献,例如:

✅数据探索与总结
✅数据清洗与预处理
✅推断分析
✅预测模型
✅特征选择
✅模型评估
✅时序分析


资料来源:Pixels images

我们可以把应用于数据科学的统计学知识大致分为以下几类:

1.描述统计
2.推断统计
3.回归分析
4.数据采样
5.特征选择
6.模型统计评估
...

1.描述统计

描述统计是有关数据展示和数据总结的统计学分支。它的首要目标是提供一个对数据的清晰的、简洁的概览,以便更容易解释和理解数据。

它包含很多使数据更易理解的概念。它们是:

✅平均值-测量数值数据分布的平均值。
✅中位数-与平均值相比,能更有效地提供平均信息,并且免受异常数据的影响。
✅方差-衡量数据的分布。
✅标准差-方差的平方根,提供更可解释的数据变异性度量。
✅百分位数-表示数据集中小于或等于某一特定值的数据点百分比的度量。
✅IQR(四分位数间距)-第一个四分位数和第三个四分位数之间的范围度量,有助于识别中间 50% 的数据。
✅直方图-沿水平轴落入特定间隔(箱)的数据点的频率或计数的度量。
✅PDF(概率密度函数)-一种描述连续随机变量在给定范围内取特定值可能性的统计函数。
✅CDF(累积密度函数)-一种给出随机变量小于或等于特定值的累积概率的统计函数。
✅偏度-描述数据分布的不对称性。
✅峰度-测量数据分布的尾部。

资料来源:Pixels images

2.推断统计

推断统计是统计学的一个分支,其根据样本数据对总体进行推断、预测或泛化。 它可以帮助我们通过分析较大群体(总体)中较小的、有代表性的子集(样本)来得出结论或做出陈述。

✅假设检验-它提出有关总体参数(例如总体平均值)的假设,并使用样本数据来测试这些假设是否得到支持或反驳。
✅估计-根据样本数据估计总体参数。
✅置信区间-它提供了总体参数可能落在的范围值。
✅统计检验-推断统计张总各种用来比较组、评估关系和做出预测的统计检验,例如t检验、卡方检验、方差分析和回归分析。
✅显著性水平-通常用α表示,表示犯 I 类错误的概率,即错误地拒绝真实的原假设。

资料来源:Pixels images

3.回归分析

回归分析是数据科学中使用的一种统计技术,它量化一个或多个自变量(预测变量)与因变量(结果)之间的关系,以便做出预测或了解预测变量对结果的影响。

✅线性回归-它通过对数据拟合线性方程来建立因变量和一个或多个自变量之间的关系。
✅多重回归-它包含两个或多个自变量来预测单个因变量。
✅多项式回归-它使变量之间的关系看起来是非线性的,该模型将数据拟合到多项式(例如二次或三次)方程。
✅岭回归和Lasso回归 - 线性回归的变体,其结合了处理多重共线性和防止过度拟合的正则化技术。

照片由Unsplash的Enayet Raheem拍摄

4.数据采样

数据采样是数据科学中使用的一种统计技术,其用于从较大的数据集中选择数据点子集。 采样的目的是使数据分析更易于管理、更具性价比且更实用,特别是在处理大型或广泛的数据集时。

✅随机抽样-在这种方法中,总体中的每个个体或成员都有相等的可能性被选为样本。它减少了偏差并且确保样本能够代表总体。
✅分层抽样-根据某些特征(例如年龄、性别、地点)将总体分为子群或子层级。然后,在每个层内进行随机抽样,以确保所有组的代表性。
✅系统抽样-随机选择起点,然后将每个“第k个”个体包含在样本中。它很简单而且通常比简单的随机抽样更有效。

资料来源:Pixels images

5.特征选择

它是指导预测建模选择相关特征(变量)的统计技术。特征重要性和相关性分析等技术可以帮助数据科学家选择最有影响力的特征。

✅基于相关性的特征选择-根据与目标变量的相关性来选择特征,删除多余或高度相关的特征。
✅基于树的特征重要性-决策树和集成模型(例如随机森林、梯度提升)提供可用于选择最重要的特征的特征重要性评分。
✅互信息——衡量特征与目标变量之间的依赖关系,选择互信息高的特征。
✅L1 正则化(Lasso)- 通过惩罚特征系数的绝对值来促进模型的稀疏性,有效地选择特征子集。

资料来源:Pixels images

6.模型统计评估

它涉及各种统计指标和测试来定量测量模型的性能。

✅准确率-准确率衡量分类模型中正确分类的实例比例。
✅平均绝对误差 (MAE)-MAE计算预测值和实际值之间的平均绝对差。
✅均方误差 (MSE) - MSE计算预测值和实际值之间的平方差的平均值。
✅均方根误差 (RMSE)-RMSE 是 MSE 的平方根,提供一个与目标变量相同单位的可解释指标。
✅R方 (R²) 或可决系数-R² 衡量模型中因变量方差可被自变量解释的比例。
✅受试者工作特征曲线下的面积 (ROC AUC)-它测量受试者工作特征曲线下的面积,该曲线绘制了在不同阈值下真阳率(召回率)和假阳率之间的权衡。
✅混淆矩阵-一个显示真阳、真阴、假阳和假阴数量的表格,提供对分类模型性能的详细了解。
✅精确率-衡量真阳预测与总阳预测的比率,强调模型避免假阳的能力。
✅召回率-衡量真阳与实际阳性总数的比率,强调模型找到所有相关实例的能力。
✅F1-Score-精确率和召回率的调和平均值,提供两个指标之间的平衡。

照片由Unsplash的ThisisEngineering RAEng拍摄

原本标题:
Statistical concepts that every Data Scientist should know 
原文链接:
https://pub.aimind.so/statistical-concepts-that-every-data-scientist-should-know-478b90a997ad


编辑:王菁
校对:林亦霖




译者简介





尤杨,清华大学-哥伦比亚大学商务分析双硕士在读,希望可以进一步探索数据科学的世界。对新生事物充满好奇,热爱探索,希望可以结交更多的朋友。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。


点击文末“阅读原文”加入数据派团队~



转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。



点击“阅读原文”拥抱组织



在金融领域,统计学用来分析市场趋势,帮助决策投资。

医学研究中,推断统计可以用来验证新的药物效果,确保其安全性和有效性。

在电商中,通过用户数据分析,利用回归模型预测客户购买行为,从而提升销售。

描述统计和推断统计是基础,能帮助理清数据现状与做出预测。

我觉得特征选择也不可忽视,选择正确的特征能大大提高模型的准确性!

记住,数据科学并不是单靠数据预测,更是在数据中寻找真相。只有理解统计学,才能更好地利用数据。

无论是描述分析还是推断统计,没有统计学,数据科学的决策过程就会缺乏科学性和严谨性。

回归分析特别重要,可以帮助理解变量之间的关系,尤其在商业决策中非常有用。