二元正态投影:理解变量关系与线性回归的统计基石

二元正态投影,预测变量间关系、赋能线性回归与异常检测。

原文标题:统计学必知:二元正态投影

原文作者:数据派THU

冷月清谈:

本文深入探讨了统计学中的核心概念——二元正态投影。该技术巧妙地利用双变量正态分布的特性,旨在当已知一个随机变量的特定值时,预测另一个随机变量的预期值。文章分为三部分:首先,详细推导了二元投影的数学公式,阐明了给定X时Y的条件均值和方差;其次,通过直观的图表和Python模拟,清晰展示了不同相关系数对变量分布的影响,揭示了双变量关系如何影响预测;最后,结合一个简单的机器学习案例,演示了如何利用二元正态投影公式来推导并理解线性回归模型的参数。这项技术不仅是理解变量间依赖关系的强大工具,也广泛应用于预测建模、异常值检测等多个领域。

怜星夜思:

1、感觉二元正态投影在各种预测模型里都有用武之地,除了文章里提到的线性回归和异常值检测,大家觉得还有哪些具体场景能用上它呢?比如在金融、生物甚至日常生活中?
2、文章里提到了二元正态分布,那要是我们的数据不符合正态分布,或者干脆是离散数据,是不是二元正态投影就没法用了?有没有类似的替代方法或者怎么处理这种非正态数据呢?
3、看到文章里那些3D图和散点图,以及它解释说相关系数rho会怎么影响分布形状。有没有什么更形象的比喻或者小技巧,能帮我们快速理解这种“投影”带来的预测能力和方差变化?感觉纯看公式还是有点抽象。

原文内容

图片
本文约2200字,建议阅读5分钟
双变量投影有助于在给定一个随机变量的特定值的情况下,确定另一个随机变量的预期值


在统计学和机器学习中,理解变量之间的关系对于构建预测模型和分析数据至关重要。探索这些关系的基本技术之一是双变量投影(二元投影),它依赖于双变量正态分布的概念。该技术利用变量之间的依赖结构,可以检查和预测一个变量相对于另一个变量的行为。


双变量投影有助于在给定一个随机变量的特定值的情况下,确定另一个随机变量的预期值。例如,在线性回归中,投影有助于估计因变量相对于自变量的变化情况。


本文分为三部分:


  • 第一部分,我将探讨二元投影的基础知识,推导其公式并演示其在回归模型中的应用。
  • 第二部分,我将提供一些投影背后的直观解释,并绘制一些图表以便更好地理解其含义。
  • 第三部分,我将使用该投影推导线性回归的参数。


在推导二元投影公式时,我将运用一些通用知识。为了避免给读者带来理解困惑,我将在文章末尾的附录中提供这些论述的证明和参考文献。有不明白的地方可以查看原文章。


第一部分:二元正态投影公式


令   为服从正态二元分布的随机向量   ,其中

Z 的形式,其中 X 和 Y 随机变量服从正态单变量分布


Z的形式,其中 X 和 Y 随机变量服从正态单变量分布

以 X 和 Y 的均值和方差表示 Z 的均值和协方差矩阵。ρ 是 X 和 Y 之间的相关性。


以   和   的均值和方差表示   的均值和协方差矩阵  是   和   之间的相关性。


然后,给定 的条件分布是正态的,并且由下式给出:



你可以在文章末尾的附录中找到该结果的推导


这是具有条件均值的正态分布的密度


和条件方差

图片

现在我们可以写出   在   上的线性投影,即给定   时   的条件平均值:

这是   和   之间的线性关系,因为它是   在  上的线性投影。


这个公式告诉我们什么?在实际应用中我们能用到什么?让我们来一探究竟!


第二部分:解释和模拟


双变量投影在预测模型中起着至关重要的作用,它使我们能够根据一个变量的值来估计另一个变量的预期值。我将使用线性回归来举一个实际的例子。


除了其预测能力之外,双变量投影还能提供关于两个变量之间关系的性质和强度的宝贵见解。例如,我将在另一篇文章中运用这一结果,探讨试图控制订单流的做市商的凯尔模型。在该模型中,做市商试图了解给定订单流的证券预期价值。


机器学习的另一个应用是检测异常值或离群值。通过投影,这个过程变得更加易于管理,因为它可以突出显示变量之间与预期关系的偏差。


在使用线性回归进行实际示例之前,我将运行一些 Python 模拟,以更好地突出二元正态分布的形式及其投影的预期结果。


在下图中,随机变量   和   服从标准正态分布  。我们将看到,当设置不同的相关系数   值时,图形会如何变化。


第一个边缘情况可能是设置  ,这意味着两个随机变量不相关:



这里,两个随机变量以它们的均值0为中心,散点图呈圆形。这表明变量是独立的。变量之间没有明显的线性关系。在下面的 3D 图中,你可以更好地理解分布的形式。




现在让我们应用投影公式,看看当 的不同值时Y的分布会发生什么变化。


可以想象,  的分布不会受到   不同值的影响。Y的平均值及其方差保持不变。


现在我们看看更有意义的相关性会发生什么。设 



两个变量的平均值仍然以0为中心,但散点图显示出明显的线性关系。3D 图如下所示,你可以看到,现在的分布不再像上一个示例那样呈现“锥体”形状。



绘制投影图后,我们可以看到Y的分布实际上受到不同 值的影响。有趣的是, 的平均值依赖于 (因为它的值取决于  与   X之间的差值),而   的方差不随   变化,因为它仅依赖于相关性  ρ 。此外,注意到方差小于 ρ=0 的情况,因为它与1-ρ² 成比例。


我将展示的最后一个案例是ρ 。注释与上一个案例非常相似:


第 3 部分:应用--线性回归


现在让我们将投影应用到一个简单的机器学习案例:线性回归。假设我们要构建一个机器学习模型,使用房屋表面的值( 变量)来预测房屋价格(  变量)。我们有一个包含 历史数据的数据集。


假设变量分布如下,并且它们具有线性关系:


我们希望建立一个模型,在给定 的某个特定值的情况下,能够预测Y的值:


图片

其中   表示线性回归的系数,与通常情况一样:

图片

使用投影公式,我们有

这样,我们可以使用(从数据集估计的)分布参数来估计线性回归系数。首先使两个表达式相等:

重新排列右边的项,将与 相乘的项和不与   相乘的项分开:

为了使方程成立,参数应该是:

注意,这些是线性回归参数的估计量!


写在后面


线性投影是统计学中一个强大的工具。它应用广泛,你可能会惊讶于它被非显式地使用了多少次。


附录——二元线性投影推导


首先定义两个随机变量  的连接密度函数:


参考:https://web.stanford.edu/class/archive/cs/cs109/cs109.1218/files/student_drive/5.9.pdf

计算协方差矩阵的行列式:

图片

以及协方差矩阵的逆:

将其代入密度函数表达式中,我们得到:

图片

现在,正态二变量的边际概率密度函数是正态单变量。 的边际函数由以下公式给出:

参考:https://en.wikipedia.org/wiki/Marginal_distribution


现在我们终于可以计算给定 的条件分布了。注意,这仍然是正态分布:

参考:https://en.wikipedia.org/wiki/Conditional_probability_distribution


代入联合密度函数和边缘密度函数,我们得到投影密度

投影公式现在是给定 的期望值,可以通过对投影密度函数进行积分计算得出。注意,指数函数中的二次项可以解释为随机变量减去其均值。在这种情况下,均值是  乘以依赖于  的项。我们在绘制分布图时就注意到了这种效果。方差按 ρ ² 缩放。


分布的预期值为

这就是双变量投影。

编辑:文婧



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU


哈哈哈,这问题问得好!我想想,平时生活中好像也有点影子。比如你点外卖,平台根据你历史的“点餐频率”和“消费金额”这两个变量,假设它们有点正态分布的趋势,当你的点餐频率突然变得很高的时候,就可能“预测”你这次的消费金额会更大,然后给你推更贵的套餐,这有点像?或者,在天气预报里,虽然复杂很多,但如果简化成比如“相对湿度”和“降雨量”这两个变量,当湿度达到某个高值时,是不是也能用类似的思路预测一下下雨的可能性和强度呢?当然,这些都只是简化理解啦,真实世界的数据肯定更复杂。

回复关于“二元正态投影具体场景”的问题:其实这玩意儿的应用挺广的。除了文中提到的,在金融领域,评估资产组合风险时,假设两类资产收益率服从二元正态分布,就可以通过投影来预测在市场极端波动时(比如某一类资产大跌)另一类资产的预期表现。再比如,在质量控制中,如果你有两个产品特性(例如尺寸和重量)是相关的且服从正态分布,你可以用投影来判断在尺寸过大或过小时,重量的预期范围,从而提前发现潜在的生产问题。甚至在医疗健康领域,给定某个化验指标异常高时,预测另一个相关指标的预期值,辅助医生诊断,也是一个思路。这本质上都是利用“条件期望”来做预测或风险评估。

这个问题很有意思!感觉这就像是我们的人生,总是在根据一个已知的条件“投影”出对未来的预期。比如,当你女朋友脸上乌云密布(已知变量X),你就可以“投影”出你晚上要跪搓衣板的预期值(Y),而且这个预期值会随着乌云密度的增加而变得越来越确定,方差还越来越小,太准了!哈哈开玩笑。认真讲,我觉得任何能用条件概率来思考的场景,只要变量能近似正态,这工具就能发挥作用。比如游戏里,根据玩家的“在线时长”预测他们的“付费意愿”,或者根据“上一次消费金额”预测“下一次消费间隔”,说不定也能用得上这种思想。

这个问题问到点子上了!就像你穿衣服,正态分布的数据像是匀称的身材,随便什么衣服(模型)都能穿得上。但碰到非正态数据,就像奇形怪状的身材,普通的衣服就不合适了。离散数据更像,那就是根本不是衣服,是砖头瓦块了。这种时候,我们不能硬把砖头塞进衣服里。得换思路。可以尝试“数据整形”,比如把数据变变样,让它看起来“更正态一点”;或者用那种“量身定做”的模型,比如有些预测模型就不管你数据长啥样,它自己学规律,比如决策树或者一些深度学习模型,它们才不关心你是不是正态分布呢。所以不是没法用,是得换个工具箱里的家伙什。

嘿,这个问题问得特别好!理解公式确实头大。我简单说个比喻吧:
* 二元正态分布就像你扔了两颗石子,看它们落点分布。如果这两颗石子没啥关系(ρ=0),那第一次扔到哪,对第二次扔到哪一点预示性都没有,第二次的落点范围还是那么大。
* **“投影”*是啥?就是我告诉你第一颗石子落在了某个特定位置(给定X),然后你猜第二颗石子最可能落在哪里(条件均值),以及它还会不会乱跑(条件方差)。
方差变化:如果这两颗石子抛出去总是有“联动”的(ρ不为0),比如一颗靠左,另一颗也总是靠左一点,那当我知道第一颗落在左边的时候,我猜第二颗的范围就会缩小很多,因为它大概率也在左边!这个“缩小”就是方差变小了。相关性越强,范围缩小得越多,你的预测就越准。

回复关于“非正态数据和离散数据”的问题:你说得很对,二元正态投影是建立在数据服从二元正态分布这个强假设之上的。如果数据不满足这个假设,尤其是在处理离散数据时,直接套用公式肯定是不合适的,结果也会不准确。对于非正态连续数据,一种常见的方法是进行数据变换,比如对数变换、Box-Cox变换等,尝试使其近似正态分布,然后再应用。但如果变换后仍然不理想,或者数据本身就是离散的(比如计数数据),那我们就需要转向更广义的统计模型。比如,对于离散数据,可以考虑广义线性模型(GLM),如泊松回归(针对计数数据)或逻辑回归(针对二元分类数据),它们通过连接函数(link function)来处理非正态响应变量和非线性关系。此外,非参数方法、核密度估计或者更复杂的机器学习模型(如决策树、随机森林、神经网络等)则完全不依赖于数据分布的正态性假设,可以处理各种类型的数据和复杂的非线性关系。

我个人在学这个的时候,喜欢把它想成“锁定目标”的感觉。
* 假设有两个你一直关注的股市指标A和B,它们平常都在一个大圈子里(二元正态分布的散点图)随便晃悠,你也搞不清它们具体咋样。
* 突然有一天,你知道了指标A精确到了某个数值(给定X),就像你突然有了个定点。这时候,你对指标B的“预期位置”是不是一下就清晰了许多?这就是那个条件均值,它告诉你B最可能在哪儿。
* 更重要的是,“不确定性”是不是也小了?指标B以前可以乱跑,现在因为A被锁定了,B能跑的范围也变小了,就不能像以前那么自由了。这个范围的缩小,就是条件方差变小了(和1-ρ²成比例)。如果A和B关系铁(ρ很大),B几乎就被A完全“限制”住了,方差就变得特别小。

回复“如何理解投影和方差变化”:我觉得可以把二元正态分布想象成一个立体的“山峰”或者“帐篷”。
* 相关系数ρ=0:山峰是圆锥形的,不管你从哪个方向切一刀(给定X值),截面(Y的条件分布)都是一样的圆形,高矮胖瘦都没变。这表示X和Y完全独立,X根本无法帮助预测Y,所以Y的方差当然不变,预测能力为零。
* 相关系数ρ=1或-1(完全相关): 这时候山峰会变成一条线(想象一个非常细的刀刃,几乎没有宽度)。当你给定X的值时,Y的值是确定的,几乎没有波动,所以理论上方差趋近于0。这种情况下,X对Y的预测能力是最高的。
* 0 < |ρ| < 1(部分相关):山峰是椭圆形的。当你沿着X轴方向切一刀(给定X值),Y的条件分布就会是一个更窄的切片,意味着Y的波动范围变小了,也就是方差减小了。切得越靠近山峰中心,切片就越窄。相关系数越大,椭圆就越扁,切片就越窄,方差就越小,预测能力也就越强。
* 投影:这个投影就是从X的位置往Y轴看过去,Y的“平均值”落在哪里,以及它还剩下多少“不确定性”(方差)。

啊哈,这个问题问得好深!简单来说就是,二元正态投影就像是给“正常”身高体重的人做的衣服,如果数据不是“正常”身材,那穿了肯定不合身。就像你想预测大家买菜的次数(离散数据),用这种方法就不行。咋办呢?一种是你给数据“P个图”,让它看起来像正态的(数据变换)。另一种就是换个更厉害的工具,比如有些AI模型,人家不挑食,啥数据都能吃进去然后帮你预测,它们不要求数据长得那么“标准”。总之,办法还是有的,但得具体问题具体分析。