CQR:结合分位数回归与共形预测,实现更可靠的预测区间

CQR结合分位数回归与共形预测,生成自适应且具有严格统计保证的预测区间,适用于医疗、金融等高风险领域。

原文标题:分位数回归+共形预测:Conformalized Quantile Regression实现更可靠的预测区间

原文作者:数据派THU

冷月清谈:

本文深入探讨了Conformalized Quantile Regression (CQR) 的理论基础、技术实现及其在多个领域的应用。CQR 通过结合分位数回归 (QR) 和共形预测 (CP) 技术,既能适应数据底层分布特性,又能维持严格的覆盖保证。与传统 QR 相比,CQR 能够生成自适应的预测区间并提供可靠的置信保证,在医疗、金融等高风险决策领域尤为重要。CQR 的实现流程包括训练分位数模型、计算校准残差、确定校正量和生成最终预测区间。实验研究表明,CQR 能够生成更精确、更可靠的预测洞见,支持在不确定环境中做出更明智的决策。简单的说,CQR就是在分位数回归的基础上,通过校准集进行修正,保证预测区间能够达到预设的覆盖率目标。

怜星夜思:

1、CQR在哪些场景下会比传统的分位数回归更有效?除了文中提到的医疗和金融,还有哪些行业或应用场景适合使用CQR?
2、文章中提到CQR通过校准残差来修正预测区间,那么这个校准集的选择会如何影响最终的预测效果?如果校准集本身就存在偏差,CQR还能保证覆盖率吗?
3、CQR依赖于分位数回归的输出来构建预测区间,如果分位数回归本身的效果不好,CQR还能发挥作用吗?CQR对底层分位数回归模型的选择有什么要求?

原文内容

来源:Deephub Imba

本文共4500字,建议阅读5分钟

本文将深入探讨CQR的理论基础、技术实现、与传统方法的比较,以及它在医疗、金融、能源和气候科学等多个领域的实际应用。


预测不确定性量化在数据驱动决策过程中具有关键作用。无论是评估医疗干预的风险概率还是预测金融市场的价格波动范围,我们常需要构建预测区间——即以特定置信度包含目标真值的概率区间。

分位数回归(Quantile Regression, QR)作为一种传统统计方法,长期以来被用于预测此类区间。与常规回归方法建模条件均值不同,QR直接对条件分位数进行建模,例如预测结果的第90百分位数。

然而单纯依赖QR在实践应用中存在显著局限性:其生成的区间在面对新数据时往往校准不足(区间过窄或过宽)。Conformalized Quantile Regression (CQR)正是为解决这一问题而提出的创新方法,它将分位数回归与共形预测(Conformal Prediction)技术相结合,生成既具有自适应性(区间宽度随输入特征动态变化,类似QR)又具有严格统计保证(能够达到预设的覆盖率目标)的预测区间。

从分位数回归到共形预测


分位数回归(QR)是一种历史悠久的统计技术,可追溯至19世纪Galton的研究,并在1970年代得到形式化。QR方法直接估计目标变量的条件分位数,而非条件均值。例如在房地产市场分析中,QR不仅可预测给定特征下的平均房价,还能估计给定特征下房价的第90百分位值。

QR通过优化尖点损失函数(pinball loss)(亦称分位数损失)学习预测Y在X条件下的q分位数。QR的主要优势之一是能够自然处理异方差性(heteroscedasticity)问题——例如,第5百分位与第95百分位预测值之间的区间可根据数据局部噪声水平自动调整宽窄。

这种特性使QR能够生成局部自适应预测区间:在数据波动较大的区域产生更宽的区间,而在数据表现稳定的区域生成更窄的区间,从而更精确地反映预测的不确定性分布。

经典QR的关键限制在于校准问题。QR本身无法保证未来数据点有90%会落在所谓的"90%预测区间"内。理论上,QR区间的覆盖率仅在渐近条件下(样本趋于无穷且模型规范正确)才能达到预期水平。

在有限样本情况下,或当模型设定不完全正确时,实际覆盖率可能与名义覆盖率存在显著偏差。图1清晰地展示了这一问题:图中展示的分位数回归模型生成的90%预测区间(阴影区域)未能完全覆盖数据样本,部分观测点落在区间之外,表明该"90%"区间在实践中的覆盖率不足。


与此相对,归纳共形预测(Inductive Conformal Prediction, ICP)作为一种现代不确定性量化方法,将校准作为其核心目标。ICP构建的预测区间具有无分布假设的有限样本覆盖保证。本质上共形方法可以应用于任意点预测模型(通常是均值回归模型),然后利用单独的校准数据集调整预测结果,使预测区间通过设计达到目标覆盖率。

ICP的唯一假设是训练数据与未来数据点满足可交换性(exchangeability)(即广义上的独立同分布条件)。对于回归问题,一种简单的分割共形(split-conformal)方法操作如下:首先在一部分数据上训练回归模型,然后计算校准集上的预测残差,最后确定一个阈值使得(1–α)比例的残差落在该阈值范围内。这一过程产生的预测带将以约(1-α)的概率覆盖真实值y。

ICP方法的优势在于其统计保证:当声明95%置信度时,它确实能够平均覆盖95%的新数据点。当使用均值估计器时,这种方法的限制在于生成的区间往往是均匀宽度的,或者仅轻微依赖于输入特征X(本质上是在所有预测点应用相同的残差阈值)。在异方差数据环境中,这种方法效率不高——可能导致在某些实际不需要的区域使用过度保守的宽区间,仅仅因为其他区域的数据变异性较高。

综上所述,分位数回归提供了自适应的预测区间但缺乏覆盖保证,而共形预测提供了覆盖保证但缺乏强自适应性。这自然引出了一个问题:能否将两种方法的优势结合起来?

Conformalized Quantile Regression (CQR)的工作原理


Conformalized Quantile Regression (CQR)正是融合上述两种方法优势的技术解决方案,它实现了"QR与CP优势的有效结合"。

由Romano、Patterson和Candès(2019)提出的CQR方法能够生成既能适应局部不确定性(如分位数回归)又保持严格覆盖保证(如共形预测)的预测区间。换言之,CQR"通过合并分位数回归和共形预测,产生同时适应数据底层分布特性并维持严格覆盖保证的预测区间",从而实现双重目标:每个预测点处的区间尽可能窄,同时确保整体覆盖率的正确性。

CQR的实现流程可以概括为以下关键步骤:

训练分位数模型:首先将数据集划分为训练集和校准集(类似于分割共形法)。使用训练集拟合两个分位数回归模型:一个预测下界分位数(如第5百分位),另一个预测上界分位数(如第95百分位),这两个模型共同界定目标预测区间。这些模型可以是任何能够预测特定分位数的回归算法,包括优化用于分位数损失的梯度提升树、随机森林或神经网络。

计算校准残差:接下来,将训练好的分位数模型应用于校准数据集。对于每个校准样本点(x_i, y_i),评估真实值y_i相对于分位数模型预测区间的位置关系。为每个点计算非一致性得分(nonconformity score),该得分实质上度量了当y_i落在预测区间外时,其偏离预测区间的距离。

确定校正量:然后,计算校准集上所有非一致性得分的(1-alpha)分位数值。这给出了一个值qCQR,使得90%的校准残差小于或等于该值。简言之qCQR是需要添加到或从原始分位数模型区间中减去的最小额外边际量,以确保90%的校准点被覆盖。

生成最终预测区间:最后,对于任何新输入x,CQR输出区间:[q^lower(xnew)−qCQR, q^upper(xnew)+qCQR]。此区间实质上是原始QR预测区间在每侧按常数qCQR进行扩展或收缩的结果。通过构造,这种调整后的区间将覆盖约(1-α)比例的未来数据点,即使在有限样本情况下且不依赖分布假设。CQR利用分位数回归作为智能起点,然后通过一个统一的微调缓冲区确保覆盖保证。若分位数估计接近完美,则缓冲区qCQR将非常小(理想情况下甚至为零)。若分位数模型低估了实际分布的扩散程度,qCQR将提供必要的补偿调整。

这一方法继承了两种组成技术的核心优势:区间长度可以随输入特征x变化(因为分位数回归预测会根据特征调整),从而像QR一样捕捉异方差模式;同时,由于共形校准步骤的作用,该区间具有(1-α)的有限样本覆盖保证。从理论角度看,CQR是分布无关的(无需参数模型假设)并且在可交换性条件下有效——若数据点满足独立同分布假设,则可以高置信度获得≥(1-α)的覆盖率(在X和Y的联合分布上)。

下面直接比较CQR与传统分位数回归的关键差异,以突显CQR的技术优势:


可以说CQR是分位数回归的即插即用增强版,它能够"每次都有效",默认情况下交付预期的覆盖保证。当QR模型声称某一预测为"第95百分位"时,CQR确保实际上确有约95%的结果落在该预测值之下——正如一位实践者所强调:"95%意味着真正的95%"。这种可靠性在高风险应用场景中尤为重要。

可视化比较:QR与CQR的差异


为了建立直观理解,我们回顾图1所示的场景。在该图中,分位数回归生成的预测区间未能覆盖部分数据点。若应用CQR方法,我们会使用校准集上的这些"未覆盖点"来适当扩展预测区间,直至覆盖所需比例的点。结果是所有(或几乎所有)数据点都将落入修正后的区间内,可能仅需在问题区域小幅增加区间宽度。换言之,CQR可能会在图1中的蓝色曲线上添加一个小的均匀缓冲区,略微提高上界并降低下界,直至95%的点被包含其中。在QR模型已经表现良好的区域,区间保持窄小,仅在必要处(如较高X值区域,QR模型原本低估了真实分布扩散)适度增宽。

实证研究证实了这一优势。例如,在一项包含29,993笔奥斯陆房屋销售数据的房价预测研究中,将CQR应用于随机森林模型后,生成的预测带宽度显著小于标准共形方法,同时仍然达到了90%的目标覆盖率。另一个医学领域的案例(从表观遗传数据预测生物年龄)发现,CQR生成的预测区间比共形均值回归方法更窄且个体间变异更大——表明CQR能更好地反映数据中的异质性,而基于均值的区间则过于保守且宽度几乎恒定。简言之,CQR通常提供两全其美的解决方案:精确、上下文敏感且可靠的预测区间。

总结


CQR(及共形预测)的应用正在迅速扩展。在机器学习研究中,CQR已被应用于时间序列预测(例如,流行的NeuralProphet库将CQR作为生成预测区间的选项)、时空数据分析(确保不同区域的预测覆盖率)以及算法公平性(一项工作引入"公平"CQR变体,确保跨不同子群体的均等覆盖率)。任何需要可靠不确定性量化的回归问题均可考虑CQR作为首选方法。其模型无关性意味着它可以包装任何前沿模型(梯度提升机、随机森林、神经网络等),使其预测具有可靠的概率特性。随着学术界和产业界对可信AI与机器学习的日益重视,CQR提供了一种相对简单却能显著提升预测模型可信度的技术增强方案。

Conformalized Quantile Regression (CQR)代表了预测建模领域的重要技术进步,它有效地结合了两个方向的优势:灵活、数据驱动的分位数估计与严格的不确定性校准。对数据科学家、分析师和研究人员而言,采用CQR能带来更为可靠的分析洞见:

CQR提供可靠的置信保证:当模型声明90%预测区间时,它确实能在实际应用中覆盖约90%的新数据结果。这种可靠性在医疗、金融等高风险决策领域尤为重要,它将预测模型转变为决策者可以真正信赖的工具。

CQR生成的自适应且信息丰富的预测区间区别于简单的不确定性带。这些区间能根据数据的局部不确定性动态调整形态。使用者能够准确识别模型不确定性较高的区域(较宽的区间表明该区域波动性更大或数据覆盖不足)与模型确定性较高的区域(较窄的区间)。这提供了更深入的分析视角,例如识别"模型对中等范围的案例预测较为确定,但对极端案例预测不确定"的模式——这类信息本身可以指导进一步行动,如针对极端案例收集更多数据。

CQR具有对分布异常的稳健性:由于其共形特性,即使数据具有异常误差分布、重尾特征或模型规范略有不准确,CQR方法也不会失效。该方法基于最少的假设,利用数据本身进行校准。这种稳健性使CQR能够跨多种应用场景部署,无需为每种情况专门调整——这是实际应用中的重要优势。

CQR提供实用的可获取性:实现CQR不再仅是理论练习——它已通过如MAPIE(面向scikit-learn用户)等库实现,并已集成到多个领域特定工具中。这降低了采用门槛。如果能训练回归模型,则只需几行额外代码即可应用CQR并获得更为丰富的预测输出。

如果你一直依赖传统分位数回归构建预测区间,现在或许是时候考虑"告别传统分位数回归,拥抱CQR"。通过对分位数预测进行共形化处理,您能确保模型不仅针对正确的分位数,还能以统计保证的方式达成预定目标。这将带来更精确、更可靠的预测洞见,支持在不确定环境中做出更明智的决策。

编辑:王菁



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

赞同楼上的观点,校准集的确非常重要。我补充一点,可以考虑使用交叉验证的方式来选择校准集。具体来说,可以将数据集分成多份,每次选择其中一份作为校准集,剩下的作为训练集,然后将多次实验的结果进行平均,以降低校准集选择的随机性带来的影响。

此外,还可以考虑使用一些更高级的共形预测方法,比如自适应共形预测,它可以根据输入特征的不同,动态地调整校准残差,从而更好地适应数据的分布变化。

我觉得这个问题问到了CQR的核心。CQR并不是万能的,它只是在分位数回归的基础上进行改进,如果分位数回归本身就存在很大的偏差,CQR也无法完全弥补。

CQR对底层分位数回归模型的要求可以概括为以下几点:

* 预测能力:分位数回归模型需要具有一定的预测能力,能够捕捉到数据中的主要趋势和模式。
* 分位数估计准确性:分位数回归模型需要能够准确地估计分位数,避免出现过高或过低的估计。
* 稳定性:分位数回归模型需要具有一定的稳定性,避免出现过大的波动。

总之,CQR的效果取决于底层分位数回归模型的质量,选择一个合适的分位数回归模型是至关重要的。

校准集是CQR的关键,选择确实很重要。我的理解是,CQR的覆盖率保证是建立在可交换性假设之上的,也就是说,训练集、校准集和未来待预测的数据都应该服从相同的分布。如果校准集存在偏差,破坏了可交换性,那么CQR的覆盖率保证就会受到影响。

但即使校准集存在偏差,CQR仍然可能比传统的分位数回归更好。毕竟,CQR至少尝试去校准预测区间,而传统的分位数回归则完全没有考虑校准问题。当然,在这种情况下,我们需要更加谨慎地评估CQR的性能,并考虑使用其他方法来提高预测的可靠性。

另一方面,从对抗的角度考虑,CQR的抗风险能力也优于传统分位数回归。

CQR在预测结果可靠性要求高的场景下更有效,尤其是在小样本或者模型不确定性较高的情况下。除了医疗和金融,我认为以下行业也适合:

* 能源领域:预测电力需求、风力发电量等,确保能源供应的稳定。
* 供应链管理:预测需求量和交货时间,降低库存成本,避免缺货。
* 环境科学:预测污染物扩散、气候变化影响等,为环境保护提供科学依据。
* 自动驾驶:预测其他车辆和行人的行为,保证行驶安全。

总的来说,只要是需要量化预测不确定性,并且对预测精度有较高要求的场景,都可以考虑使用CQR。

楼上说的很有道理!补充一点,CQR的优势在于其’即插即用’的特性,可以方便地与现有的机器学习模型结合。因此,在一些已经使用分位数回归的项目中,可以考虑用CQR替代,以提升预测区间的可靠性。

另外,我觉得CQR在一些新兴领域也有应用潜力。例如,在元宇宙中,可以利用CQR预测虚拟资产的价格波动,为用户提供更可靠的投资建议。在人工智能安全领域,可以利用CQR预测模型受到攻击的可能性,提高模型的防御能力。

这是一个非常关键的问题!校准集是CQR发挥作用的基础,它的质量直接影响最终的覆盖率。如果校准集存在偏差,比如校准集和训练集的数据分布不一致,或者校准集本身就存在测量误差,那么CQR的覆盖率保证可能会失效。

为了尽可能保证覆盖率,在选择校准集时,需要注意以下几点:

* 数据分布一致性:校准集的数据分布应该尽可能与训练集和未来待预测的数据分布一致。
* 数据质量:校准集的数据质量要高,尽量避免测量误差和噪声数据。
* 数据量:校准集的数据量要足够大,以保证校准残差的估计精度。

此外,还可以考虑使用一些技术来缓解校准集偏差的影响,比如使用领域自适应技术来调整校准集的数据分布,或者使用鲁棒统计方法来估计校准残差。

如果底层分位数回归模型效果很差,CQR肯定也会受到影响。CQR本质上是在分位数回归的基础上进行校准,如果分位数回归的预测结果偏差很大,那么即使经过校准,也难以得到准确的预测区间。

但是,即使分位数回归效果不好,CQR仍然可能比直接使用分位数回归更好。因为CQR至少保证了覆盖率,而直接使用分位数回归则可能无法达到预期的覆盖率。

CQR对底层分位数回归模型的选择没有特别严格的要求,理论上可以使用任何能够预测分位数的模型。但是,为了获得更好的CQR效果,建议选择具有较好预测性能的分位数回归模型,比如梯度提升树、随机森林或者神经网络。

赞同楼上的观点。我补充一点,CQR实际上是对分位数回归的一种“容错”机制。即使分位数回归的预测结果存在一定的偏差,CQR仍然可以通过校准来保证覆盖率。

从这个角度来看,我们可以将CQR看作是一个“安全网”,当分位数回归出现错误时,CQR可以起到一定的保护作用。当然,这个“安全网”的强度是有限的,如果分位数回归的错误过于严重,CQR也无法完全避免预测失败。

因此,在使用CQR时,我们需要尽可能选择一个性能较好的分位数回归模型,同时也要认识到CQR的局限性,避免过度依赖它。

我觉得这个问题很有意思!CQR的优势在于能够提供具有统计保证的预测区间,这在很多需要承担决策风险的场景下非常重要。从这个角度来看,我认为以下场景也值得考虑:

* 法律领域:量刑预测,为法官提供参考依据。
* 社会科学:预测社会事件的发生概率,为政府决策提供支持。

甚至可以脑洞大开一下,在彩票预测领域,也可以使用CQR来预测中奖号码的范围,虽然可能并不能提高中奖概率,但至少可以提供一个更合理的参考区间(手动狗头)。