构建评分卡模型的详细指南

学习评分卡模型构建的详细步骤,包括数据清洗、分箱、WOE编码等关键环节。

原文标题:原创|手把手教你构建评分卡模型

原文作者:数据派THU

冷月清谈:

本文详细介绍了评分卡模型的构建过程,强调了其在金融、营销等领域的广泛应用,并具体说明了模型的背景、数据清洗、分箱技术、WOE编码、变量选择、模型训练与评估,以及最终评分卡的构建。通过案例分析,读者可以直观理解评分卡如何通过各项特征给出评分,以及如何用这些评分提升信贷决策的效率与准确性。评分卡模型的强可解释性和简明操作使得它在复杂的机器学习模型中仍然占据一席之地。

怜星夜思:

1、评分卡模型与深度学习模型相比有什么优势和劣势?
2、在构建评分卡时,如何选择变量并处理多重共线性?
3、如何量化评分卡的效果和性能?

原文内容

图片

作者:胡赟豪

本文约2800字,建议阅读5分钟

本文介绍了构建评分卡模型。


一、背景

在各种机器学习、深度学习模型快速发展的当下,评分卡模型作为一种可解释机器学习模型,仍然在金融、营销等领域被广泛使用。这一模型通过构建一组基于输入变量的评分规则,能够直观地对样本进行评分,非常易于理解和操作。举一个金融信用风险评分卡的例子,要判断一笔贷款能够被按时偿还的风险大小,可以设置这样一个评分卡:


是否有车

0

10

是否有房

0

30

是否已婚

0

10

年龄

[0,25)

0

[25,40)

5

[40~55)

10

[55,+∞)

5

学历

初中及以下

0

高中

5

本科

10

硕士及以上

20

月均收入        

0~3000

0

3000~6000

5

6000~10000

10

10000~20000

15

20000+

20


这个评分卡的得分范围是[0,100],分数越高,违约的风险就越小。对于一个有房有车,有着本科学历和15000元月收入的30岁已婚申请者,按照评分卡可以计算其得分:10+30+10+5+10+15=80分,据此风险评估人员可以快速地判断出该申请者的信用风险较小。
           
评分卡的强可解释性一方面使其能够快速给出结论,另一方面也能给出原因。通过查看每个评分项的得分,我们也可以清楚看到申请者在哪些项目扣了多少分。在一些其他场景下我们如果要给予被评分人建议,也可以清楚地看到哪一项提升到什么程度,对应能够增加多少得分。
           
那么评分卡为什么最后是选用这些变量?这些分数又是怎么计算出来的呢?接下来我们一起看看评分卡的构建过程。
           
二、数据清洗

在上面的例子中,模型的目标是申请者是否会按时偿还,特征则是每个申请者的个人信息。在收集好样本数据之后,首先需要对数据进行清洗,包括异常值、缺失值处理等。

异常值可以基于规则或者离群值检测来发现,例如发现年龄为负数、收入高于平均值的X%(X可以自行调整)等情况的样本,可以予以剔除,避免干扰后续的模型构建。   

缺失值则可以用平均数、相似样本填充等方法进行填补,也可以直接保留缺失状态,在后续的建模中作为单独的一个分箱。
           
三、分箱

评分卡模型的一大特点是对每个输入变量的不同分箱分别进行打分。例如在上面例子中,我们注意到每个输入变量都是离散的。即使是像收入、年龄这样的连续型变量,也是先进行分箱(分成不同的取值区间)后再进行打分,因此模型最后的得分也是离散的。
           
分箱的常见方法包括:
(1)等距分箱
将变量可能取值的区间分为k个相同大小的小区间,例如连续区间[0,3]拆分为[0,1)和[1,2)、[2,3]三个分箱。

(2)等频分箱
将变量可能取值的区间分为k个区间(可以不同大小),每个区间内的样本频率相同,例如[0,3]拆分为[0,1)和[1,3]两个区间,但样本中在两个区间内的取值频率相同。

(3)最优分箱
最优分箱方法是有监督的,需要样本的标签信息,使用类似于决策树的方法,通过计算信息熵增益等指标来决定拆分点。
           
四、WOE编码

分箱之后输入变量变成一系列取值为0或1的变量分箱,接下来我们需要对它们进行有监督的WOE(证据权重,weight of evidence)编码,将“1”转换成其他更加有预测能力的数字。   

假设样本标签中违约为1,按时偿还为0,则对于变量分箱i,定义以下变量:

图片为分箱i中违约客户占所有样本中违约客户的比例

图片为分箱i中按时偿还客户占所有样本中违约客户的比例

图片为分箱i中违约客户人数

图片为分箱i中按时偿还的客户人数

图片为所有样本中违约客户人数

图片为所有样本中按时偿还的客户人数

           

则分箱i的WOE取值为

图片 


通过公式可以看出,分箱中违约客户比例越高,WOE值越大,理论上图片 。当分箱i中违约客户占比高于总体时WOE>0,小于总体时WOE<0;违约客户的占比和总体一致时,WOE值为0,分箱没有预测能力

图片


从上面的式子可以看出,WOE值能够反映分箱对目标预测的贡献情况,在分箱的分类信息“1”的基础上增加该分箱的权重信息,因此WOE被称为“证据权重”。注意在计算时,即使是缺失值组成的分箱也可以算出一个WOE分数。

           

但是WOE的计算为什么是这个形式?一种解释是为了更加适配后续的logistic建模,从以下推导中可以看出,WOE分数和预测目标的对数几率的变化近似线性相关。   


Logistic模型公式:图片,其中p为客户违约概率,图片为模型的参数向量

图片 ,其中图片为分箱i中客户违约概率,图片为总体的违约对数几率。


五、变量选择


变量选择的目标主要有两个,一个是筛选出预测能力强的变量,另一个是处理多重共线性问题。


评分卡模型中常用IV值(信息价值,information value)来表示变量的预测能力,变量的IV值是其所有分箱的IV值之和:

图片


由于公式中的两个项同向,故IV≥0,IV值越大,变量对目标的预测能力越强。

           

多重共线性则可以结合变量间相关系数、VIF值等进行判断,在多个共线性较高的变量中,可以优先保留预测能力较高的变量。

           

六、模型训练与评估


训练前首先对样本进行样本集和测试集的拆分。评分卡模型本质上是一个二分类预测模型,使用logistic模型来估计参数,接下来只需要将筛选后的变量的分箱WOE值输入到模型中,完成模型的训练即可。在测试集上可以计算模型的AUC、KS等指标,来评估模型效果。   

           

七、评分卡转换


至此还剩下最后一个问题:怎样将模型的结果转化为文章开头那样的评分卡里的分数?


例子中评分卡的分数实际上表达的是违约的对数几率大小(因为希望分数大小和违约几率负相关所以加入负号):图片

           

假设向量x取某个值时,违约几率为odds0,则此时得分为图片;再假设几率翻倍时,有图片,其中PDO表示违约几率翻倍时分数的变动幅度。可以将以上两个式子联成一个方程组,在人工设定基础分数s0、基础几率odds0和PDO的基础上即可解出A、B大小。


在式子图片中代入A、B后,就可以将各个变量的分箱得分计算出来,生成评分卡了。注意此时评分卡得分的阈值范围很可能并不是0~100这样比较规整的区间,但可以通过分数的映射再进行一些调整得到。


编辑:王菁

作者简介

胡赟豪,硕士毕业于清华大学经济管理学院,现从事于互联网数据科学相关工作,主要技术探索方向为机器学习及其在商业中的应用。

数据派研究部介绍




数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:


算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。


点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~



转载须知


如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。



点击“阅读原文”加入组织~



模型的效果可以通过一系列指标来量化,比如AUC(曲线下面积)、KS统计量等,这些都是评估模型预测能力的重要指标。AUC越接近1,代表模型的分类能力越强。而KS值则能说明模型区分正负类的能力。

除了标准的评估指标,实际效果还要通过回测来验证,比如用历史数据测试该评分卡的准确性,以及随时间推移其表现是否稳定,这是非常关键的。

在量化评分卡效果时,可以考虑使用混淆矩阵,观察假阳性和假阴性的比例,以及准确率和召回率等,只有把这些结合起来,才能全面评估模型的表现。

另外,如果能够找到合适的A/B测试机制,简单的对比两个不同评分卡在实际业务中的表现,也是非常直观的效果评估方式。

选择变量可以采用信息价值(IV)作为指标,IV值越高表示该变量在预测目标上越有效。处理多重共线性时,可以关注相关性矩阵和方差膨胀因子(VIF),高相关的变量要考虑剔除或组合,以减少冗余和噪声。

在实际操作中,我建议首先探索性数据分析,了解每个变量的分布情况,并利用单变量模型进行初步筛选。对多重共线性,可以通过逐步回归或Lasso回归来进行管理。

在创建评分卡时,选取与目标强相关的变量,同时也要考虑业务背景。此外,变量之间的共线性问题可以通过主成分分析(PCA)来处理,从而提取出最具代表性的组合变量。

其实有时候为了达到简单明了的效果,不复杂的多重共线性处理也是可以接受的,只要最终模型效果好。关键还是找出那些最能反映风险的核心变量。

评分卡模型最大的优势在于其可解释性,能够为决策提供清晰的依据。而深度学习模型虽然性能强大,但常常被视为黑盒,难以解释内部逻辑。这导致在金融等敏感领域,评分卡模型更受青睐。但深度学习在处理大规模数据和复杂模式识别上具有独特的优势,适用于更高维度的问题。

从应用角度看,评分卡模型在一些传统行业中仍旧占据重要地位,因为它简单且直观。而深度学习更适合集成学习,适合数据量大、特征复杂的场景。但这两者也可以结合使用,比如用深度学习处理特征提取,再用评分卡进行判定,形成优势互补。

评分卡模型的构建和维护相对简单,也便于业务人员理解和使用,而深度学习模型偏向技术人员。这个特点使得评分卡模型在一些业务决策中更容易被采纳。而且,评分卡可以直接输出结果,方便清晰地进行决策。

我觉得两者也不一定是对立的,现在很多企业会同时使用这两种模型,根据需要选择。如果业务逻辑比较简单且需要较高的可解释性,评分卡就是很好的选择;而对于需要深入挖掘的数据,深度学习则更合适。