本篇文章对于评分卡的构造讲述详细,仔细阅读大约需要15分钟
评分卡模型是一种通过评估申请人的资信状况来预测申请人未来拖欠或坏账概率的模型。它是根据风险评分模型预测的违约概率以及相关变量,计算得出决策规则,用来为风控人员制定风控政策提供科学的指引与帮助。评分卡模型在风险管理中有着非常重要的作用。
逻辑回归作为一种经典的分类模型方法,由于其算法易于理解、可解释性强等优点,在评分卡模型体系中有着十分广泛的应用。
本文将阐述逻辑回归模型的算法原理,并介绍如何基于logistic回归算法建立标准评分卡的流程。
一、算法介绍
1. 什么是逻辑回归?
逻辑回归是这样的一个过程:面对一个分类问题,建立代价函数,然后通过优化方法迭代求解出最优的模型参数,然后测试验证我们这个求解的模型的好坏。如上面所举判断样本学生是男生还是女生的例子上,我们可以将学生的头发、穿着、爱好、职业等具体数据信息放入已训练好逻辑回归模型中,就此预测该学生是男生或女生的概率。
2. 逻辑回归为何逻辑 ?
Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,常常用于两分类问题(即输出只有两种结果,分别代表两个类别)。逻辑回归算法是借用了回归思想解决分类问题。
假设有一个二分类问题,输出为y∈{0,1} ,而线性回归模型产生的预测值为 z=WT x+b是实数值,我们希望有个阶跃函数来帮助实现z 值到0/1 值的转化。该函数即为Sigmoid函数。
于是,我们把Sigmoid 函数计算得到的值大于等于0.5 的归为类别1 ,小于0.5 的归为类别0。
3. 逻辑回归怎么回归?
建立逻辑回归模型的过程,其实是根据给定的训练集,将参数w 求解出来的过程。而求解w的值,则需要确定代价函数。下面的步骤为确定逻辑回归算法代价函数的求解过程。由下面两式:
我们可以将其写成一般形式为:
接下来则是利用极大似然估计来根据给定的训练集估计出参数w 。最大似然估计是指利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。
为了简化运算,会对上面等式的两边都取一个对数:
这样问题就转换成了以对数似然函数为目标函数的最优问题。逻辑回归学习中通常会采用梯度下降法或拟牛顿法求解该最优问题,进而求解出参数w的极大似然估计值。
二、构建流程
基于逻辑回归算法构建的标准评分卡,所采用的格式通常如下表所示。
由上表示例可知,若某用户的信息为:年收入大于20万元,年龄为40岁,性别为男性,年支出在3万至10万,已婚,则可以得到该用户信用总评分为:195+150+90+137+140=712。
通过上面举例可知,评分卡对于每个变量,根据其不同的取值范围赋予了一定分值,结果展示简单易懂,一目了然。评分卡可以将每个变量的贡献加总,进而得到最终总评分,此方法使得总评分更透明和直观,这对金融行业而言,该点能够满足监管法规相关要求,因而显得尤为重要。
标准评分卡的开发流程细化起来,则可以分为以下几个步骤。
- 数据认知:基于实际业务场景理解数据内容,发现数据与研究问题的关系。
- 数据处理:对原始数据进行处理,包括不同数据源间的数据合并、数据规整化处理、缺失值处理等环节。
- 特征选择:利用特征选择方法,筛选出预测能力强的有效特征,合理降低特征总维度。
- 特征分箱:对特征自变量进行离散化分箱处理。
- WOE转换:特征分箱处理后,将变量进行WOE编码转换。
- 模型建立:结合样本数据建立模型及模型参数输出过程。
- 模型评估:利用评估指标对模型效果进行评价。
- 评分转换:将模型概率转换为直观评分以及生成评分卡。
1.数据处理
数据处理是数据挖掘的重要一环,要使所建立的模型能够挖掘出丰富的知识,就必须为其提供规整、准确、简洁的数据。然而实际应用中所收集到的原始数据多数情况下是不完全的、冗余的和模糊的,很难能直接满足数据挖掘算法的要求,同时也可能会影响模型算法的运行效率,其中的噪声干扰还会造成无效的归纳。数据处理已经成为模型构建实现过程中的关键问题。通常,原始数据会存在以下几方面的问题:
(1)杂乱性
原始数据是从多个应用系统中获取(多种数据库、多种文件系统),由于各应用系统的数据缺乏统一标准和定义,数据结构也有较大的差异,因此各系统间的数据存在较大的不一致性,往往不能直接拿来使用。
(2)重复性
重复性是指对于同一个客观事物存在其两个或两个以上完全相同的物理描述,造成数据重复和信息的冗余现象。
(3)不完整性
数据不完整一般是由于系统设计时存在的缺陷或者使用过程中一些人为因素所造成。数据记录中可能会出现数据属性的值丢失或不确定的情况,还可能缺少必须的数据而造成数据不完整。数据预处理的主要目的在于一方面是要有效提高数据质量,另一方面是要让数据能更好应用于算法模型。目前数据预处理还没有十分理想的自动化处理方法,所以通常会耗费很多时间和精力,而且往往需要加入人为经验的干预。
1.1 数据清理
数据清理是对各种脏数据进行对应方式的处理,得到标准、干净的数据,提供给模型使用。如果数据源系统分散在各应用系统,系统之间对数据的要求、理解和规格不同,导致对于同一数据对象的描述规格完全不同。那么当数据来自不同数据源时,则需要统一数据规格,如对变量名称、变量类型、度量单位等进行统一。
1.2 缺失值处理
变量缺失值处理是数据处理过程的一个重要环节。在缺失值处理上,可以结合变量不同的缺失情况、缺失原因以及变量类型,采取相应的缺失值处理策略。针对缺失值处理,业界常用的方法有删除法、替换法以及插补法。
(1) 删除法
删除法是最简单的缺失值处理方法,根据数据处理的不同角度可分为删除观测样本、删除特征变量两种。删除法虽然简单易行,但可能会存在信息浪费的问题,而且数据结构也会发生变动,以致最后得到有偏的统计结果。
(2) 替换法
如果缺失值所在变量为数值型,可采用变量的均值或中位数、或者固定常数进行缺失值填充;如果为非数值型变量,则可使用该变量其他全部有效观测值的中位数或者众数进行替换。此外,也可以根据业务知识或经验推测对变量缺失值进行填充替换。
(3) 插补法
常用的插补法有回归插补、多重插补等。回归插补法利用回归模型,将需要插值补缺的变量作为因变量,其他相关变量作为自变量,通过回归函数预测出因变量的值来对缺失值进行补缺;
下表所述缺失值处理策略,是一种结合数据类型和缺失占比而相应做出不同处理建议,供参考。
2. 特征选择
在特征变量维度特别大的情况下,通常会先对特征变量进行初步处理,删除一些与目标变量相关性低或预测能力较弱的特征,以降低变量总维度。
变量初筛主要是根据一些常规指标进行筛选。
如果仅依靠上述变量初筛方法,是难以完全筛选出最终入模变量。为了选出对目标变量有更好解释的特征,合理有效减少变量维度,需进一步对变量进行筛选;
根据不同特征选择思想,特征选择方法又可以大致分为以下几种方法。
过滤法:按照发散性或者相关性对各个特征进行评分,设定阈值,选择特征。
包装法:根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。
嵌入法:先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。
下面介绍几种在逻辑回归模型构建实践中常用的特征选择方法。
在使用逻辑回归算法时,通常需要对变量进行多重共线性检验。多重共线性是指模型中的变量之间由于存在较强的相关关系而使模型估计失真或难以估计准确,进而影响模型的预测能力。为了检测特征变量之间是否存在严重的多重共线性,通常以方差膨胀系数VIF值作为计算标准。VIF值则越高,则多重共线性越严重。一般设定变量VIF值不应高于10。
利用正则方法可以对特征变量进行选择。L1正则、L2正则方法都可以对特征做出选择。L1正则法具有稀疏解的特性,因此天然具备特征选择的特性。L2正则化对于特征理解来说更加有用,表示能力强的特征对应的系数是非零。
一些机器学习方法本身就具有对特征进行打分的机制,很容易将其运用到特征选择中,如树模型算法。集成算法RF、GBDT和XGBoost等均可输出特征重要性得分。
3.特征变量分箱
变量分箱是指将连续变量进行离散化处理,对多分类值离散变量进行适度分箱合并。比如变量年龄,对其进行离散化分组,每一组将会为年龄段,如将年龄分为0至20岁、20岁至40岁、40岁至60岁、60岁至80岁、大于80岁这五个组别。
变量分箱是评分卡开发的一个重要阶段。变量必须经过分箱处理,才可以使用标准的评分卡格式。变量分箱也可以说是逻辑回归算法构建评分卡模型的显著特点之一。
分箱一方面有助于对变量数值进行平滑以消除噪声,能够有效降低学习算法的复杂度,加快学习速度;另一方面,能够有助于简化归纳获得的知识,提高分类结果的可理解性。
对连续变量分箱可以采取等频分箱、等距分箱等无监督分箱方法,也可以采取决策树分箱、卡方分箱等有监督分箱方法。
对分类变量通常可以利用变量类别值的违约率排序进行类别值合并或者采取聚类分箱方法。
此外,为了满足变量分箱后在业务层面上的可解释性,往往会结合业务经验和变量逻辑含义,对连续变量、分类变量进行手动调整分箱。
采取不同的变量分箱方法,其变量分割点很可能会有差别,因而分箱结果很可能并不一致。
4.WOE值转换
WOE(weight of evidence)也被称为证据权重,是一种有监督的编码方式,它是将预测类别的集中度的属性作为编码的数值。通俗来讲就是特征取某个值的时候对违约比例的一种影响。对变量进行WOE值转换,可以有效提升模型的预测效果,提高模型的可理解性。
特征变量经过变量分箱后,需将特征变量各分箱类别值进行WOE值转换。经过此转换,变量的各个类别值就会被替换为其对应的WOE值,作为变量在此类别下的模型输入值。
为了介绍WOE的意义,下图为结合某样例数据变量婚姻状况进行WOE转换后,可看出变量各类别值的WOE值各不相同,WOE值的分布与违约率存在某种线性关系。
5.模型建立与评估
5.1 模型建立
逐步回归方法被广泛应用在多元线性回归模型建立及回归方程自变量选择上。逻辑回归评分卡模型一般会利用逐步回归分析方法从候选特征变量中确定模型变量组合。该方法又可分为向前选择、向后选择,双向逐步回归三种逐步回归方法。
进行模型回归方程的求解,可以得出类似如下面样例所示的回归方程
在上述方程里,年收入、年龄、性别、年支出、婚姻状况成为模型最终输入变量。
5.2 模型评估
模型建立输出回归方程结果后,需要结合样本数据的训练集和测试集对模型效果的好坏进行评估。通常会借助以下指标进行模型评估。
5.2.1 混淆矩阵
混淆矩阵如下表所示,预测正确的结果都在对角线上。各个表格元素如下:
TN:预测正常且实际也正常的样本数;
FN:预测正常实际却违约的样本数;
TP:预测违约且实际也违约的样本数;
FP:预测违约实际却正常的样本数;
比较常用的评价指标有:
5.2.2 KS曲线
Kolmogorov-Smirnov曲线,简称KS曲线。是先将模型拟合后将数据按照违约概率降序排序,进行一定等份划分(一般为10或20)后计算每一等份下的好坏客户比例的累积分布,计算二者累积分布之间的差便得到KS曲线。
KS曲线中累计好客户百分比与坏客户百分比的最大差距值为KS值。KS值可以作为衡量模型对于好坏客户的区分能力的指标。一般认为KS值超过28%,说明模型的区分能力尚可。
下面两图分别为模型训练集、测试集的KS曲线及KS值示例。
5.2.3 ROC曲线
接受者工作特征曲线(Receiver operating characteristic, ROC)是通过在0-1之间不断改变用于创建混淆矩阵的临界值,再绘制TPR与FPR而得到的。
该曲线驼峰越高,就说明分类准确的违约比例高于分类错误的正常比例,分类效果也就越好。ROC曲线下边面积被称为AUC统计量。
AUC取值范围在0.5至1之间,AUC值越高,可认为模型越可靠有效。
下面两图分别为模型训练集、测试集的ROC曲线及AUC值示例。
6.评分转换
评分卡可以很直观的展示每个入模变量是如何影响总得分的,可以有效帮助使用者科学制定信贷政策。将逻辑回归模型结果转化为信用评分的形式,是一个量表编制过程。通常生成评分卡需满足以下要求:
(1)在特定分数时,好坏客户具有一定的比例关系。如希望在评分值为500时,坏客户好客户比值odds为1:50;
(2)评分值增加应能够反映好坏客户的比例关系变化。例如希望当评分值增加50分时,坏客户好客户比值odds降低一倍。
三、总结
综合以上对逻辑回归标准评分卡开发流程的介绍可知,逻辑回归评分卡模型能够将复杂抽象的统计模型以简明直白的形式展示,因而在银行、保险等金融机构的经营活动中被广泛使用。
评分卡并不能告诉使用者某申请人一定是好客户或者坏客户。事实上,它只是告诉我们一定的概率。因此在使用评分卡模型时,对于不同评分分值的用户建议采取不同的决策策略。此外,对于一些客户还可综合其他信用信息,作为决策策略可调整部分,以应对可能对客户信用影响较大的突发事件,如客户遭遇重大经济、健康等问题。
将评分卡模型部署使用以后,并不意味着是可以一劳永逸的;这是因为随着时间的变化,市场经济环境、产品及业务来源渠道不断变化,使得申请人群体的特质和属性发生一定的改变,评分卡模型则有可能会与初始时的模型产生部分偏移。因此需要每隔一定时间,对评分卡模型进行稳定性检验,以判断验证模型评分分布、评分变量是否与初始模型保持基本一致。
作者:LSQ
转载:https://blog.csdn.net/zybank_IT/article/details/109767820