基于决策树的贷款审批模型
一、背景描述
银行信贷业务是银行最基本、最重要的资产业务,通过发放银行贷款收回本金和利息,扣除成本后获得利润。银行为了获得更大的利润,对每一位顾客的信息进行分类,然后针对不同的顾客采用不同的方案。
银行每天要收到大量贷款申请,其中夹杂着大量不具备贷款资格的申请,为缓解审批人员的工作量,可以根据申请人资料,制定一个模型自动过滤高拖欠贷款概率的资格申请表。
二、数据分析
2.1.数据阅读
下表为银行贷款发放后是否拖欠的部分用户信息,其中因变量为“拖欠贷款”,自变量有“年龄”、“收入级别”、“信用卡树”、“学历”、“车贷数量”,计划通过决策树建立贷款审批模型,自动过滤高拖欠贷款概率用户。
拖欠货款 |
年龄 |
收入级别 |
信用卡数 |
学历 |
车贷数量 |
否 |
50.53 |
中 |
5张以上 |
高中 |
2次以上 |
否 |
27.02 |
高 |
少于5张 |
高中 |
无或1次 |
否 |
28.1 |
低 |
少于5张 |
高中 |
无或1次 |
是 |
24.04 |
低 |
5张以上 |
高中 |
2次以上 |
是 |
25.72 |
中 |
5张以上 |
大学 |
2次以上 |
否 |
29.53 |
高 |
少于5张 |
高中 |
2次以上 |
否 |
28.02 |
高 |
5张以上 |
高中 |
2次以上 |
是 |
26.81 |
中 |
5张以上 |
大学 |
2次以上 |
否 |
42.44 |
高 |
5张以上 |
高中 |
无或1次 |
否 |
35.03 |
中 |
5张以上 |
高中 |
无或1次 |
是 |
29.05 |
低 |
5张以上 |
大学 |
2次以上 |
表1 贷款拖欠与否用户信息
2.2.决策树根节点选择
优先选择哪个属性进行决策树的生长,并不是随机选择的,而是要根据不同的决策树通过不同的评估效果决定。
1)基于信息增益的根节点选择(针对C4.5/5.0等决策树)
从表1可知,根节点的选择有“年龄”、“收入级别”、“信用卡数”、“学历”、“车贷数量”,以“收入级别”为例计算信息增益。
图1 通过“收入级别”划分
假定根节点属性U,包括拖欠货款和不拖欠货款的人数分别为1020和1444个对象,则根节点的熵:
根节点按照“收入级别”划分后可得3个子节点V1(低)、V2(中)、V3(高),各子节点的熵:
按照“收入级别”属性划分后的条件熵:
因此可计算出按“收入级别”属性划分后的信息增益:
同理计算出其它属性划分后的信息增益:
Gains(U,收入级别) = 0.978 – 0.766 = 0.211
Gains(U,年龄) =0.978 – 0.890 = 0.087
Gains(U,信用卡数) = 0.978 – 0.843 = 0.134
Gains(U,学历) = 0.978 – 0.977 = 0.001
Gains(U,车贷数量) = 0.978 – 0.896 = 0.081
根据计算结果可见,按“收入级别”属性划分信息增益最大。
2)基于卡方检验的根节点选择(针对CHAID决策树)
从表1可知,根节点的选择有“年龄”、“收入级别”、“信用卡数”、“学历”、“车贷数量”,根据“R*C”表通用公式:
K^2 = n(∑A^2/NrNc -1)
以及四格表通用公式:
k^2 = n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)
计算各属性的卡方差如下:
收入级别 = 662.456
信用卡数 = 415.996
年龄 = 290.065
车贷数量 = 265.963
年龄 = 0.098
根据计算结果可见,按“收入级别”属性划分卡方差最大。
三、模型建立
将数据集分为70%的训练集以及30%的校验集,分别用于模型的建立以及校验。
3.1.决策树模型的建立
1)决策树
2)模型汇总
模型汇总 |
||
指定 |
增长方法 |
CHAID |
因变量 |
拖欠货款 |
|
自变量 |
年龄, 收入级别, 信用卡数, 学历, 车贷数量 |
|
验证 |
无 |
|
最大树深度 |
3 |
|
父节点中的最小个案 |
100 |
|
子节点中的最小个案 |
50 |
|
结果 |
自变量已包括 |
收入级别, 信用卡数, 年龄 |
节点数 |
22 |
|
终端节点数 |
13 |
|
深度 |
3 |
增长方法采用CHAID,自变量采用“收入级别”、“信用卡数”、“年龄”。
3.2.决策树模型校验
将训练集生成的模型纳入校验集检测:
分类 |
|||
已观测 |
已预测 |
||
否 |
是 |
正确百分比 |
|
否 |
363 |
62 |
85.4% |
是 |
84 |
212 |
71.6% |
总计百分比 |
81.2% |
77.3% |
79.8% |
|
3.3.决策树模型应用
从决策树16号节点分析:收入级别低、信用卡5张以上、年龄<37的人群为高拖欠贷款概率人群,此外也可直接将人员信息通过决策树直接输入拖欠贷款概率。
四、总结
本文通过建立贷款审批模型,当新用户申请贷款时,贷款审批人员可迅速判断拖欠贷款概率,节省分析时间,减少运营风险。