5-机器学习-特征工程之WOE&IV编码&分箱

IV的概念和作用

  • 概念:
    • IV的全称是Information Value,中文意思是信息价值,或者信息量
  • 作用:
    • 我们构建分类模型时,经常需要对特征进行筛选。比如我们有200个候选特征,通常情况下,不会直接把200个特征直接放到模型中去进行训练,而是会用一些方法,从这200个特征中挑选一些出来,放进模型,形成训练集数据。那么我们怎么去挑选训练模型的特征呢?
    • 挑选特征的过程是个比较复杂的过程,需要考虑的因素很多,比如:特征的预测能力,特征之间的相关性,特征在业务上的可解释性等等。但是,其中最主要和最直接的衡量标准是特征的预测能力。
      • “变量的预测能力”这个说法很笼统,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧?我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型。IV就是这样一种指标,他可以用来衡量自变量(特征)的预测能力

对IV的理性理解

  • 想要深入理解IV其核心就是要理解“用IV去衡量变量预测能力”这句话。
    • 我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2。对于一个待预测的样本A,要判断A属于Y1还是Y2,我们是需要一定的信息,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的待预测样本的特征C1,C2,C3,……,Cn中,那么,对于其中的一个特征Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还是Y2的贡献就越大,Ci的信息价值就越大,Ci的IV就越大,它就越应该进入到入模变量列表中。

IV的计算

  • 前面我们对IV进行了解释和描述,那么回到数学层面,对于一个待评估特征,他的IV值究竟如何计算呢?为了介绍IV的计算方法,我们首先需要认识和理解另一个概念——WOE,因为IV的计算是以WOE为基础的。

什么是WOE

  • WOE的全称是“Weight of Evidence”,即证据权重。WOE是对原始特征的一种编码形式。要对一个特征进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱等等,将一个连续型变量离散化)。分组后,对于第i组,WOE的计算公式如下:

    image.png

    • 其中,pyi是这个组中正例样本占整个样本中正例样本的比例,pni是这个组中负例样本占整个样本中负例样本的比例,#yi是这个组中正例样本的数量,#ni是这个组中负例样本的数量,#yT是整个样本中所有正例样本的数量,#nT是整个样本中所有负例样本的数量。
  • 从这个公式中我们可以体会到,WOE表示的实际上是“当前分组中正例样本占所有样本中所有正例样本的比例”和“当前分组中负例样本占所有样本中所有负例样本比例”的差异。
  • 对这个公式做一个简单变换,可以得到:

    image.png

    • 变换以后我们可以看出,WOE也可以这么理解,他表示的是当前这个组中响应的客户和未响应客户的比值,和所有样本中这个比值的差异。这个差异是用这两个比值的比值,再取对数来表示的。WOE越大,这种差异越大,这个分组里的样本响应的可能性就越大(这组数据分到正例的概率越大),WOE越小,差异越小,这个分组里的样本响应的可能性就越小。
      • 对于一组样本数据,上述公式中的分母是固定的,如果分子中的yi越大,则WOE返回的数值越大

猜你喜欢

转载自www.cnblogs.com/wgwg/p/13380465.html