5-机器学习-特征工程之WOE&IV编码&分箱 - 代码天地

5-机器学习-特征工程之WOE&IV编码&分箱

其他 2020-07-26 15:31:47 阅读次数: 0

IV的概念和作用

概念：
- IV的全称是Information Value，中文意思是信息价值，或者信息量。
作用：
- 我们构建分类模型时，经常需要对特征进行筛选。比如我们有200个候选特征，通常情况下，不会直接把200个特征直接放到模型中去进行训练，而是会用一些方法，从这200个特征中挑选一些出来，放进模型，形成训练集数据。那么我们怎么去挑选训练模型的特征呢？
- 挑选特征的过程是个比较复杂的过程，需要考虑的因素很多，比如：特征的预测能力，特征之间的相关性，特征在业务上的可解释性等等。但是，其中最主要和最直接的衡量标准是特征的预测能力。
  - “变量的预测能力”这个说法很笼统，在筛选变量的时候我们总不能说：“我觉得这个变量预测能力很强，所以他要进入模型”吧？我们需要一些具体的量化指标来衡量每自变量的预测能力，并根据这些量化指标的大小，来确定哪些变量进入模型。IV就是这样一种指标，他可以用来衡量自变量(特征)的预测能力。

对IV的理性理解

想要深入理解IV其核心就是要理解“用IV去衡量变量预测能力”这句话。
- 我们假设在一个分类问题中，目标变量的类别有两类：Y1，Y2。对于一个待预测的样本A，要判断A属于Y1还是Y2，我们是需要一定的信息，假设这个信息总量是I，而这些所需要的信息，就蕴含在所有的待预测样本的特征C1，C2，C3，……，Cn中，那么，对于其中的一个特征Ci来说，其蕴含的信息越多，那么它对于判断A属于Y1还是Y2的贡献就越大，Ci的信息价值就越大，Ci的IV就越大，它就越应该进入到入模变量列表中。

IV的计算

前面我们对IV进行了解释和描述，那么回到数学层面，对于一个待评估特征，他的IV值究竟如何计算呢？为了介绍IV的计算方法，我们首先需要认识和理解另一个概念——WOE，因为IV的计算是以WOE为基础的。

什么是WOE

WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始特征的一种编码形式。要对一个特征进行WOE编码，需要首先把这个变量进行分组处理（也叫离散化、分箱等等，将一个连续型变量离散化）。分组后，对于第i组，WOE的计算公式如下：

　　　　

- 其中，pyi是这个组中正例样本占整个样本中正例样本的比例，pni是这个组中负例样本占整个样本中负例样本的比例，#yi是这个组中正例样本的数量，#ni是这个组中负例样本的数量，#yT是整个样本中所有正例样本的数量，#nT是整个样本中所有负例样本的数量。

从这个公式中我们可以体会到，WOE表示的实际上是“当前分组中正例样本占所有样本中所有正例样本的比例”和“当前分组中负例样本占所有样本中所有负例样本比例”的差异。

对这个公式做一个简单变换，可以得到：

　　　　

- 变换以后我们可以看出，WOE也可以这么理解，他表示的是当前这个组中响应的客户和未响应客户的比值，和所有样本中这个比值的差异。这个差异是用这两个比值的比值，再取对数来表示的。WOE越大，这种差异越大，这个分组里的样本响应的可能性就越大（这组数据分到正例的概率越大），WOE越小，差异越小，这个分组里的样本响应的可能性就越小。
  - 对于一组样本数据，上述公式中的分母是固定的，如果分子中的yi越大，则WOE返回的数值越大

猜你喜欢

转载自www.cnblogs.com/wgwg/p/13380465.html

5-机器学习-特征工程之WOE&IV编码&分箱

DataScience：机器学习中特征工程之WOE编码—离散变量编码(有监督)

机器学习（十六）特征工程之数据分箱

机器学习D10——WOE和IV编码

ML之FE：特征工程/数据预处理之构造特征之特征分箱/数据分桶的六大方法(标准差分箱、等距分箱/分位数、卡方分箱/Best-KS分箱、有监督分箱、聚类分箱、WOE分箱/ IV分箱)及其代码实现

python自动分箱，计算woe,iv

机器学习之特征工程（一）数据分箱

机器学习特征工程之特征抽取

机器学习特征工程-特征选择之IV

特征工程-特征分箱

DataScience：机器学习中特征工程之连续型变量离散化—变量分箱的简介、常用方法、案例应用(评分卡模型为例)之详细攻略

系统学习机器学习之特征工程（四）--分箱总结

特征工程－数据分箱

特征工程之特征缩放&特征编码

机器学习特征工程之特征预处理

机器学习特征工程之-特征选择-2

WOE编码和IV信息量

特征工程之Histogram编码

机器学习特征工程之数据降维

机器学习特征工程之-数据预处理-1

数据挖掘：银行评分卡制作——数据分箱、WOE、IV的意义

【评分卡模型】特征重要度之WoE、IV、BadRate

机器学习—特征工程

机器学习特征工程

【机器学习】特征工程

机器学习--特征工程

特征工程（机器学习）

特征工程-机器学习

机器学习——特征工程

机器学习特征工程

今日推荐

周排行

Leetcode简单题61~80

解决zookeeper磁盘IO高的问题

多线程相关方法详解

Maven-setting.xml文件详解

Maven 项目的 classpath 理解

渊亭科技大数据笔试题

配置JVM内存分配

计算机网络个人学习笔记（三）网络层：第三部分连载

js中两个等号(==)和三个等号(===)的区别

用C程序自动打开电脑上的程序

每日归档

更多

2024-09-18(0)

2024-09-17(0)

2024-09-16(0)

2024-09-15(0)

2024-09-14(0)

2024-09-13(0)

2024-09-12(0)

2024-09-11(0)

2024-09-10(0)

2024-09-09(0)