文章目录

特征工程简介

特征工程的重要性
特征工程是什么呢？

特征使用方案

要实现目标需要哪些数据？

基于业务理解尽可能找出对因变量影响的自变量

可用性评估

获取速度
覆盖率
准确率

特征获取方案

如何获取
如何存储

特征处理

特征清洗

清洗异常样本
采样

数据不均衡
样本权重

预处理

单个特征

归一化
离散化
Dummy Coding
缺失值
数据变换

log
指数
Box-Cox

多个特征

降维

特征选择

Filter

思路：自变量和目标变量之间的关联
相关系数
卡方检测
信息增益互信息

Wrapper

思路：通过目标函数（AUC/MSE）来决定是否加入一个变量
迭代：产生特征子集，评价

Embedded
思路：学习器自身自动选择特征
正则化

L1 Lasso
L2 Ridge

决策树嫡信息增益
深度学习

衍生变量

对原始数据加工生成有商业意义的变量

特征监控

特征有效性分析

特征的重要性，权重

特征监控

监控重要特征

防止特征质量下降，影响模型效果

特征工程简介

========================

特征工程的重要性

有这么一句话在业界广泛流传：
+  数据和特征决定了机器学习的上限
+  模型和算法只是逼近这个上限而已

========================

特征工程是什么呢？

	-  本质是一项工程活动
	-  目的是最大限度地从原始数据中提取特征以供算法和模型使用。

========================
通过总结和归纳，特征工程包括以下方面

特征使用方案

要实现目标需要哪些数据？

基于业务理解尽可能找出对因变量影响的自变量

可用性评估

获取速度

覆盖率

准确率

特征获取方案

如何获取

如何存储

特征处理

特征清洗

清洗异常样本

采样

数据不均衡

样本权重

预处理

单个特征

归一化

离散化

Dummy Coding

引入虚拟变量 的目的：
	将不能够定量处理的变量量化 标记为 0 1
		Service_Delivery_Type 
            Bring In （ 送修）
            Depot send In （寄修）
            OnSite(FRU)  （现场上门维修）
            Part Only （CRV）
            Advanced Exchange （高级交换）
		
			有五种服务类型 可以增加5个哑变量来代替SDT这个变量
			D1 D2 D3 D4 D5	 只能由一个1 其他都是0
				D1（1 = bring in / 0 = ! bring in）
				...

线性回归分析当中引入哑变量的目的：
	考察定性因素对因变量的影响

引入哑变量的方式

加法方式

哑变量作为单独的自变量
有独立的系数
几何意义：
	只改变回归直线的截距(constant)
	不改变斜率(B)

乘法方式

不是作为一个单独的自变量
而是与其中某一个自变量相乘后作为一个自变量
几何意义：
	不改变截距
	只改变斜率

缺失值

数据变换

log

指数

Box-Cox

多个特征

降维

PCA

LDA

特征选择

Filter

思路：自变量和目标变量之间的关联

卡方检测

信息增益互信息

Wrapper

思路：通过目标函数（AUC/MSE）来决定是否加入一个变量

迭代：产生特征子集，评价

####### 完全搜索
####### 启发式搜索
####### 随机搜索
######## GA
######## SA

PQ特征工程开荒

文章目录

特征工程简介

特征工程的重要性

特征工程是什么呢？

特征使用方案

要实现目标需要哪些数据？

基于业务理解 尽可能找出对因变量影响的自变量

可用性评估

获取速度

覆盖率

准确率

特征获取方案

如何获取

如何存储

特征处理

特征清洗

清洗异常样本

采样

数据不均衡

样本权重

预处理

单个特征

归一化

离散化

Dummy Coding

缺失值

数据变换

log

指数

Box-Cox

多个特征

降维

PCA

LDA

特征选择

Filter

思路：自变量和目标变量之间的关联

相关系数

卡方检测

信息增益 互信息

Wrapper

思路：通过目标函数（AUC/MSE）来决定是否加入一个变量

迭代：产生特征子集，评价

Embedded

思路：学习器自身自动选择特征

正则化

L1 Lasso

L2 Ridge

决策树 嫡 信息增益

深度学习

衍生变量

对原始数据加工 生成有商业意义的变量

特征监控

特征有效性分析

特征的重要性，权重

特征监控

监控重要特征

防止特征质量下降，影响模型效果

猜你喜欢

基于业务理解尽可能找出对因变量影响的自变量

信息增益互信息

决策树嫡信息增益

对原始数据加工生成有商业意义的变量