特征工程简介
========================
特征工程的重要性
有这么一句话在业界广泛流传:
+ 数据和特征决定了机器学习的上限
+ 模型和算法只是逼近这个上限而已
========================
特征工程是什么呢?
- 本质是一项工程活动
- 目的是最大限度地从原始数据中提取特征以供算法和模型使用。
========================
通过总结和归纳,特征工程包括以下方面
特征使用方案
要实现目标需要哪些数据?
基于业务理解 尽可能找出对因变量影响的自变量
可用性评估
获取速度
覆盖率
准确率
特征获取方案
如何获取
如何存储
特征处理
特征清洗
清洗异常样本
采样
数据不均衡
样本权重
预处理
单个特征
归一化
离散化
Dummy Coding
引入虚拟变量 的目的:
将不能够定量处理的变量量化 标记为 0 1
Service_Delivery_Type
Bring In ( 送修)
Depot send In (寄修)
OnSite(FRU) (现场上门维修)
Part Only (CRV)
Advanced Exchange (高级交换)
有五种服务类型 可以增加5个哑变量来代替SDT这个变量
D1 D2 D3 D4 D5 只能由一个1 其他都是0
D1(1 = bring in / 0 = ! bring in)
...
线性回归分析当中引入哑变量的目的:
考察定性因素对因变量的影响
引入哑变量的方式
- 加法方式
哑变量作为单独的自变量
有独立的系数
几何意义:
只改变回归直线的截距(constant)
不改变斜率(B)
- 乘法方式
不是作为一个单独的自变量
而是与其中某一个自变量相乘后作为一个自变量
几何意义:
不改变截距
只改变斜率
缺失值
数据变换
log
指数
Box-Cox
多个特征
降维
PCA
LDA
特征选择
Filter
思路:自变量和目标变量之间的关联
相关系数
卡方检测
信息增益 互信息
Wrapper
思路:通过目标函数(AUC/MSE)来决定是否加入一个变量
迭代:产生特征子集,评价
####### 完全搜索
####### 启发式搜索
####### 随机搜索
######## GA
######## SA