数据挖掘 笔记
标签(空格分隔): 特征提取
实习期间参加了CCF大数据比赛,总结期间用到的一些数据提取想法
数据提取方法
One-hot Encoding
Alter变更有11种类型,将变更类型进行One-hot Encoding编码,再统计每个类型的总量。
时间窗口特征
统计时间区间内行为累积, 比如统计某个企业 [2, 5, 8, 13, 21, 35]个月内的变更Alter记录数目
Binning
也称为 Bucketization:对连续的特征做离散化。(以 age 这样的特征为例,你可以把所有年龄拆分成 n 段, 0-18 岁、18-40 岁、40-70 岁等,然后把个别的年龄,对应到某⼀段,假设 26 岁是对应到第⼆个 bucket,那新特征的值就是 2。) 比赛应用:对某个企业所投资机构的存活时间做Binning,然后再统计不同的存活时间里的机构数目,对应的就是统计了某企业所投资的机构中存活时间0~1年的有多少。
统计特征:
对一些特征求和, 求最大最小值等