简介
本次比赛排名为:4/299 (因为纯英文答辩和提交,所以参加人较少)
队伍名:没事有我在
开源github:https://github.com/isthegoal/ANZ_Chengdu_rank4_solution
方案
github中有详细方案ppt,这里列举一下思路。
1.数据分析
*分析每个特征的分布情况,可找到的数据分布特点。
*分析特征和目标特征的相关情况,对构建特征的指导意义。
*缺失特征情况展示。
*PCA降维分析图
2.数据预处理
*重要且缺失少的特征的补全
*类型转编码
3.特征工程
*构建分箱离散化特征
*构建交叉特征
*构建排序特征
*使用贪心+模型法进行特征筛选
*使用贪心+皮尔顿相关系数去除高相关性特征
4.模型融合
*lgb模型
*xgb模型
*GBDT模型
*NN+GBDT模型
*GBDT+LR模型
*五种模型的加权融合