坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
确实在实践过程中,数据处理和特征选择占据了整个项目大部分的时间,模型和算法就那么几个,训练的时候往上套就行。
比如说Kaggle的入门比赛Titanic问题,要求对各种特征及其间关系有深刻的理解,合理的处理数据,模型预测效果才够好。xgboost是个非常强大的工具,但我简单的特征工程之后xgboost预测的效果还没有只用性别特征做预测的效果好,这说明我的特种工程不够好,考虑的不够多。
正好手头有一本 Feature Engineering for Machine Learning ,我希望能迅速过一遍这本书以加深我对特征工程的理解。当然,进步最快的方式还是hands on,亲手做项目。所以在学习书上内容的同时我也要继续打Kaggle锻炼自己。
With no further ado, let's get started!
特别强调的是,做特征工程也很看重领域知识,但是有些实践手段是通用而且有效
通过本书,我们将学习到
- 到底什么是特征工程,为什么特种工程很重要,怎么做好特种工程
- 探索特征缩放, bin counting,frequent sequence mining等技巧
- 理解无监督特征学习及其在深度学习中的应用机制
- 文本挖掘,图片标记,客户流失预测,目标广告投放实战
希望能够坚持下来。