任务概要:
根据提供的训练集文件(train.csv),通过机器学习相关知识预测出测试集(test.csv)文件的目标值(一个回归任务,一个分类任务),其中数据说明文件说明了每个特征的意义。
消盲:
- numpy、pandas:数据处理、矩阵。
- matplotlib:是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。(数据可视化)
- jupyter notebook:是一个开源的交互式 web 工具,可以实现将代码、文字完美结合起来,它的受众群体大多数是一些从事数据科学领域相关(机器学习、数据分析等)的人员。 Jupyter Notebook 之所以这么流行,主要还是它的演示和可视化,我们可以查看每一段代码的输出与运行效果。这种可视化对于数据科学和机器学习研究而言非常重要,因为我们需要当前的模型特性做决策。
大致实现流程:
探索性数据分析——特征工程——建模调参——(模型融合)
心态与方式:
- 首先还是要好好努力学习,虽然自己是小白,但一定要投入到过程中。(先做好自己)
- 有了一些基础后,边学边做(因为相关知识较多,需要选择性),印象深刻且有实效。
- 善于思考,理解原理!!
- 和数学做朋友,耐心耐心…
- 这次来看,应该以看书为主(知识有一定难度且具有专业性)