- 数据导入与清理:不管导入数据的格式是什么,在正式处理数据之前,阅读、清洗、转化数据,并确保整个过程中数据的完整性,都需要耗费很多时间和精力。
- 单特征分析:有了数据,不要急着去处理数据,先逐次观察数据中的单特征(比如,某个特征的分布,平均值,方差等等)是个不错的开始。
- 特征对分析:接下来确定特征(变量)之间的关系,就要用散列图,计算相关性和线性拟合等方法。
- 多特征分析:如果通过上面分析发现,数据之间有强烈的关联性,可以借助多元回归来帮助分析。
- 预估和假设检验:
- 特征对最终结果的影响有多大?
- 如果再进行一次同样的测试,会有多少特征影响测试的结果?
- 多有大的可能性,某个明显特征的影响是由于偶然?
- 数据可视化:数据处理的各个阶段,都可以借助可视化工具的帮助。帮助我们理解数据,有助于数据的交流。
数据处理流程
猜你喜欢
转载自blog.csdn.net/illikang/article/details/82594289
今日推荐
周排行