数据挖掘简介
数据挖掘过程:
定义目标
获取数据(爬虫、统计网站)
数据探索
数据预处理(数据清洗、数据集成、数据变换、数据规约(精简))
挖掘建模(分类、聚类、关联、预测)
模型评价与发布
相关准备
numpy 可以高效处理数据、提供数组支持、模块依赖,如pandas、scipy、matplotlib,所以这是基础模块
pandas 主要用于进行数据探索和数据分析
matplotlib 作图模块,解决可视化问题
scipy 主要进行数值计算,同时支持矩阵运算,提供和很多高等数据处理功能,如积分、傅里叶变换、微分方程求解
扫描二维码关注公众号,回复:
20029 查看本文章
statsmodels 主要用于统计分析
Gensim 主要用于文本挖掘
sklearn、keras 前者机器学习,后者深度学习