python数据分析与挖掘实战学习笔记(一)
数据挖掘所用的python工具
Numpy,Scipy,Matplotlib,Pandas,StatsModels,Scikit-Learn,Keras,Gensim 具体用处不一一展示,下面记录各个工具库的安装配置。
如果你安装的python是Anaconda发行版,那么它已经自带了以下库Numpy,Scipy,Matplotlib,Pandas,Scikit-Learn,使用时直接导入即可。
Numpy的下载安装
在Windows中,Numpy的安装和普通的第三方库一样,可以通过pip安装
pip install numpy
在Linux下这种方法也是可行的,如在Ubuntu下可以使用’’’sudo apt-get install python-numpy
’’’ 安装
Scipy的下载安装
由于Scipy依赖于Numpy,因此安装它之前得先安装Numpy。安装scipy的方式与numpy的方法一样。
Matplotlib的下载安装
不论是数据挖掘还是数学建模,都免不了数据可视化的问题,其安装方式与前两个一样。
pip install matplotlib
在linux下也可用类似的sudo apt-get install python-matplotlib
安装
Pandas的下载安装
pandas是数据挖掘使用的主力工具。pandas的安装和上面几个一样。由于我们频繁使用到读取和写入Excel,但是默认的pandas还不能读写Excel文件,需要安装xlrd(读)和xlwt(写)库才能实现Excel的读写。方法如下
pip install xlrd
pip install xlwt
Scikit-learn的下载安装
Scikit-Learn是python下强大的机器学习包,提供了数据预处理,分类回归,聚类,预测和模型分析等工具,其安装与上面几个库的安装并无异同
pip install scikit-learn //windows下
sudo apt-get install python-scikit-learn //ubuntu下
Keras的下载安装
keras是神经网络的工具库。安装Keras之前首先需要安装numpy,SciPy和theano。安装theano先要准备一个C++编译器,这在linux下是自带的。所以在linux下安装theano和Keras是非常简单的,而且在Windows下Keras的运行速度会大打折扣。
本人在安装keras时遇到了很多问题,原因是自己的linux学的不咋地,一些基本命令不太会用,下面列出了几个链接,可以参考安装。