版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/DanielDingshengli/article/details/82860947
1.Numpy和Pandas
Numpy 代表 “Numeric Python”。 它是一个由多维数组对象和用于处理数组的例程集合组成的库。
Pandas是基于Numpy开发出的,专门用于数据分析的开源Python库。
2. 导入数据
csv文件内容如下:
ubantu下遇到了问题:
粗心大意思 只复制了路径,没复制文件名
X = dataset.iloc[ : , :-1].values中的iloc:,前面的表示选取的行,后面的表示列,-1是倒数第二列
3.sklearn
教程地址 http://scikit-learn.org/stable/
分类,回归,聚类,降维
常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集成分类:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
常用聚类:k均值(K-means)、层次聚类(Hierarchical clustering)、DBSCAN
常用降维:LinearDiscriminantAnalysis、PCA