以KNN为例用sklearn进行数据分析和预测

准备

相关的库

相关的库包括:

  • numpy
  • pandas
  • sklearn

带入代码如下:

import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassfier as KNN

数据准备

数据是sklearn的乳腺癌数据。

from skleanr.datasets import load_breast_cancer
data=load_breast_caner()

data主要分为两部分:datatarget,把这两部分,设置变量导入DataFrame中可查看基本形状。

X = data.data
y = data.target

sklearn的数据其形式比较固定,data的主要属性有:

  • data。数据,即变量的值,多行多列
  • target。目标,即因变量的值,一般是一行
  • DESCR。描述,可打印出,描述变量、目标
  • features_names 。X的列名
  • target_names。Y的列名
  • filename。数据文件所在位置(一般在\lib\site-packages\sklearn\datasets\data\目录下)

分数据集和测试集:

from sklearn.model_selection import train_test_split
Xtrain,Xtest,Ytrain,Ytest=train_test_split(X, y, test_size=0.3)

注意:

  • 0.3是指30%数据作为测试。每次运行不同,可通过random_state控制
  • 返回的结果固定,不可错

建立模型

clf = KNN(n_neighbors = 5)
clf=clf.fit(Xtrain,Ytrain)

clf就是训练好的模型,可调用接口查看进行预测和评分。常用是predictscorekneighbors。三者分别用来预测、评分、求最近邻。

猜你喜欢

转载自www.cnblogs.com/heenhui2016/p/10986745.html
今日推荐