准备
相关的库
相关的库包括:
- numpy
- pandas
- sklearn
带入代码如下:
import pandas as pd
import numpy as np
from sklearn.neighbors import KNeighborsClassfier as KNN
数据准备
数据是sklearn的乳腺癌数据。
from skleanr.datasets import load_breast_cancer
data=load_breast_caner()
data主要分为两部分:data
和target
,把这两部分,设置变量导入DataFrame
中可查看基本形状。
X = data.data
y = data.target
sklearn
的数据其形式比较固定,data
的主要属性有:
data
。数据,即变量的值,多行多列target
。目标,即因变量的值,一般是一行DESCR
。描述,可打印出,描述变量、目标features_names
。X的列名target_names
。Y的列名filename
。数据文件所在位置(一般在\lib\site-packages\sklearn\datasets\data\
目录下)
分数据集和测试集:
from sklearn.model_selection import train_test_split
Xtrain,Xtest,Ytrain,Ytest=train_test_split(X, y, test_size=0.3)
注意:
- 0.3是指30%数据作为测试。每次运行不同,可通过
random_state
控制 - 返回的结果固定,不可错
建立模型
clf = KNN(n_neighbors = 5)
clf=clf.fit(Xtrain,Ytrain)
clf就是训练好的模型,可调用接口查看进行预测和评分。常用是predict
、score
和kneighbors
。三者分别用来预测、评分、求最近邻。