Day2_k邻近算法_深入学习

k邻近算法(KNN)

思想:在训练集中选取离输入的数据点最近的k个邻居,根据这个k个邻居中出现次数最多的类别(最大表决规则),作为该数据点的类别。

算法描述

在这里插入图片描述

分类决策规则

在这里插入图片描述

存在问题

在这里插入图片描述

代码实现

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn

mglearn.plots.plot_knn_classification(n_neighbors=1)
plt.show()

mglearn.plots.plot_knn_classification(n_neighbors=3)
plt.show()

在这里插入图片描述
n_neighbors=9
在这里插入图片描述

有上面的测试结果显示n_neighbors取1的时候与取3,9的结果是不一样的。所以选好K的值非常重要

fig, axes = plt.subplots(1, 3, figsize=(10, 3))
for n_neighbors, ax in zip([1, 3, 9], axes): 
	# fit方法返回对象本身,所以我们可以将实例化和拟合放在一行代码中    
	clf = KNeighborsClassifier(n_neighbors=n_neighbors).fit(X, y)   		       mglearn.plots.plot_2d_separator(clf, X, fill=True, eps=0.5, ax=ax, alpha=.4)
	mglearn.discrete_scatter(X[:, 0], X[:, 1], y, ax=ax) 
	ax.set_title("{} neighbor(s)".format(n_neighbors))
	ax.set_xlabel("feature 0")
	ax.set_ylabel("feature 1")
plt.show()
axes[0].legend(loc=3)

在这里插入图片描述

#####################################
# 对的乳腺癌数据集上进行研究__KNN算法  #
#####################################

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, stratify=cancer.target, random_state=66)

training_accuracy = []
test_accuracy = []
# n_neighbors取值从1到10
neighbors_settings = range(1, 11)

for n_neighbors in neighbors_settings:
    # 构建模型
    clf = KNeighborsClassifier(n_neighbors=n_neighbors)
    clf.fit(X_train, y_train)
    # 记录训练集精度
    training_accuracy.append(clf.score(X_train, y_train))
    # 记录泛化精度
    test_accuracy.append(clf.score(X_test, y_test))
plt.plot(neighbors_settings, training_accuracy, label="training accuracy")
plt.plot(neighbors_settings, test_accuracy, label="test accuracy")
plt.ylabel("Accuracy")
plt.xlabel("n_neighbors")
plt.legend()
plt.show()

在这里插入图片描述

##############################
#     K 近邻回归              #
##############################
# K近邻算法还可以用于回归。我们还是先从单一近邻开始,这
# 次使用 wave数据集。我们添加了 3 个测试数据点,在 x
# 轴上用绿色五角星表示。利用单一邻居的预测结果就是最近邻
# 的目标值。

mglearn.plots.plot_knn_regression(n_neighbors=1)
plt.show()
# 在使用多个近邻时,预测结果为这些邻居的平均值 
mglearn.plots.plot_knn_regression(n_neighbors=3)
plt.show()

在这里插入图片描述

在这里插入图片描述

########################################
#   分析KNeighborsRegressor            #
#######################################
fig, axes = plt.subplots(1, 3, figsize=(15, 4))
# 创建1000个数据点,在-3和3之间均匀分布
line = np.linspace(-3, 3, 1000).reshape(-1, 1)
for n_neighbors, ax in zip([1, 3, 9], axes):
    """
    zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,
    然后返回由这些元组组成的对象,这样做的好处是节约了不少的内存。我们可以使
    用list() 转换来输出列表。
    eg: print(list(zip([1,3,9],[2,3,4])))
    ##  [(1, 2), (3, 3), (9, 4)]
    """

    # 利用1个、3个或9个邻居分别进行预测
    reg = KNeighborsRegressor(n_neighbors=n_neighbors)
    reg.fit(X_train, y_train)
    ax.plot(line, reg.predict(line))
    ax.plot(X_train, y_train, '^', c=mglearn.cm2(0), markersize=8)
    ax.plot(X_test, y_test, 'v', c=mglearn.cm2(1), markersize=8)
    ax.set_title(
        "{} neighbor(s)\n train score: {:.2f} test score: {:.2f}".format(
            n_neighbors, reg.score(X_train, y_train),
            reg.score(X_test, y_test)))
    ax.set_xlabel("Feature")
    ax.set_ylabel("Target")
axes[0].legend(["Model predictions", "Training data/target",
                "Test data/target"], loc="best")
plt.show()

在这里插入图片描述

从图中可以看出,仅使用单一邻居,训练集中的每个点都对预测结果有显著影响,预测结果的图像经过所有数据点。这导致预测结果非常不稳定。考虑更多的邻居之后,预测结果变得更加平滑,但对训练数据的拟合也不好。

引用

[1] Michael Steinbach and Pang-Ning Tan, The Top Ten Algorithms in Data Mining.
[2]《统计学习方法》.李航
[3] http://www.cnblogs.com/en-heng/
[4] 《Python机器学习基础教程》 人 民 邮 电 出 版 社

发布了20 篇原创文章 · 获赞 6 · 访问量 875

猜你喜欢

转载自blog.csdn.net/qq_43605381/article/details/104301325