SVM线性分类鸢尾花

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets

iris = datasets.load_iris()

X = iris.data
y = iris.target
#只考虑二分类问题，且取前两个特征
X = X[y<2, :2]
y = y[y<2]

#可视化
plt.scatter(X[y == 0, 0], X[y == 0, 1], color = "red", marker = "o")
plt.scatter(X[y == 1, 0], X[y == 1, 1], color = "green", marker = "+")
plt.xlabel('speal length', fontsize=20)
plt.ylabel('speal width', fontsize=20)
plt.title('Iris names', fontsize=30)
plt.show()

在这里插入图片描述

#数据标准化
from sklearn.preprocessing import StandardScaler

std_scaler = StandardScaler()
std_scaler.fit(X)
X_std = std_scaler.transform(X)

#线性SVM
#C非常大，容错空间很小，所以是hard margin SVM
from sklearn.svm import LinearSVC  # support vector classifier

svc = LinearSVC(C=1e9)
svc.fit(X_std, y)

LinearSVC(C=1000000000.0, class_weight=None, dual=True, fit_intercept=True,
intercept_scaling=1, loss=‘squared_hinge’, max_iter=1000,
multi_class=‘ovr’, penalty=‘l2’, random_state=None, tol=0.0001,
verbose=0)

# 绘图
def plot_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1)
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]
    
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#A0A0FF', '#FFFFFF', '#FFA0A0'])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)

plot_decision_boundary(svc, axis=[-3, 3, -3, 3])
plt.scatter(X_std[y==0, 0], X_std[y==0, 1],color='blue')
plt.scatter(X_std[y==1, 0], X_std[y==1, 1], color='red')
plt.show()

在这里插入图片描述

svc2 = LinearSVC(C=0.01)
svc2.fit(X_std, y)

LinearSVC(C=0.01, class_weight=None, dual=True, fit_intercept=True,
intercept_scaling=1, loss=‘squared_hinge’, max_iter=1000,
multi_class=‘ovr’, penalty=‘l2’, random_state=None, tol=0.0001,
verbose=0)

plot_decision_boundary(svc2, axis=[-3, 3, -3, 3])
plt.scatter(X_std[y==0, 0], X_std[y==0, 1],color='blue')
plt.scatter(X_std[y==1, 0], X_std[y==1, 1], color='red')
plt.show()

在这里插入图片描述

可以看到，其中一个蓝色的点被错误分类了，这是将C取得小的结果

svc.coef_

array([[ 4.03240796, -2.50701198]])

数据集的特征有两个，每一个特征都对应着一个系数

返回值是二维数组，因为sklearn中封装的SVM算法可以直接处理多分类问题，如果有多个直线分割，每一根直线都有相应的系数

# 截距
svc.intercept_

array([0.92734283])

有了这两个参数以后，就可以绘制margin对应的上下两根线

# 绘图
def plot_svc_decision_boundary(model, axis):
    x0, x1 = np.meshgrid(
        np.linspace(axis[0], axis[1], int((axis[1]-axis[0])*100)).reshape(-1, 1),
        np.linspace(axis[2], axis[3], int((axis[3]-axis[2])*100)).reshape(-1, 1)
    )
    X_new = np.c_[x0.ravel(), x1.ravel()]
    
    y_predict = model.predict(X_new)
    zz = y_predict.reshape(x0.shape)
    
    from matplotlib.colors import ListedColormap
    custom_cmap = ListedColormap(['#A0A0FF', '#FFFFFF', '#FFA0A0'])
    
    plt.contourf(x0, x1, zz, linewidth=5, cmap=custom_cmap)
    
    w = model.coef_[0]  #因为返回值是一个二维数组，取出第0个元素
    b = model.intercept_[0]
    
    # 决策边界的方程 w0 * x0 + w1 * x1 + b = 0
    #         -----> x1 = -w0/w1 * x0 -b/w1
    # 因为绘图的纵坐标的横轴是x0， 纵轴是x1，这样的表达式可以由x0求出直线的纵坐标
    plot_x = np.linspace(axis[0], axis[1], 200)
    # 上面的那根直线方程是w0 * x0 + w1 * x1 + b = 1， 所以纵轴坐标为x1 = 1/w1 -w0/w1 * x0 -b/w1
    up_y = 1/w[1] -w[0]/w[1] * plot_x -b/w[1]
    # 下面的那根直线方程是w0 * x0 + w1 * x1 + b = -1， 所以纵轴坐标为x1 = -1/w1 -w0/w1 * x0 -b/w1
    down_y = -1/w[1] -w[0]/w[1] * plot_x -b/w[1]
    
    #为了不让up_y和down_y超出axis的范围，这里做一下过滤，  得到一个布尔数，以该数组作为下标索引，得到plot_x, up_y, down_y中的一个子集
    up_index = (up_y >= axis[2]) & (up_y <= axis[3])  
    down_index = (down_y >= axis[2]) & (down_y <= axis[3])
    
    #绘制
    plt.plot(plot_x[up_index], up_y[up_index], color='black')
    plt.plot(plot_x[down_index], down_y[down_index], color='black')

plot_svc_decision_boundary(svc, axis=[-3, 3, -3, 3])
plt.scatter(X_std[y==0, 0], X_std[y==0, 1],color='blue')
plt.scatter(X_std[y==1, 0], X_std[y==1, 1], color='red')
plt.show()

在这里插入图片描述

plot_svc_decision_boundary(svc2, axis=[-3, 3, -3, 3])
plt.scatter(X_std[y==0, 0], X_std[y==0, 1],color='blue')
plt.scatter(X_std[y==1, 0], X_std[y==1, 1], color='red')
plt.show()

在这里插入图片描述

SVM线性分类鸢尾花

可以看到，其中一个蓝色的点被错误分类了，这是将C取得小的结果

数据集的特征有两个，每一个特征都对应着一个系数

返回值是二维数组，因为sklearn中封装的SVM算法可以直接处理多分类问题，如果有多个直线分割，每一根直线都有相应的系数

有了这两个参数以后，就可以绘制margin对应的上下两根线

猜你喜欢