主成分分析PCA 与梯度上升法

什么是PCA

主成分分析，就是找出数据里最主要的方面，用数据里最主要的方面来代替原始数据。在数据压缩消除冗余和数据噪音消除领域都有广泛应用。
具体的，假如我们的数据集是n维的，共有m个数据(x(1),x(2),…,x(m))。我们希望将这m个数据的维度从n维降到n’维，希望这m个n’维的数据集尽可能的代表原始数据集。我们知道数据从n维降到n’维肯定会有损失，但是我们希望损失尽可能的小。那么如何让这n’维的数据尽可能表示原来的数据呢？
我们先看看最简单的情况，也就是n=2，n’=1,也就是将数据从二维降维到一维。数据如下图。我们希望找到某一个维度方向，它可以代表这两个维度的数据。图中列了两个向量方向，u1和u2，那么哪个向量可以更好的代表原始数据集呢？从直观上也可以看出，u1比u2好。
在这里插入图片描述
为什么u1比u2好呢？可以有两种解释，第一种解释是样本点到这个直线的距离足够近，第二种解释是样本点在这个直线上的投影能尽可能的分开。
假如我们把n’从1维推广到任意维，则我们的希望降维的标准为：样本点到这个超平面的距离足够近,或者说样本点在这个超平面上的投影能尽可能的分开。
基于上面的两种标准，我们可以得到PCA的两种等价推导。
更多推导过程可以参见：https://www.cnblogs.com/pinard/p/6239403.html
下面这篇文章讲得也非常详细：
https://blog.csdn.net/zhongkelee/article/details/44064401

使用梯度上升法求解PCA问题

目标函数及其梯度：
在这里插入图片描述

求数据的主成分PCA

import numpy as np

def demean(X):
    return X - np.mean(X, axis=0)

def f(w, X):
    '''目标函数，求该函数最大值'''
    return np.sum((X.dot(w) ** 2)) / len(X)
    
def df_math(w, X):
    '''求解梯度方法1'''
    return X.T.dot(X.dot(w)) * 2. / len(X)

def df_debug(w, X, epsilon=0.0001):
    '''求解梯度方法2'''
    res = np.empty(len(w))
    for i in range(len(w)):
        w_1 = w.copy()
        w_1[i] += epsilon
        w_2 = w.copy()
        w_2[i] -= epsilon
        res[i] = (f(w_1, X) - f(w_2, X)) / (2 * epsilon)
    return res

def direction(w):
    '''化为单位向量'''
    return w / np.linalg.norm(w)

def gradient_ascent(df, X, initial_w, eta, n_iters=1e4, epsilon=1e-8):
    w = direction(initial_w)  # 注意1：初始向量不能使用0向量
    cur_iter = 0
    while cur_iter < n_iters:
        gradient = df(w, X)
        last_w = w
        w = w + eta * gradient
        w = direction(w)  # 注意2：每次求一个单位方向
        if(abs(f(w, X) - f(last_w, X)) < epsilon):
            break
        cur_iter += 1
    return w

X = np.empty((100, 2))
X[:, 0] = np.random.uniform(0., 100., size=100)
X[:, 1] = 0.75 * X[:, 0] + 3. + np.random.normal(0, 10., size=100)


X_demean = demean(X)
print(np.mean(X_demean[:, 1]))

initial_w = np.random.random(X.shape[1])
eta = 0.001

ga1 = gradient_ascent(df_math, X_demean, initial_w, eta)
print(ga1)

ga2 = gradient_ascent(df_debug, X_demean, initial_w, eta)
print(ga2)

求数据的前n个主成分

Q：求出第一主成分后，如何求出下一个主成分？
A：将数据进行改变，即将数据在第一主成分的分量去掉，然后在新的数据上求第一主成分即可求出下一主成分。

def first_n_component(n,X,eta=0.01,n_iters= 1e4,epsilon=1e8):
  X_pca = X.copy()
  X_pca = demean(X_pca)
  res = []
  for i in range(n):
    initial_w = np.random.random(X_pca.shape[1])
    w = first_component(X_pca,initial_w,eta)  #first_component与上面的gradient_ascent相同
    res.append(w)

    X_pca = X_pca - X_pca.dot(w).reshape(-1,1) * w
  return res

高维数据向低维数据映射

将高维数据中表示数据的向量与计算得到的主成分向量相乘，可以得到该数据在该主成分上的表示；同理可以得到在其他主成分上的表示。最终高维数据向低维数据映射变成数据矩阵与前k个主成分组成的矩阵的转置相乘。
PCA数据降维方法封装如下：

import numpy as np


class PCA:
    def __init__(self, n_components):
        '''初始化PCA'''
        assert n_components >= 1, 'n_components must be valid'
        self.n_components = n_components
        self.components_ = None

    def fit(self, X, eta=0.01, n_iters=1e4):
        '''获得数据集X的前n个主成分'''
        assert X.shape[1] >= self.n_components, 'n_components must smaller than the feature of X'

        def demean(X):
            return X - np.mean(X, axis=0)

        def f(w, X):
            '''目标函数，求该函数最大值'''
            return np.sum((X.dot(w) ** 2)) / len(X)

        def df(w, X):
            '''求解梯度'''
            return X.T.dot(X.dot(w)) * 2. / len(X)

        def direction(w):
            return w / np.linalg.norm(w)

        def first_component(X, initial_w, eta, n_iters=1e4, epsilon=1e-8):
            w = direction(initial_w)  # 注意2：初始向量不能使用0向量
            cur_iter = 0
            while cur_iter < n_iters:
                gradient = df(w, X)
                last_w = w
                w = w + eta * gradient
                w = direction(w)  # 注意1：每次求一个单位方向
                if(abs(f(w, X) - f(last_w, X)) < epsilon):
                    break
                cur_iter += 1
            return w

        X_pca = demean(X)
        self.components_ = np.empty(shape=(self.n_components, X.shape[1]))
        for i in range(self.n_components):
            initial_w = np.random.random(X_pca.shape[1])
            w = first_component(X_pca, initial_w, eta, n_iters)
            self.components_[i, :] = w
            X_pca = X_pca - X_pca.dot(w).reshape(-1, 1) * w

        return self

    def transform(self, X):
        '''将数据集X映射到PCA中得到的主成分中，实现数据降维'''
        assert X.shape[1] == self.components_.shape[1], 'the feature number of X must equal to the feature number of self.components_'

        return X.dot(self.components_.T)

    def inverse_transform(self, X):
        '''对于给定的数据集X，反向映射回原来的高维特征空间'''
        assert X.shape[1] == self.components_.shape[0]
        return X.dot(self.components_)

    def __repr__(self):
        return 'PCA(n_components=%d)' % self.n_components


# 模拟数据集
X = np.empty((100, 2))
X[:, 0] = np.random.uniform(0., 100., size=100)
X[:, 1] = 0.75 * X[:, 0] + 3. + np.random.normal(0, 10., size=100)

# 测试
pca = PCA(n_components=1)
pca.fit(X)
X_reduction = pca.transform(X)
print(pca.components_)
print(X_reduction.shape)
X_restore = pca.inverse_transform(X_reduction)
print(X_restore.shape)

scikit-learn中的PCA

对数据进行降维后，可能会丢失一定的信息，但是可以换取运行时间。

import numpy as np
from sklearn.decomposition import PCA
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

# 导入数据集
digits = datasets.load_digits()
X = digits.data
y = digits.target

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state = 666)


# 用PCA对数据进行降维
pca = PCA(0.95)  #也可以指定识别率，自动确定降维后的维数
pca.fit(X_train)
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)
print(pca.explained_variance_ratio_)

# 将降维后的数据用kNN进行分析
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train_reduction,y_train)
score = knn_clf.score(X_test_reduction,y_test)
print(score)

试手MNIST数据集

PCA除对数据进行降维外，还对数据进行降噪，因此在对MNIST数据集进行PCA处理后，再使用kNN进行预测，不仅能节省计算时间，还能提高识别准确度。

import numpy as np 
from sklearn.decomposition import PCA
from sklearn.datasets import fetch_mldata
from sklearn.neighbors import KNeighborsClassifier

mnist = fetch_mldata('MNIST original',data_home='./')
X,y = mnist['data'],mnist['target']
X_train = np.array(X[:60000],dtype=float)
y_train = np.array(y[:60000],dtype=float)
X_test = np.array(X[60000:],dtype=float)
y_test = np.array(y[60000:],dtype=float)

# 用PCA对数据进行降维
pca = PCA(100)  #也可以指定识别率，自动确定降维后的维数
pca.fit(X_train)
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)


# 将降维后的数据用kNN进行分析
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train_reduction,y_train)
score = knn_clf.score(X_test_reduction,y_test)
print(score)

使用PCA对数据进行降噪

将数据从高维降到低维的过程中，丢失了一些信息，因此也丢失了一些噪音，所以PCA对数据具有降噪作用。

人脸识别与特征脸

from sklearn.datasets import fetch_lfw_people

上面的数据为人脸数据，特征脸即为降维后新的特征。