机器学习实战及Python实现——奇异值分解（SVD）实现简单推荐系统

本篇讲数据降维的另一种更普遍的算法——奇异值分解，主要内容包括数学原理，计算步骤，优缺点，应用场景、Python推荐示例等内容。

1、数学原理

奇异值分解（Singular Value Decomposition，SVD）是一种重要的矩阵分解。与之相对的是特征值分解（主成分分析主要使用方法），但特征值分解是针对的是方阵，但在实际应用场景中，我们经常遇到的矩阵都不是方阵，比如N个学生，每个学生的M科成绩，其中N≠M，这就组成N*M的非方阵矩阵。

对于一般普通的矩阵（包括方阵矩阵），如何来描述其重要特征？奇异值分解就是来做这些事情的。其中的矩阵分解公式为：

假设A是一个M* N的矩阵，那么通过矩阵分解将会得到U，Σ，V’（V的转置）三个矩阵，其中U是一个M * M的方阵，被称为左奇异向量，方阵里面的向量是正交的；Σ是一个M* N的对角矩阵，除了对角线的元素其他都是0，对角线上的值称为奇异值；V’(V的转置)是一个N * N的矩阵，被称为右奇异向量，方阵里面的向量也都是正交的。用图形展示如下图：

2、计算步骤

该矩阵是如何分解的？奇异值和特征值是如何计算的？

（1）将矩阵A的转置 * A，将会得到一个方阵，将方阵进行特征值分解：

其中得到的v，就是右奇异向量。

（2）通过方阵还可以求解σ和u：

σ是上文提到的奇异值，u是上文提到的左奇异向量。其中奇异值σ跟特征值很类似，在矩阵Σ中也是从大到小排列，而且σ的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前r大的奇异值来近似描述矩阵，其中r<<n，这里定义一下部分奇异值分解：

（3）选择适当的r，其中r是一个远小于m、n的数，这样可将原矩阵分解为：

其中，右边的三个矩阵相乘的结果将会是一个接近于A的矩阵，而r越接近n，其相乘结果越接近A。根据储存原理，储存量与矩阵面积正相关，因此面积越小占用的储存空间越小。而三个矩阵的面积之和要远小于原矩阵。因此如果要储存A的信息，只需要储存U、Σ、V就可以，因此信息得到压缩。

3、优缺点

奇异值分解的优点是：可以简化数据，压缩维度，去除数据噪音，提升算法的结果，加快模型计算性能，可以针对任一普通矩阵进行分解（包括样本数小于特征数），不受限于方阵。

奇异值分解的缺点是：转换后的数据比较难理解，如何与具体业务知识对应起来是难点。

4、应用场景

奇异值分解应用场景一：隐性语义索引（Latent Semantic Indexing，LSI）

矩阵是有文档（M行）和词语（N列）组成，通过奇异值分解，可以分析出那些文档或词语属于同一主题或概念，可应用于更高效的文档检索

奇异值分解应用场景二：推荐系统

通过奇异值分解，可以计算项与人之间的相似度，而进行协同过滤，向用户推荐相关产品。

5、数据背景

（1）样本数据

本次样本数据是11*11，其中行表示用户，列表示食品，中间数字表示该用户对食品的打分。如果数字为0，表示该用户没有吃过该食品。本次模型的目的就是向用户推荐未吃过的食品。

（2）推荐思路

首先，寻找用户未评价的食品，即用户-矩阵中的0值；

再次，对用户未打分的食品，通过相似度计算预计其可能会打多少分数；

最后，对这些打分的食品根据评分从高到低进行排序，返回前N个食品，这就是推荐结果。

（3）相似度计算

如何来衡量两个物品之间的相似情况，一般有以下三种方法

第一种是：欧氏距离

示例：

为将距离映射到【0,1】中，相似度=1/(1+欧氏距离)

第二种是：皮尔森相关系数

示例：

皮尔森系数在【-1,1】之间，为映射到【0,1】之间，相似度=0.5+0.5*corroef

第三种是：余弦夹角

余弦夹角在【-1,1】之间，为映射到【0,1】之间，相似度=0.5+0.5*cos

6、具体Python实现

from numpy import *
from numpy import linalg as la
def eulidSim(inA,inB):
return 1.0/(1.0+la.norm(inA,inB))
def pearsSim(inA,inB):
if len(inA<3):return 1.0
return 0.5+0.5*corrcoef(inA,inB,rowvar=0)[0][1]
def cosSim(inA,inB):
num=float(inA.T*inB)
denom=la.norm(inA)*la.norm(inB)
return 0.5+0.5*(num/denom)

 
  from numpy import *  
from numpy import linalg as la  
  
def loadExData():  
  return[[1, 1, 1, 0, 0],  
    [2, 2, 2, 0, 0],  
    [1, 1, 1, 0, 0],  
    [5, 5, 5, 0, 0],  
    [1, 1, 0, 2, 2],  
    [0, 0, 0, 3, 3],  
    [0, 0, 0, 1, 1]]  
      
def loadExData2():  
    return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],  
           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],  
           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],  
           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],  
           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],  
           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],  
           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],  
           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],  
           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],  
           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],  
           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]  
      
def ecludSim(inA,inB):  
    return 1.0/(1.0 + la.norm(inA - inB))  
  
def pearsSim(inA,inB):  
    if len(inA) < 3 : return 1.0  
    return 0.5+0.5*corrcoef(inA, inB, rowvar = 0)[0][1]  
  
def cosSim(inA,inB):  
    num = float(inA.T*inB)  
    denom = la.norm(inA)*la.norm(inB)  
    return 0.5+0.5*(num/denom)  
  
  
#计算在给定相似度计算方法的条件下，用户对物品的估计评分值  
#standEst()函数中：参数dataMat表示数据矩阵，user表示用户编号，simMeas表示相似度计算方法，item表示物品编号  
def standEst(dataMat,user,simMeas,item):  
    n=shape(dataMat)[1] #shape用于求矩阵的行列  
    simTotal=0.0; ratSimTotal=0.0  
    for j in range(n):  
        userRating=dataMat[user,j]  
        if userRating==0:continue #若某个物品评分值为0，表示用户未对物品评分，则跳过，继续遍历下一个物品  
        #寻找两个用户都评分的物品  
        overLap=nonzero(logical_and(dataMat[:,item].A>0,dataMat[:,j].A>0))[0]  
  
        if len(overLap)==0:similarity=0  
        else: similarity=simMeas(dataMat[overLap,item],dataMat[overLap,j])  
  
        #print'the %d and%d similarity is: %f' %(item,j,similarity)  
        simTotal+=similarity  
        ratSimTotal+=similarity*userRating  
    if simTotal==0: return 0  
    else: return ratSimTotal/simTotal  
  
def recommend(dataMat,user,N=3,simMeas=cosSim,estMethod=standEst):  
    #寻找未评级的物品  
    unratedItems=nonzero(dataMat[user,:].A==0)[1]  
    if len(unratedItems)==0: return 'you rated everything'  
    itemScores=[]  
    for item in unratedItems:  
        estimatedScore=estMethod(dataMat,user,simMeas,item) #对每一个未评分物品，调用standEst()来产生该物品的预测得分  
        itemScores.append((item,estimatedScore)) #该物品的编号和估计得分值放入一个元素列表itemScores中  
    #对itemScores进行从大到小排序，返回前N个未评分物品  
    return sorted(itemScores,key=lambda jj:jj[1],reverse=True)[:N]  
  
def svdEst(dataMat, user, simMeas, item):  
    n = shape(dataMat)[1]  
    simTotal = 0.0; ratSimTotal = 0.0  
    U,Sigma,VT = la.svd(dataMat)  
    Sig4 = mat(eye(4)*Sigma[:4]) #arrange Sig4 into a diagonal matrix  
    xformedItems = dataMat.T * U[:,:4] * Sig4.I  #create transformed items  
    for j in range(n):  
        userRating = dataMat[user,j]  
        if userRating == 0 or j==item: continue  
        similarity = simMeas(xformedItems[item,:].T,\  
                             xformedItems[j,:].T)  
        print 'the %d and %d similarity is: %f' % (item, j, similarity)  
        simTotal += similarity  
        ratSimTotal += similarity * userRating  
    if simTotal == 0: return 0  
    else: return ratSimTotal/simTotal  
 
 

其中dataMat[:,item].A，表示找出item列，因为是matrix，用.A转成array，logical_and，其实就是找出最item列和j列都>0，只有都大于0才会是true，nonzero会给出其中不为0的index。

进行SVD分解：

[python]view plain copy
>>>from numpy import linalg as la  
>>> U,Sigma,VT=la.svd(mat(svdRec.loadExData2()))  
>>> Sigma  
array([ 1.38487021e+01, 1.15944583e+01, 1.10219767e+01,  
        5.31737732e+00, 4.55477815e+00, 2.69935136e+00,  
        1.53799905e+00, 6.46087828e-01, 4.45444850e-01,  
        9.86019201e-02, 9.96558169e-17])  

如何决定r？有个定量的方法是看多少个奇异值可以达到90%的能量，其实和PCA一样，由于奇异值其实是等于data×dataT特征值的平方根，所以总能量就是特征值的和

[python]view plain copy
>>> Sig2=Sigma**2  
>>> sum(Sig2)  
541.99999999999932  

而取到前4个时，发现总能量大于90%，因此r=4

[python]view plain copy
>>> sum(Sig2[:3])  
500.50028912757909  

SVD分解的关键在于，降低了user的维度，从n变到了4

[python]view plain copy
def svdEst(dataMat, user, simMeas, item):  
    n = shape(dataMat)[1]  
    simTotal = 0.0; ratSimTotal = 0.0  
    U,Sigma,VT = la.svd(dataMat)  
    Sig4 = mat(eye(4)*Sigma[:4]) #arrange Sig4 into a diagonal matrix  
    xformedItems = dataMat.T * U[:,:4] * Sig4.I  #create transformed items  
    for j in range(n):  
        userRating = dataMat[user,j]  
        if userRating == 0 or j==item: continue  
        similarity = simMeas(xformedItems[item,:].T,\  
                             xformedItems[j,:].T)  
        print 'the %d and %d similarity is: %f' % (item, j, similarity)  
        simTotal += similarity  
        ratSimTotal += similarity * userRating  
    if simTotal == 0: return 0  
    else: return ratSimTotal/simTotal  

其中关键一步，dataMat.T * U[:,:4] * Sig4.I

将m×n的dataMat用特征值缩放转换为n×4的item和user类的矩阵

[python]view plain copy
>>> myMat=mat(svdRec.loadExData2())  
>>> myMat  
matrix([[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],  
        [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],  
        [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],  
        [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],  
        [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],  
        [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],  
        [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],  
        [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],  
        [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],  
        [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],  
        [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]])  
>>> svdRec.recommend(myMat,1,estMethod=svdRec.svdEst)  
the 0 and 3 similarity is: 0.490950  
the 0 and 5 similarity is: 0.484274  
the 0 and 10 similarity is: 0.512755  
the 1 and 3 similarity is: 0.491294  
the 1 and 5 similarity is: 0.481516  
the 1 and 10 similarity is: 0.509709  
the 2 and 3 similarity is: 0.491573  
the 2 and 5 similarity is: 0.482346  
the 2 and 10 similarity is: 0.510584  
the 4 and 3 similarity is: 0.450495  
the 4 and 5 similarity is: 0.506795  
the 4 and 10 similarity is: 0.512896  
the 6 and 3 similarity is: 0.743699  
the 6 and 5 similarity is: 0.468366  
the 6 and 10 similarity is: 0.439465  
the 7 and 3 similarity is: 0.482175  
the 7 and 5 similarity is: 0.494716  
the 7 and 10 similarity is: 0.524970  
the 8 and 3 similarity is: 0.491307  
the 8 and 5 similarity is: 0.491228  
the 8 and 10 similarity is: 0.520290  
the 9 and 3 similarity is: 0.522379  
the 9 and 5 similarity is: 0.496130  
the 9 and 10 similarity is: 0.493617  
[(4, 3.3447149384692283), (7, 3.3294020724526967), (9, 3.328100876390069)]  

机器学习实战及Python实现——奇异值分解（SVD）实现简单推荐系统

猜你喜欢