[机器学习笔记]奇异值分解SVD简介及其在推荐系统中的简单应用

本文先从几何意义上对奇异值分解SVD进行简单介绍，然后分析了特征值分解与奇异值分解的区别与联系，最后用python实现将SVD应用于推荐系统。

1.SVD详解

SVD(singular value decomposition)，翻译成中文就是奇异值分解。SVD的用处有很多，比如：LSA（隐性语义分析）、推荐系统、特征压缩（或称数据降维）。SVD可以理解为：将一个比较复杂的矩阵用更小更简单的3个子矩阵的相乘来表示，这3个小矩阵描述了大矩阵重要的特性。

1.1奇异值分解的几何意义(因公式输入比较麻烦所以采取截图的方式)

2.SVD应用于推荐系统

数据集中行代表用户user，列代表物品item，其中的值代表用户对物品的打分。基于SVD的优势在于：用户的评分数据是稀疏矩阵，可以用SVD将原始数据映射到低维空间中，然后计算物品item之间的相似度，可以节省计算资源。

整体思路：先找到用户没有评分的物品，然后再经过SVD“压缩”后的低维空间中，计算未评分物品与其他物品的相似性，得到一个预测打分，再对这些物品的评分从高到低进行排序，返回前N个物品推荐给用户。

具体代码如下，主要分为5部分：

第1部分：加载测试数据集；

第2部分：定义三种计算相似度的方法；

第3部分：通过计算奇异值平方和的百分比来确定将数据降到多少维才合适，返回需要降到的维度；

第4部分：在已经降维的数据中，基于SVD对用户未打分的物品进行评分预测，返回未打分物品的预测评分值；

第5部分：产生前N个评分值高的物品，返回物品编号以及预测评分值。

优势在于：用户的评分数据是稀疏矩阵，可以用SVD将数据映射到低维空间，然后计算低维空间中的item之间的相似度，对用户未评分的item进行评分预测，最后将预测评分高的item推荐给用户。

#coding=utf-8

from numpy import *

from numpy import linalg as la

'''加载测试数据集'''

def loadExData():

    return mat([[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],

           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],

           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],

           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],

           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],

           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],

           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],

           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],

           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],

           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],

           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]])

'''以下是三种计算相似度的算法，分别是欧式距离、皮尔逊相关系数和余弦相似度,

注意三种计算方式的参数inA和inB都是列向量'''

def ecludSim(inA,inB):

    return 1.0/(1.0+la.norm(inA-inB))  #范数的计算方法linalg.norm()，这里的1/(1+距离)表示将相似度的范围放在0与1之间

def pearsSim(inA,inB):

    if len(inA)<3: return 1.0

    return 0.5+0.5*corrcoef(inA,inB,rowvar=0)[0][1]  #皮尔逊相关系数的计算方法corrcoef()，参数rowvar=0表示对列求相似度，这里的0.5+0.5*corrcoef()是为了将范围归一化放到0和1之间

def cosSim(inA,inB):

    num=float(inA.T*inB)

    denom=la.norm(inA)*la.norm(inB)

    return 0.5+0.5*(num/denom) #将相似度归一到0与1之间

'''按照前k个奇异值的平方和占总奇异值的平方和的百分比percentage来确定k的值,

后续计算SVD时需要将原始矩阵转换到k维空间'''

def sigmaPct(sigma,percentage):

    sigma2=sigma**2 #对sigma求平方

    sumsgm2=sum(sigma2) #求所有奇异值sigma的平方和

    sumsgm3=0 #sumsgm3是前k个奇异值的平方和

    k=0

    for i in sigma:

        sumsgm3+=i**2

        k+=1

        if sumsgm3>=sumsgm2*percentage:

            return k

'''函数svdEst()的参数包含：数据矩阵、用户编号、物品编号和奇异值占比的阈值，

数据矩阵的行对应用户，列对应物品，函数的作用是基于item的相似性对用户未评过分的物品进行预测评分'''

def svdEst(dataMat,user,simMeas,item,percentage):

    n=shape(dataMat)[1]

    simTotal=0.0;ratSimTotal=0.0

    u,sigma,vt=la.svd(dataMat)

    k=sigmaPct(sigma,percentage) #确定了k的值

    sigmaK=mat(eye(k)*sigma[:k])  #构建对角矩阵

    xformedItems=dataMat.T*u[:,:k]*sigmaK.I  #根据k的值将原始数据转换到k维空间(低维),xformedItems表示物品(item)在k维空间转换后的值

    for j in range(n):

        userRating=dataMat[user,j]

        if userRating==0 or j==item:continue

        similarity=simMeas(xformedItems[item,:].T,xformedItems[j,:].T) #计算物品item与物品j之间的相似度

        simTotal+=similarity #对所有相似度求和

        ratSimTotal+=similarity*userRating #用"物品item和物品j的相似度"乘以"用户对物品j的评分"，并求和

    if simTotal==0:return 0

    else:return ratSimTotal/simTotal #得到对物品item的预测评分

'''函数recommend()产生预测评分最高的N个推荐结果，默认返回5个；

参数包括：数据矩阵、用户编号、相似度衡量的方法、预测评分的方法、以及奇异值占比的阈值；

数据矩阵的行对应用户，列对应物品，函数的作用是基于item的相似性对用户未评过分的物品进行预测评分；

相似度衡量的方法默认用余弦相似度'''

def recommend(dataMat,user,N=5,simMeas=cosSim,estMethod=svdEst,percentage=0.9):

    unratedItems=nonzero(dataMat[user,:].A==0)[1]  #建立一个用户未评分item的列表

    if len(unratedItems)==0:return 'you rated everything' #如果都已经评过分，则退出

    itemScores=[]

    for item in unratedItems:  #对于每个未评分的item，都计算其预测评分

        estimatedScore=estMethod(dataMat,user,simMeas,item,percentage)

        itemScores.append((item,estimatedScore))

    itemScores=sorted(itemScores,key=lambda x:x[1],reverse=True)#按照item的得分进行从大到小排序

    return itemScores[:N]  #返回前N大评分值的item名，及其预测评分值

将文件命名为svd2.py,在python提示符下输入：

>>>import svd2

>>>testdata=svd2.loadExData()

>>>svd2.recommend(testdata,1,N=3,percentage=0.8)#对编号为1的用户推荐评分较高的3件商品

Reference:

1.Peter Harrington，《机器学习实战》，人民邮电出版社，2013

2.http://www.ams.org/samplings/feature-column/fcarc-svd (讲解SVD非常好的一篇文章，对于理解SVD非常有帮助，本文中SVD的几何意义就是参考这篇)

3. http://blog.csdn.net/xiahouzuoxin/article/details/41118351 （讲解SVD与特征值分解区别的一篇文章）

[机器学习笔记]奇异值分解SVD简介及其在推荐系统中的简单应用的更多相关文章

SVD在餐馆菜肴推荐系统中的应用
SVD在餐馆菜肴推荐系统中的应用摘要:餐馆可以分为很多类别,比如中式.美式.日式等等.但是这些类别不一定够用,有的人喜欢混合类别.对用户对菜肴的点评数据进行分析,可以提取出区分菜品的真正因素,利用这 ...
【疑难杂症】奇异值分解(SVD)原理与在降维中的应用
前言在项目实战的特征工程中遇到了采用SVD进行降维,具体SVD是什么,怎么用,原理是什么都没有细说,因此特开一篇,记录下SVD的学习笔记参考:刘建平老师博客 https://www.cnblogs ...
机器学习之-奇异值分解(SVD)原理详解及推导
转载 http://blog.csdn.net/zhongkejingwang/article/details/43053513 在网上看到有很多文章介绍SVD的,讲的也都不错,但是感觉还是有需要补充 ...
[机器学习笔记]主成分分析PCA简介及其python实现
主成分分析(principal component analysis)是一种常见的数据降维方法,其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量. PCA的本质就是找一些投影 ...
奇异值分解(SVD)原理与在降维中的应用
奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不光可以用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理等领域.是 ...
机器学习实战（Machine Learning in Action）学习笔记————10.奇异值分解(SVD)原理、基于协同过滤的推荐引擎、数据降维
关键字:SVD.奇异值分解.降维.基于协同过滤的推荐引擎作者:米仓山下时间:2018-11-3机器学习实战(Machine Learning in Action,@author: Peter Harr ...
Python机器学习笔记：奇异值分解（SVD）算法
完整代码及其数据,请移步小编的GitHub 传送门:请点击我如果点击有误:https://github.com/LeBron-Jian/MachineLearningNote 奇异值分解(Singu ...
机器学习降维方法概括， LASSO参数缩减、主成分分析PCA、小波分析、线性判别LDA、拉普拉斯映射、深度学习SparseAutoEncoder、矩阵奇异值分解SVD、LLE局部线性嵌入、Isomap等距映射
机器学习降维方法概括版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.net/u014772862/article/details/52335970 最近 ...
【Machine Learning】机器学习及其基础概念简介
机器学习及其基础概念简介作者:白宁超 2016年12月23日21:24:51 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...

随机推荐

项目部署之nginx实现PC端和移动端自动跳转
假设PC端域名为 www.abc.com 移动端域名为m.abc.com PC端nginx配置文件server中加入如下代码: if ($http_host !~ "^www.abc ...
Home School Books美国家庭学校教育小学初中高中全套美语教材
加州的资料总共买过三次: ①优妈妈儿童教育,买过美国加州小学一.二年级的语文及相应的练习册,并买了纸版资料. (这是自己学习用的) ②美国加州原版小学教材Reading Wonders 2014新版语 ...
ArcGIS for qml - 地址地标转换为经纬度（地理编码）
实现输入地址地标转换为其经纬度本文链接:地理编码作者: 狐狸家的鱼 Github: 八至一.地理编码 1.地理编码含义地址编码(或地理编码)是使用地址中包含的信息来插入地图上的相应位置的过程. ...
bash 4
1)获取字符串长度: str="jwwjww" #str=‘jwwjww’//单引号双引号都一样 echo ${#str} 结果:6 2)提取子字符串 echo ${#str:1: ...
firfox中"content-disposition", "attachment;filename=“+filename不能显示文件名字
一般要在浏览器中显示文件名,可以使用以下文件名 // 设置文件名的编码方式,使得文件的名字能够正常安全的显示. filename = URLEncoder.encode(filename, " ...
tensorflow中tf.ConfigProto()用法解释
在看C3D代码的时候,看见有一段代码是 config = tf.ConfigProto()#主要是配置tf.Session的运行方式,GPU还是CPU,在这里选择的是GPU的运行方式 config.g ...
Spring Cloud Netflix Eureka: 多网卡环境下Eureka服务注册IP选择问题
https://blog.csdn.net/neosmith/article/details/53126924 通过源码可以看出,该工具类会获取所有网卡,依次进行遍历,取ip地址合理.索引值最小且不在 ...
node.js(小案例)_实现学生信息增删改
一.前言本节内容主要对小案例做一个总结: 1.如何开始搭建小项目 2.路由设计 3.模块应用 4.项目源码以及实现过程github地址: 项目演示如下: 二.主要内容 1.项目的关键性js源码: 项 ...
多态（instanceof）
多态调用的三种格式 * A:多态的定义格式: * 就是父类的引用变量指向子类对象父类类型变量名 = new 子类类型(); 变量名.方法名(); * B: 普通类多态定义的格式父类变量名 = ...
干货分享：互联网运营学习SEO从零开始 SEO深度解析学习笔记
最近在自学SEO,互联网运营,把做的笔记干货分享给大家啊! 希望能帮到大家,如有好的建议可以关注我[磨人的小妖精]或留言,大家一起探讨. 之前还写过一篇文章互联网运营+SEO:推荐必看的5本书籍,学习 ...

[机器学习笔记]奇异值分解SVD简介及其在推荐系统中的简单应用

1.SVD详解

[机器学习笔记]奇异值分解SVD简介及其在推荐系统中的简单应用的更多相关文章

随机推荐

热门专题