机器学习Python实现 SVD 分解

这篇文章主要是结合机器学习实战将推荐算法和SVD进行对应的结合

不论什么一个矩阵都能够分解为SVD的形式

事实上SVD意义就是利用特征空间的转换进行数据的映射，后面将专门介绍SVD的基础概念。先给出python，这里先给出一个简单的矩阵。表示用户和物品之间的关系

这里我自己有个疑惑？

对这样一个DATA = U（Z）Vt

这里的U和V真正的几何含义 : 书上的含义是U将物品映射到了新的特征空间， V的转置将用户映射到了新的特征空间

以下是代码实现。同一时候SVD还能够用于降维，降维的操作就是通过保留值比較的神秘值

# -*- coding: cp936 -*-

'''

Created on Mar 8, 2011

@author: Peter

'''

from numpy import *

from numpy import linalg as la #用到别名

#这里主要结合推荐系统介绍SVD，所以这里的数据都能够看成是用户对物品的一个打分

def loadExData():

    return[[0, 0, 0, 2, 2],

           [0, 0, 0, 3, 3],

           [0, 0, 0, 1, 1],

           [1, 1, 1, 0, 0],

           [2, 2, 2, 0, 0],

           [5, 5, 5, 0, 0],

           [1, 1, 1, 0, 0]]

def loadExData2():

    return[[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],

           [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],

           [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],

           [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],

           [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],

           [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],

           [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],

           [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],

           [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],

           [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],

           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]

def ecludSim(inA,inB):

    return 1.0/(1.0 + la.norm(inA - inB))  #计算向量的第二范式,相当于直接计算了欧式距离

def pearsSim(inA,inB):

    if len(inA) < 3 : return 1.0

    return 0.5+0.5*corrcoef(inA, inB, rowvar = 0)[0][1] #corrcoef直接计算皮尔逊相关系数

def cosSim(inA,inB):

    num = float(inA.T*inB)

    denom = la.norm(inA)*la.norm(inB)

    return 0.5+0.5*(num/denom)  #计算余弦类似度

#协同过滤算法

#dataMat 用户数据 user 用户 simMeas 类似度计算方式 item 物品

def standEst(dataMat, user, simMeas, item):

    n = shape(dataMat)[1] #计算列的数量，物品的数量

    simTotal = 0.0; ratSimTotal = 0.0

    for j in range(n):

        userRating = dataMat[user,j]

        print(dataMat[user,j])

        if userRating == 0: continue  #假设用户u没有对物品j进行打分。那么这个推断就能够跳过了

        overLap = nonzero(logical_and(dataMat[:,item].A>0, \

                                      dataMat[:,j].A>0))[0]    #找到对物品 j 和item都打过分的用户

        if len(overLap) == 0: similarity = 0

        else: similarity = simMeas(dataMat[overLap,item], dataMat[overLap,j])     #利用类似度计算两个物品之间的类似度

        print 'the %d and %d similarity is: %f' % (item, j, similarity)

        simTotal += similarity

        ratSimTotal += similarity * userRating  #待推荐物品与用户打过分的物品之间的类似度*用户对物品的打分

    if simTotal == 0: return 0

    else: return ratSimTotal/simTotal

#利用SVD进行分解，可是这里是直接用的库里面的函数

    #假设自己实现一个SVD分解。我想就是和矩阵论里面的求解知识是一样的吧，可是可能在求特征值的过程中会比較痛苦

def svdEst(dataMat, user, simMeas, item):

    n = shape(dataMat)[1]

    simTotal = 0.0; ratSimTotal = 0.0

    U,Sigma,VT = la.svd(dataMat) #直接进行分解

    Sig4 = mat(eye(4)*Sigma[:4]) #arrange Sig4 into a diagonal matrix

    xformedItems = dataMat.T * U[:,:4] * Sig4.I  #create transformed items

    for j in range(n):

        userRating = dataMat[user,j]

        if userRating == 0 or j==item: continue

        similarity = simMeas(xformedItems[item,:].T,\

                             xformedItems[j,:].T)

        print 'the %d and %d similarity is: %f' % (item, j, similarity)

        simTotal += similarity

        ratSimTotal += similarity * userRating

    if simTotal == 0: return 0

    else: return ratSimTotal/simTotal

#真正的推荐函数，后面两个函数就是採用的类似度的计算方法和推荐用的方法

def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):

    unratedItems = nonzero(dataMat[user,:].A==0)[1]  #find unrated items  nonzero()[1]返回的是非零值所在的行数。返回的是一个元组   if len(unratedItems) == 0: return 'you rated everything'

    itemScores = []

    for item in unratedItems:

        estimatedScore = estMethod(dataMat, user, simMeas, item)

        itemScores.append((item, estimatedScore))

    return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[:N]

#扩展的样例。利用SVD进行图像的压缩

#将图像打印出来

def printMat(inMat, thresh=0.8):

    for i in range(32):

        for k in range(32):

            if float(inMat[i,k]) > thresh:

                print 1,

            else: print 0,

        print ''

#最后发现重构出来的数据图是差点儿相同的

def imgCompress(numSV=3, thresh=0.8):

    myl = []

    for line in open('0_5.txt').readlines():

        newRow = []

        for i in range(32):

            newRow.append(int(line[i]))

        myl.append(newRow)

    myMat = mat(myl)   #将数据读入了myMat其中

    print "****original matrix******"

    printMat(myMat, thresh)

    U,Sigma,VT = la.svd(myMat)

    SigRecon = mat(zeros((numSV, numSV)))   #构建一个3*3的空矩阵

    for k in range(numSV):#construct diagonal matrix from vector

        SigRecon[k,k] = Sigma[k]

    reconMat = U[:,:numSV]*SigRecon*VT[:numSV,:]

    print "****reconstructed matrix using %d singular values******" % numSV

    printMat(reconMat, thresh)

通过结果能够看到，降维前和降维后的图片基本都是相似的

机器学习Python实现 SVD 分解的更多相关文章

机器学习中的矩阵方法04：SVD 分解
前面我们讲了 QR 分解有一些优良的特性,但是 QR 分解仅仅是对矩阵的行进行操作(左乘一个酉矩阵),可以得到列空间.这一小节的 SVD 分解则是将行与列同等看待,既左乘酉矩阵,又右乘酉矩阵,可以得出 ...
机器学习之SVD分解
一.SVD奇异值分解的定义假设是一个的矩阵,如果存在一个分解: 其中为的酉矩阵,为的半正定对角矩阵,为的共轭转置矩阵,且为的酉矩阵.这样的分解称为的奇异值分解,对角线上的元素称为奇异值,称为左奇异矩 ...
【机器学习】推荐系统、SVD分解降维
推荐系统: 1.基于内容的实现:KNN等 2.基于协同滤波(CF)实现:SVD → pLSA(从LSA发展而来,由SVD实现).LDA.GDBT SVD算是比较老的方法,后期演进的主题模型主要是pLS ...
用Python做SVD文档聚类---奇异值分解----文档相似性----LSI（潜在语义分析）
转载请注明出处:电子科技大学EClab——落叶花开http://www.cnblogs.com/nlp-yekai/p/3848528.html SVD,即奇异值分解,在自然语言处理中,用来做潜在语义 ...
SVD分解技术详解
版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使用,但请注明出处,如果有问题,请联系wheeleast@gm ...
【线性代数】6-7:SVD分解(Singular Value Decomposition-SVD)
title: [线性代数]6-7:SVD分解(Singular Value Decomposition-SVD) categories: Mathematic Linear Algebra keywo ...
机器学习---python环境搭建
一安装python2.7 去https://www.python.org/downloads/ 下载,然后点击安装,记得记住你的安装路径,然后去设置环境变量,这些自行百度一下就好了. 由于2.7没有 ...
SVD分解的理解[转载]
http://www.bfcat.com/index.php/2012/03/svd-tutorial/ SVD分解(奇异值分解),本应是本科生就掌握的方法,然而却经常被忽视.实际上,SVD分解不但很 ...
SVD分解技术数学解释
SVD分解 SVD分解是LSA的数学基础,本文是我的LSA学习笔记的一部分,之所以单独拿出来,是因为SVD可以说是LSA的基础,要理解LSA必须了解SVD,因此将LSA笔记的SVD一节单独作为一篇文章 ...

随机推荐

电子助视仪对比增强算法二十种色彩模式(Electronic Video Magnifier, 20 color mode)
电子助视仪是一种将原始彩色图像转换为某种对比度高的图像,例如将原始图像变换为黑底白字,红底白字,白底红字,蓝底黄字,黄字蓝底等等.电子助视仪的主要应用场景为为老人或者特殊弱视人群的阅读.国内国外均有 ...
Android 5.0 源代码结构
本节书摘来自异步社区<深入理解Android 5 源代码>一书中的第2章,第2.2节分析Android源代码结构,作者李骏. 网址:https://yq.aliyun.com/artic ...
windows组策略和共享
Author: Jin Date: 20140585 ENV: win2008 R2 5年没弄windows了,现在随便弄弄,说实话不太喜欢windows,不出问题时候很方便,一出问题很头大.所有东西 ...
解决idea 控制台中文乱码
打开IntelliJ IDEA 14.0安装路径,小编的安装路径为:D:\Program Files\JetBrains\IntelliJ IDEA 14.0\bin 找到idea.exe.vmopt ...
patch补丁命令 P1 P0 P2
http://fancyxinyu.blog.163.com/blog/static/1823213662013719115245699/ http://blog.chinaunix.net/uid- ...
C#遍历系统所安装的打印机，使用WMI方式获取打印机的所有属性
有网友发消息来询问,C#如何遍历系统已经安装的所有打印机,并获得每个打印机的相关信息,如:端口,名称等等 C#里面,虽然在 System.Drawing.Printing 这个namespace下,提 ...
取消SVN版本号控制的bash脚本
原理非常easy,递归删除当前文件夹下全部的 .svn 文件. 把 .svn 换成 .git 就可以用于删除 git 控制
Bootstrap 3之美03-独立行,文字环绕,图片自适应,隐藏元素
本篇主要包括: ■ 添加独立的一行■ 文字环绕■ 图片自适应■ 隐藏元素添加独立的一行在id为body的section和id为main的section之间,添加2张图片. 我们发现,新加的 ...
MySQL数据库事务各隔离级别加锁情况--read committed && MVCC（转）
本文转自https://m.imooc.com/article/details?article_id=17290 感谢作者上篇记录了我对MySQL 事务隔离级别read uncommitted的理 ...
【docker】centOS7上部署的mysql和spring boot服务，要求，mysql的时间、java程序服务的时间和宿主机的时间完全保持一致【修改mysql时区，临时和永久】【修改spring boot配置文件时区】【修改docker启动spring boot实例程序时区】
要求:centOS7上部署的mysql和spring boot服务,要求,mysql的时间.java程序服务的时间和宿主机的时间完全保持一致: ============================ ...

机器学习Python实现 SVD 分解

机器学习Python实现 SVD 分解的更多相关文章

随机推荐

热门专题