一、SVD与推荐系统

下图由餐馆的菜和品菜师对这些菜的意见组成，品菜师可以采用1到5之间的任意一个整数来对菜评级，如果品菜师没有尝过某道菜，则评级为0

建立一个新文件svdRec.py并加入如下代码：

def loadExData():

    return[[0, 0, 0, 2, 2],

           [0, 0, 0, 3, 3],

           [0, 0, 0, 1, 1],

           [1, 1, 1, 0, 0],

           [2, 2, 2, 0, 0],

           [5, 5, 5, 0, 0],

           [1, 1, 1, 0, 0]]

u, s, vt = la.svd(loadExData())

print s

#[  9.64365076e+00   5.29150262e+00   9.99338251e-16   4.38874654e-16

#   1.19121230e-16]

我们可以发现得到的特征值，前两个比其他的值大很多，所以可以将最后三个值去掉，因为他们的影响很小。

可以看出上图中前三个人，喜欢烤牛肉和手撕猪肉，这些菜都是美式烧烤餐馆才有的菜，这两个特征值可以分别对应到美食BBQ和日式食品两类食品上，所以可以认为这三个人属于一类用户，下面四个人属于一类用户，这样推荐就很简单了。

建立一个新文件svdRec.py并加入如下代码：

def loadExData():

  return[[1, 1, 1, 0, 0],

    [2, 2, 2, 0, 0],

    [1, 1, 1, 0, 0],

    [5, 5, 5, 0, 0],

    [1, 1, 0, 2, 2],

    [0, 0, 0, 3, 3],

    [0, 0, 0, 1, 1]]

u, s, vt = la.svd(loadExData())

print s

#[  9.72140007e+00   5.29397912e+00   6.84226362e-01   1.18665567e-15

#   3.51083347e-16]

我们可以发现得到的特征值，前3个比其他的值大很多，所以可以将最后2个值去掉，因为他们的影响很小。

上面例子就可以将原始数据用如下结果近似：

二、基于协同过滤的推荐引擎

协同过滤（collaborative filtering）是通过将用户与其他用户的数据进行对比来实现推荐的。

1.相似度计算

def ecludSim(inA,inB):

    return 1.0/(1.0 + la.norm(inA - inB))  #计算向量的第二范式,相当于直接计算了欧式距离

def pearsSim(inA,inB):

    if len(inA) < 3 : return 1.0

    return 0.5+0.5*corrcoef(inA, inB, rowvar = 0)[0][1] #corrcoef直接计算皮尔逊相关系数。pearsSim会检查是否存在3个或更多的点。不存在返回1，因为此时两个向量完全相关。

def cosSim(inA,inB):

    num = float(inA.T*inB)

    denom = la.norm(inA)*la.norm(inB)

    return 0.5+0.5*(num/denom)  #计算余弦相似度

2.基于物品的相似度与基于用户的相似度

当用户数目很多时，采用基于物品的相似度计算方法更好。

3.示例：基于物品相似度的餐馆菜肴推荐引擎

14-利用SVD简化数据的更多相关文章

机器学习实战 - 读书笔记(14) - 利用SVD简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第14章 - 利用SVD简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. 基 ...
【机器学习实战】第14章利用SVD简化数据
第14章利用SVD简化数据 SVD 概述奇异值分解(SVD, Singular Value Decomposition): 提取信息的一种方法,可以把 SVD 看成是从噪声数据中抽取相关特征.从生 ...
机器学习——利用SVD简化数据
奇异值分解(Singular Value Decompositon,SVD),可以实现用小得多的数据集来表示原始数据集. 优点:简化数据,取出噪声,提高算法的结果缺点:数据的转换可能难以理解适用数 ...
《机器学习实战》学习笔记——第14章利用SVD简化数据
一. SVD 1. 基本概念: (1)定义:提取信息的方法:奇异值分解Singular Value Decomposition(SVD) (2)优点:简化数据, 去除噪声,提高算法的结果 (3)缺点: ...
《机器学习实战》学习笔记第十四章 —— 利用SVD简化数据
相关博客: 吴恩达机器学习笔记(八) —— 降维与主成分分析法(PCA) <机器学习实战>学习笔记第十三章 —— 利用PCA来简化数据奇异值分解(SVD)原理与在降维中的应用机器学习( ...
机器学习实战（Machine Learning in Action）学习笔记————09.利用PCA简化数据
机器学习实战(Machine Learning in Action)学习笔记————09.利用PCA简化数据关键字:PCA.主成分分析.降维作者:米仓山下时间:2018-11-15机器学习实战(Ma ...
SVD简化数据
一,引言我们知道,在实际生活中,采集到的数据大部分信息都是无用的噪声和冗余信息,那么,我们如何才能剔除掉这些噪声和无用的信息,只保留包含绝大部分重要信息的数据特征呢? 除了上次降到的PCA方法,本次 ...
利用奇异值分解（SVD）简化数据
特征值与特征向量下面这部分内容摘自:强大的矩阵奇异值分解(SVD)及其应用特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法.两者有着很紧密的关系,在接下来会谈到,特征值分解和奇异值分解的 ...
【机器学习实战】第13章利用 PCA 来简化数据
第13章利用 PCA 来简化数据降维技术场景我们正通过电视观看体育比赛,在电视的显示器上有一个球. 显示器大概包含了100万像素点,而球则可能是由较少的像素点组成,例如说一千个像素点. 人们实 ...

随机推荐

池化 - Apache Commons Pool
对于那些创建耗时较长,或者资源占用较多的对象,比如网络连接,线程之类的资源,通常使用池化来管理这些对象,从而达到提高性能的目的.比如数据库连接池(c3p0, dbcp), java的线程池 Execu ...
pat_1
2-0 2-1 #include <stdio.h> int main() { int inch,foot,cm; scanf("%d",&cm); foot= ...
[汇编语言]-第二章DEBUG
Debug查看CPU各种寄存器中得内容,内存的情况和在机器码级跟踪程序的运行. 1- 进入Debug xp 开始-运行 cmd 输入 debug 2- Debug功能 r 查看,改变CPU寄存器的内容 ...
Git学习02 －－暂存区，撤销修改，删除文件
工作区和暂存区概念: 工作区(Working Directory)就是你在电脑里能看到的目录. 版本库(Repository) 工作区有一个隐藏目录.git,这个不算工作区,而是Git的版本库. Gi ...
李维作答《insideVCL》——李维实在很勤奋，而且勇于突破，从不以旧的内容充数
(编者按)<Inside VCL(VCL核心架构剖析)>一书出版以来,众多热心读者给李维先生.博文视点公司.CSDN写来信件,有更多朋友在各个论坛上发表关于该书的言论.读者们不但盛赞该书, ...
WPF GroupBox 样式分享
原文:WPF GroupBox 样式分享默认样式 GroupBox 样式分享" title="WPF GroupBox 样式分享"> 添加样式后 GroupBox ...
Silverlight中的拖拽实现的图片上传
原文 http://blog.csdn.net/dujingjing1230/article/details/5443003 在Silverlight中因为可以直接从系统的文件夹里面拖出来一个文件直接 ...
获取ActiveX控件本身所在的路径和 error PRJ0050
一. CString GetCurPath() { TCHAR exeFullPath[MAX_PATH]; CString strPath; ...
Android常用代码
1.图片旋转 Bitmap bitmapOrg = BitmapFactory.decodeResource(this.getContext().getResources(), R.drawable. ...
2.x ESL第二章习题2.5
题目描述 $y_i=x_i^T\beta+\epsilon_i$$\epsilon_i\sim N(0,\sigma^2)$ 已有训练集$\tau$,其中$X:n\times p,y:n\times ...

14-利用SVD简化数据

一、SVD与推荐系统

二、基于协同过滤的推荐引擎

14-利用SVD简化数据的更多相关文章

随机推荐

热门专题