在协同过滤推荐算法总结中，我们讲到了用图模型做协同过滤的方法，包括SimRank系列算法和马尔科夫链系列算法。现在我们就对SimRank算法在推荐系统的应用做一个总结。

1. SimRank推荐算法的图论基础

　　　　SimRank是基于图论的，如果用于推荐算法，则它假设用户和物品在空间中形成了一张图。而这张图是一个二部图。所谓二部图就是图中的节点可以分成两个子集，而图中任意一条边的两个端点分别来源于这两个子集。一个二部图的例子如下图。从图中也可以看出，二部图的子集内部没有边连接。对于我们的推荐算法中的SimRank，则二部图中的两个子集可以是用户子集和物品子集。而用户和物品之间的一些评分数据则构成了我们的二部图的边。

2. SimRank推荐算法思想

　　　　对于用户和物品构成的二部图，如何进行推荐呢？SimRank算法的思想是，如果两个用户相似，则与这两个用户相关联的物品也类似；如果两个物品类似，则与这两个物品相关联的用户也类似。如果回到上面的二部图，假设上面的节点代表用户子集，而下面节点代表物品子集。如果用户1和3类似，那么我们可以说和它们分别相连的物品2和4也类似。

　　　　如果我们的二部图是$G(V,E)$，其中V是节点集合，E是边集合。则某一个子集内两个点的相似度$s(a,b)$可以用和相关联的另一个子集节点之间相似度表示。即：$$s(a,b) = \frac{C}{|I(a)||I(b)|}\sum\limits_{i=1}^{|I_(a)|}\sum\limits_{j=1}^{|I_(b)|}s(I_i(a),I_i(b))$$

　　　　其中C是一个常数，而$I(a),I(b)$分别代表和a，b相连的二部图另一个子集的节点集合。$s(I_i(a),I_i(b))$即为相连的二部图另一个子集节点之间的相似度。

　　　　一种特殊情况是，自己和自己的相似度，我们定义为1。即$s(a,a) =1$。还有一种特殊情况是$I(a),I(b)$有一个为空，即a，b中某一个点没有相连的另一个子集中的点，此时$s(a,b) =0$，将这几种情况综合下，则二部图一个子集内两个点的相似度$s(a,b)$可以表示为：

$$s(a,b)=
\begin{cases}
1 & {a = b}\\
\frac{C}{|I(a)||I(b)|}\sum\limits_{i=1}^{|I_(a)|}\sum\limits_{j=1}^{|I_(b)|}s(I_i(a),I_i(b)) & {a \neq b, I(a) \neq \emptyset, I(a) \neq \emptyset}\\ 0 & {otherwise} \end{cases}$$

　　　　如果我们想用上式直接计算两个物品或者两个用户之间的相似度是比较困难的，一般需要通过迭代方式计算。对于$a \neq b, I(a) \neq \emptyset, I(a) \neq \emptyset $时，我们注意到:$$s(a,b) = \frac{C}{|I(a)||I(b)|}\sum\limits_{i=1}^{|I_(a)|}\sum\limits_{j=1}^{|I_(b)|}s(I_i(a),I_i(b)) = \frac{C}{|I(a)||I(b)|}\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}p_{ia}s(a,b)p_{jb}$$

　　　　其中p为二部图关联边的权重，为关联的边数分之一，而N为二部图另一子集子集节点数。

　　　　上面的式子可以继续转化为：$$s(a,b) = C\sum\limits_{i=1}^{N}\sum\limits_{j=1}^{N}\Bigg(\frac{p_{ia}}{\sum\limits_{i=1}^{N}p_{ia}}\Bigg)s(a,b)\Bigg(\frac{p_{jb}}{\sum\limits_{j=1}^{N}p_{jb}}\Bigg)$$

　　　　如果用矩阵表示，则相似度矩阵$S = CW^TSW$, 其中$W$是将权重矩阵$P$归一化后的矩阵。

　　　　但是由于节点和自己的相似度为1，即我们的矩阵S的对角线上的值都应该改为1，那么我们可以去掉对角线上的值，再加上单位矩阵，得到对角线为1的相似度矩阵。即：$$S = CW^TSW + I - Diag(diag(CW^TSW))$$

　　　　其中$diag(CW^TSW)$是矩阵$CW^TSW$的对角线元素构成的向量，而$Diag(diag(CW^TSW))$将这个向量构成对角矩阵。

　　　　只要我们对S矩阵按照上式进行若干轮迭代，当S矩阵的值基本稳定后我们就得到了二部图的相似度矩阵，进而可以利用用户与用户的相似度度量，物品与物品的相似度度量进行有针对性的推荐。

3. SimRank算法流程

　　　　现在我们对SimRank算法流程做一个总结。

　　　　输入：二部图对应的转移矩阵W，阻尼常数C，最大迭代次数k

　　　　输出：子集相似度矩阵S：

　　　　1) 将相似度S的初始值设置为单位矩阵I.

　　　　2) 对于i=1,2...k:

　　　　　　a) temp = $CW^TSW$

　　　　　　b) S = temp + I - Diag(diag(temp))

　　　　以上基于普通的SimRank算法流程。当然，SimRank算法有很多变种，所以你可能看到其他地方的SimRank算法描述或者迭代的过程和上面的有些不同，但是算法思想基本和上面相同。

　　　　SimRank算法有很多改进变种，比较著名的一个改进是SimRank++算法。

3. SimRank++算法原理

　　　　SimRank++算法对SimRank算法主要做了两点改进。第一点是考虑了边的权值，第二点是考虑了子集节点相似度的证据。

　　　　对于第一点边的权值，回顾上面的SimRank算法，我们对于边的权重，我们是用的比较笼统的关联的边数分之一来度量，并没有考虑不同的边可能有不同的权重度量，而SimRank++算法则在构建转移矩阵W时会考虑不同的边的不同权重值这个因素。

　　　　对于第二点的节点相似度的证据。回顾回顾上面的SimRank算法，我们只要认为有边相连，则为相似。却没有考虑到如果共同相连的边越多，则意味着两个节点的相似度会越高。而SimRank++算法利用共同相连的边数作为证据，在每一轮迭代过程中，对SimRank算法计算出来的节点相似度进行修正，即乘以对应的证据值得到当前轮迭代的的最终相似度值。

4. SimRank系列算法的求解

　　　　由于SimRank算法涉及矩阵运算，如果用户和物品量非常大，则对应的计算量是非常大的。如果直接用我们第二节讲到了迭代方法去求解，所花的时间会很长。对于这个问题，除了传统的一些SimRank求解优化以外，常用的有两种方法来加快求解速度。

　　　　第一种是利用大数据平台并行化，即利用Hadoop的MapReduce或者Spark来将矩阵运算并行化，加速算法的求解。

　　　　第二种是利用蒙特卡罗法(Monte Carlo, MC)模拟，将两结点间 SimRank 的相似度表示为两个随机游走者分别从结点 a和 b出发到最后相遇的总时间的期望函数。用这种方法时间复杂度会大大降低，但是由于MC带有一定的随机性，因此求解得到的结果的精度可能不高。

5. SimRank小结

　　　　作为基于图论的推荐算法，目前SimRank算法在广告推荐投放上使用很广泛。而图论作为一种非常好的建模工具，在很多算法领域都有广泛的应用，比如我之前讲到了谱聚类算法。同时，如果你理解了SimRank，那么Google的PageRank对你来说就更容易理解了。

　　　　个人理解PageRank只能得到某一个节点自己的权重，而SimRank却可以得到两两之间的权重度量，明显SimRank要更加高大上。:)

SimRank协同过滤推荐算法的更多相关文章

基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms” .
ligh@local-host$ ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.3 基于物品的协同过滤推荐算法--读"Item-Based ...
基于MapReduce的（用户、物品、内容）的协同过滤推荐算法
1.基于用户的协同过滤推荐算法利用相似度矩阵*评分矩阵得到推荐列表已经推荐过的置零 2.基于物品的协同过滤推荐算法 3.基于内容的推荐算法思想:给用户推荐和他们之前喜欢的物品在内容上相似的物品 ...
SparkMLlib—协同过滤推荐算法，电影推荐系统，物品喜好推荐
SparkMLlib-协同过滤推荐算法,电影推荐系统,物品喜好推荐一.协同过滤 1.1 显示vs隐式反馈 1.2 实例介绍 1.2.1 数据说明评分数据说明(ratings.data) 用户信息( ...
Spark ML协同过滤推荐算法
一.简介协同过滤算法[Collaborative Filtering Recommendation]算法是最经典.最常用的推荐算法.该算法通过分析用户兴趣,在用户群中找到指定用户的相似用户,综合这些 ...
基于局部敏感哈希的协同过滤推荐算法之E^2LSH
需要代码联系作者,不做义务咨询. 一.算法实现基于p-stable分布,并以‘哈希技术分类’中的分层法为使用方法,就产生了E2LSH算法. E2LSH中的哈希函数定义如下: 其中,v为d维原始数据, ...
推荐系统| ② 离线推荐&基于隐语义模型的协同过滤推荐
一.离线推荐服务离线推荐服务是综合用户所有的历史数据,利用设定的离线统计算法和离线推荐算法周期性的进行结果统计与保存,计算的结果在一定时间周期内是固定不变的,变更的频率取决于算法调度的频率. 离线推 ...
Mahout之（二）协同过滤推荐
协同过滤 —— Collaborative Filtering 协同过滤简单来说就是根据目标用户的行为特征,为他发现一个兴趣相投.拥有共同经验的群体,然后根据群体的喜好来为目标用户过滤可能感兴趣的内容 ...
协同过滤CF算法之入门
数据规整首先将评分数据从 ratings.dat 中读出到一个 DataFrame 里: >>> import pandas as pd In [2]: import pandas ...
Spark2.0 协同过滤推荐
ALS矩阵分解 http://blog.csdn.net/oucpowerman/article/details/49847979 http://www.open-open.com/lib/view/ ...

随机推荐

MulticastSocket绑定端口的问题
该文章由 Binkery 发布于 Binkery技术博客 http://www.binkery.com 如转载请注明出处,该文章的链接地址为 http://www.binkery.com/archiv ...
objective-c学习笔记2
Objective-c学习笔记 1.cocoa的对象初始化一般使用alloc和init两个方法,不适用new,其中alloc用于分配内存,init用于初始化,因为初始化方法返回的对象可能和分配的对象不 ...
Ubuntu Nginx安装
1.先更新ubuntu系统更新命令 sudo apt-get update sudo apt-get upgrade 2 添加ubuntu nginx更新源镜像 cd /etc/apt/ sudo ...
Apache 重启时会有报 AH00558
AH00558: apache2: Could not reliably determine the server's fully qualified domain name, using 127.0 ...
UIResponder学习
http://blog.csdn.net/jimzhai/article/details/23283515 UIResponder 介绍 UIResponder 这个类定义了很多用来处理响应和时间处理 ...
IOS9提示“不受信任的开发者”如何处理
iPhone升级到IOS9版本后,发现部分APP在下载后首次运行时,都会提示“不受信任的应用程序开发者”,这是因为企业证书发布的APP,没有经过AppStore审核,于是iOS对用户做出一个安全性的提 ...
VMVare 桥接上网
桥接模式设置小解: 第1步虚拟机下fedora安装好后,打开VM虚拟机的菜单栏,单击编辑------虚拟网络编辑器,选择“主机虚拟网络映射”标签,然后把VMnet0 手动选择为你本地的物理网卡(要 ...
Valgrind 快速入门
1. 介绍 Valgrind工具组提供了一套调试与分析错误的工具包,能够帮助你的程序工作的更加准确,更加快速.这些工具之中最有名的是Memcheck.它能够识别很多C或者C++程序中内存相关的错误,这 ...
【Xilinx-Petalinux学习】-02-建立PetaLinux工程
前面我已经把PetaLinux成功安装到了Ubuntu虚拟机当中了,接下来就要实际操作,将PetaLinux移植到我们自己的硬件平台当中去. step1:硬件描述文件有两种PetaLinux工程建立 ...
oracle存储过程学习---包的概念
转自:http://www.iteye.com/topic/1111793 一.包的概念类似于一个容器,能打包相应的Pl/SQL变量.常量.函数.过程.复合数据类型等元素到这个容器内.用来限制 ...

SimRank协同过滤推荐算法