【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐

最近在拜读项亮博士的《推荐系统实践》，系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用，在此做一个总结。

隐语义模型LFM和LSI，LDA，Topic
Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都是在文本挖掘领域中提出来的，近
些年它们也被不断应用到其他领域中，并得到了不错的应用效果。比如，在推荐系统中它能够基于用户的行为对item进行自动聚类，也就是把item划分到不
同类别/主题，这些主题/类别可以理解为用户的兴趣。

对于一个用户来说，他们可能有不同的兴趣。就以作者举的豆瓣书单的例子来说，用户A会关注数学，历史，计算机方面的书，用户B喜欢机器学习，编程语言，离
散数学方面的书，用户C喜欢大师Knuth, Jiawei
Han等人的著作。那我们在推荐的时候，肯定是向用户推荐他感兴趣的类别下的图书。那么前提是我们要对所有item（图书）进行分类。那如何分呢？大家注
意到没有，分类标准这个东西是因人而异的，每个用户的想法都不一样。拿B用户来说，他喜欢的三个类别其实都可以算作是计算机方面的书籍，也就是说B的分类
粒度要比A小；拿离散数学来讲，他既可以算作数学，也可当做计算机方面的类别，也就是说有些item不能简单的将其划归到确定的单一类别；拿C用户来说，
他倾向的是书的作者，只看某几个特定作者的书，那么跟A，B相比它的分类角度就完全不同了。

显然我们不能靠由单个人（编辑）或team的主观想法建立起来的分类标准对整个平台用户喜好进行标准化。

此外我们还需要注意的两个问题：

我们在可见的用户书单中归结出3个类别，不等于该用户就只喜欢这3类，对其他类别的书就一点兴趣也没有。也就是说，我们需要了解用户对于所有类别的兴趣度。
对于一个给定的类来说，我们需要确定这个类中每本书属于该类别的权重。权重有助于我们确定该推荐哪些书给用户。

下
面我们就来看看LFM是如何解决上面的问题的？对于一个给定的用户行为数据集（数据集包含的是所有的user,
所有的item，以及每个user有过行为的item列表），使用LFM对其建模后，我们可以得到如下图所示的模型：（假设数据集中有3个user,
4个item, LFM建模的分类数为4）

R
矩阵是user-item矩阵，矩阵值Rij表示的是user i 对item
j的兴趣度，这正是我们要求的值。对于一个user来说，当计算出他对所有item的兴趣度后，就可以进行排序并作出推荐。LFM算法从数据集中抽取出若
干主题，作为user和item之间连接的桥梁，将R矩阵表示为P矩阵和Q矩阵相乘。其中P矩阵是user-class矩阵，矩阵值Pij表示的是
user
i对class j的兴趣度；Q矩阵式class-item矩阵，矩阵值Qij表示的是item j在class
i中的权重，权重越高越能作为该类的代表。所以LFM根据如下公式来计算用户U对物品I的兴趣度

我们发现使用LFM后，

我们不需要关心分类的角度，结果都是基于用户行为统计自动聚类的，全凭数据自己说了算。
不需要关心分类粒度的问题，通过设置LFM的最终分类数就可控制粒度，分类数越大，粒度约细。
对于一个item，并不是明确的划分到某一类，而是计算其属于每一类的概率，是一种标准的软分类。
对于一个user，我们可以得到他对于每一类的兴趣度，而不是只关心可见列表中的那几个类。
对于每一个class，我们可以得到类中每个item的权重，越能代表这个类的item，权重越高。

那么，接下去的问题就是如何计算矩阵P和矩阵Q中参数值。一般做法就是最优化损失函数来求参数。在定义损失函数之前，我们需要准备一下数据集并对兴趣度的取值做一说明。

数据集应该包含所有的user和他们有过行为的（也就是喜欢）的item。所有的这些item构成了一个item全集。对于每个user来说，我们把他有
过行为的item称为正样本，规定兴趣度RUI=1，此外我们还需要从item全集中随机抽样，选取与正样本数量相当的样本作为负样本，规定兴趣度为
RUI=0。因此，兴趣的取值范围为[0,1]。

采样之后原有的数据集得到扩充，得到一个新的user-item集K={(U,I)}，其中如果(U,I)是正样本，则RUI=1，否则RUI=0。损失函数如下所示：

上式中的是用来防止过拟合的正则化项，λ需要根据具体应用场景反复实验得到。损失函数的优化使用随机梯度下降算法：

通过求参数PUK和QKI的偏导确定最快的下降方向；

迭代计算不断优化参数（迭代次数事先人为设置），直到参数收敛。

其中，α是学习速率，α越大，迭代下降的越快。α和λ一样，也需要根据实际的应用场景反复实验得到。本书中，作者在MovieLens数据集上进行实验，他取分类数F=100，α=0.02，λ=0.01。
【注意】：书中在上面四个式子中都缺少了

综上所述，执行LFM需要：

根据数据集初始化P和Q矩阵（这是我暂时没有弄懂的地方，这个初始化过程到底是怎么样进行的，还恳请各位童鞋予以赐教。）
确定4个参数：分类数F，迭代次数N，学习速率α，正则化参数λ。

LFM的伪代码可以表示如下：

    def LFM(user_items, F, N, alpha, lambda):

        #初始化P,Q矩阵

        [P, Q] = InitModel(user_items, F)

        #开始迭代

        For step in range(0, N):

            #从数据集中依次取出user以及该user喜欢的iterms集

            for user, items in user_item.iterms():

                #随机抽样，为user抽取与items数量相当的负样本，并将正负样本合并，用于优化计算

                samples = RandSelectNegativeSamples(items)

                #依次获取item和user对该item的兴趣度

                for item, rui in samples.items():

                    #根据当前参数计算误差

                    eui = eui - Predict(user, item)

                    #优化参数

                    for f in range(0, F):

                        P[user][f] += alpha * (eui * Q[f][item] - lambda * P[user][f])

                        Q[f][item] += alpha * (eui * P[user][f] - lambda * Q[f][item])

            #每次迭代完后，都要降低学习速率。一开始的时候由于离最优值相差甚远，因此快速下降；

            #当优化到一定程度后，就需要放慢学习速率，慢慢的接近最优值。

            alpha *= 0.9

转载自：http://blog.csdn.net/ariessurfer/article/details/43484323

【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐的更多相关文章

推荐系统| ② 离线推荐&基于隐语义模型的协同过滤推荐
一.离线推荐服务离线推荐服务是综合用户所有的历史数据,利用设定的离线统计算法和离线推荐算法周期性的进行结果统计与保存,计算的结果在一定时间周期内是固定不变的,变更的频率取决于算法调度的频率. 离线推 ...
推荐系统之隐语义模型(LFM)
LFM(latent factor model)隐语义模型,这也是在推荐系统中应用相当普遍的一种模型.那这种模型跟ItemCF或UserCF的不同在于: 对于UserCF,我们可以先计算和目标用户兴趣 ...
推荐系统之隐语义模型LFM
LFM(latent factor model)隐语义模型,这也是在推荐系统中应用相当普遍的一种模型.那这种模型跟ItemCF或UserCF的不同在于: 对于UserCF,我们可以先计算和目标用户兴趣 ...
海量数据挖掘MMDS week4: 推荐系统之隐语义模型latent semantic analysis
http://blog.csdn.net/pipisorry/article/details/49256457 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
推荐系统--隐语义模型LFM
主要介绍隐语义模型 LFM(latent factor model). 隐语义模型最早在文本挖掘领域被提出,用于找到文本的隐含语义,相关名词有 LSI.pLSA.LDA 等.在推荐领域,隐语义模型也 ...
使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
RS：关于协同过滤，矩阵分解，LFM隐语义模型三者的区别
项亮老师在其所著的<推荐系统实战>中写道: 第2章利用用户行为数据 2.2.2 用户活跃度和物品流行度的关系 [仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法.学术界对协同过滤算 ...
LFM 隐语义模型
隐语义模型: 物品表示为长度为k的向量q(每个分量都表示物品具有某个特征的程度) 用户兴趣表示为长度为k的向量p(每个分量都表示用户对某个特征的喜好程度) 用户u对物品i的兴趣 ...
推荐系统第5周--- 基于内容的推荐，隐语义模型LFM
基于内容的推荐

随机推荐

如何由Height Map生成Normal Map
转自:http://www.cnblogs.com/cxrs/archive/2009/11/01/1594155.html Nvidia和ATI都有相应的工具把Heightmap转成NormalMa ...
ios 从网络上获取图片并在UIImageView中显示
ios 从网络上获取图片 -(UIImage *) getImageFromURL:(NSString *)fileURL { NSLog(@"执行图片下载函数"); UIIm ...
codevs 5429 完全背包
单调队列优化. 好像有点烦...调了许久. #include<iostream> #include<cstdio> #include<cstring> #inclu ...
linux命令：rm
1.介绍: rm用来删除文件或者目录,对于链接文件,只删除了链接,不删除源文件.rm是一个非常危险的命令,像rm -rf /这个命令运行后,后果不堪设想. 2.命令格式: rm [选项] 文件/目录 ...
进程同步（二）—— 信号量&内存共享
内存共享是进程间常用的通信方式,可以实现两个完全独立的进程通信. 在访问共享内存时,同时需要信号量进行访问控制. 使用ipcs -m命令可以查看系统共享内存,ipce -m + key 可以删除指定的 ...
C#导入、导出功能
//导出功能 protected void btnExport(object sender, EventArgs e) { //用来打开下载窗口 string fileName = "中心联 ...
PHP 防范CC攻击
CC攻击就是对方利用程序或一些代理对您的网站进行不间断的访问,造成您的网站处理不了而处于当机状态,下面是PHP方法:将以下代码另存为php文件,然后首行include入你的common.php文件中. ...
Bat脚本处理ftp超强案例解说
Bat脚本处理ftp超强案例解说原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明.否则将追究法律责任.http://369369.blog.51cto.com/31 ...
Shell字符串截取
shell中截取字符串的方法有很多中, ${expression}一共有9种使用方法. ${parameter:-word} ${parameter:=word} ${parameter:?word} ...
Cocos2d-x游戏移植到Android平台
1.所需环境支持:Android SDK.NDK.Eclipse.Cygwin.(本人所用系统WIN7-64位) (1)Cygwin的下载安装: Cygwin是Windows下的Linux模拟环境,用 ...

【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐

【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐的更多相关文章

随机推荐

热门专题