浅谈隐语义模型和非负矩阵分解NMF

本文从基础介绍隐语义模型和NMF.

隐语义模型

”隐语义模型“常常在推荐系统和文本分类中遇到，最初来源于IR领域的LSA(Latent Semantic Analysis),举两个case加快理解。

向用户推荐物品

在推荐系统中，可以通过隐含语义模型将用户（user）和物品（item）自动分类，这些类别是自动生成的。这些类别也可以叫做“隐含的分类”，也许看不懂。每个用户或者物品会被分到多个类别中，属于某个类别的权重会被计算出来。

假设现在有一个大小为m×n的评分矩阵V，包含了m个用户对n个物品的评分，评分从0到5，值越大代表越喜欢，0代表没有打分。设定共有r个隐含的分类。通过一些方法，将V展开为两个相乘的矩阵：

V = W*H

其中，W的大小为m×r，H的大小为r×n。在隐语义模型中，W(i,j)被解释为用户i属于类别j的权重，H(a,b)被解释为物品b属于类别a的的权重。

如果用户u对物品i没有评分，可以将这个评分r(u,i)预测为：

r(u,i) = sum(W(i, :) .* H(:, i))

据此可以构建一个推荐系统。

网易云音乐的推荐算法，应该如此。

文本分类

类似上面的推荐系统。词袋模型与文档-词矩阵中介绍过文档-词矩阵。将数据集中的一堆文本构造成文档-词矩阵V，如果共有m个文本，n个单词，那么V的大小为m×n。V(i,j)表示文档i中出现单词j的次数。

设定共有r个隐含的分类。通过一些方法，将V展开为两个相乘的矩阵：

V = W*H

其中，W的大小为m×r，H的大小为r×n。在隐语义模型中，W(i,j)被解释为文档i属于类别j的权重，H(a,b)被解释为单词b属于类别a的的权重。

对于一个文档，其权重最大的类别被看作是该文档的类别。由于设定共有r个隐含的分类，分类结果也是r个份分类。

NMF

NMF，全称为non-negative matrix factorization，翻译为“非负矩阵分解”，可以用于隐语义模型。非负矩阵，就是矩阵中的每个元素都是非负的。将非负矩阵V分解为两个非负矩阵W和H的乘，叫做非负矩阵分解。那么，该怎么分解呢？在下面的这篇论文里，给出了两个方法并给出了具体证明。

http://papers.nips.cc/paper/1861-algorithms-for-non-negative-matrix-factorization.pdf

浅谈隐语义模型和非负矩阵分解NMF的更多相关文章

文本主题模型之非负矩阵分解(NMF)
在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题.这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解 ...
RS：关于协同过滤，矩阵分解，LFM隐语义模型三者的区别
项亮老师在其所著的<推荐系统实战>中写道: 第2章利用用户行为数据 2.2.2 用户活跃度和物品流行度的关系 [仅仅基于用户行为数据设计的推荐算法一般称为协同过滤算法.学术界对协同过滤算 ...
推荐系统--隐语义模型LFM
主要介绍隐语义模型 LFM(latent factor model). 隐语义模型最早在文本挖掘领域被提出,用于找到文本的隐含语义,相关名词有 LSI.pLSA.LDA 等.在推荐领域,隐语义模型也 ...
【转载】使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
LFM 隐语义模型
隐语义模型: 物品表示为长度为k的向量q(每个分量都表示物品具有某个特征的程度) 用户兴趣表示为长度为k的向量p(每个分量都表示用户对某个特征的喜好程度) 用户u对物品i的兴趣 ...
使用LFM（Latent factor model）隐语义模型进行Top-N推荐
最近在拜读项亮博士的<推荐系统实践>,系统的学习一下推荐系统的相关知识.今天学习了其中的隐语义模型在Top-N推荐中的应用,在此做一个总结. 隐语义模型LFM和LSI,LDA,Topic ...
海量数据挖掘MMDS week4: 推荐系统之隐语义模型latent semantic analysis
http://blog.csdn.net/pipisorry/article/details/49256457 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
推荐系统之隐语义模型(LFM)
LFM(latent factor model)隐语义模型,这也是在推荐系统中应用相当普遍的一种模型.那这种模型跟ItemCF或UserCF的不同在于: 对于UserCF,我们可以先计算和目标用户兴趣 ...
推荐系统第5周--- 基于内容的推荐，隐语义模型LFM
基于内容的推荐

随机推荐

使用php实现网站验证码功能【博主推荐】
验证码是网站常用的一项安全措施,也是新人站长较难掌握的一项技能,这里我向大家介绍一简单有效的验证码实现方法. 开始之前在正式开始之前我们需要打开php的gd2图形库支持(在php. ...
Java监控常用工具 .
Java的安装包自带了很多优秀的工具,善用这些工具对于监控和调试Java程序非常有帮助.常用工具如下: jps 用途:jps用来查看JVM里面所有进程的具体状态, 包括进程ID,进程启动的路径等等. ...
循环语句——do…while语句
一.do while语句结构 do { 执行语句 } while (条件表达式); 条件表达式必须是trur或false 二.do while语句特点不论条件是否满足,都先执行一次执行语句三.示例 ...
uml系列（八）——部署图与构件图
之前说了uml的设计图,现在说一下uml的最后两种图:构件图.部署图.这两种图之所以放在一起是因为它们都是软件的实现图. 构件图构件图是描述一组构件之间的组织与依赖关系的模型.那 ...
linux上安装Oracle 11g R2 标准版 64位
一.Oracle 安装前的准备检查一下包,必须全部安装: binutils-2.20.51.0.2-5.43.el6.x86_64 compat-libstdc++-296-2.96-144.el6 ...
【12c】扩展数据类型（Extended Data Types）-- MAX_STRING_SIZE
[12c]扩展数据类型(Extended Data Types)-- MAX_STRING_SIZE 在12c中,与早期版本相比,诸如VARCHAR2, NAVARCHAR2以及 RAW这些数据类型的 ...
C/C++中慎用宏(#define)
宏的定义在程序中是非常有用的,但是使用不当,就会给自身造成很大的困扰.通常这种困扰为:宏使用在计算方面. 本例子主要是在宏的计算方面,很多时候,大家都知道定义一个计算的宏,对于编译和编程是多么的有用. ...
EF操作扩展之async
EF的操作类网上很多类,我只是把我在平时项目中的类进行一些改进和扩展,扩展了部分同步和异步的EF操作接口 /// <summary> /// 接口数据操作基础类 /// </sum ...
oozie配置安装与原理
概述当前开源的hadoop任务工作流管理主要有oozie和Azkaban,本文先介绍oozie的配置安装与基本运行原理. 配置安装 (参考https://segmentfault.com/a/11 ...
在vim中搜索单词
基本的搜索: /pattern 向前搜索 ?pattern 向后搜索 n 向前重复搜索 N 向后重复搜索搜索并替换 :%s/sear ...

浅谈隐语义模型和非负矩阵分解NMF

浅谈隐语义模型和非负矩阵分解NMF的更多相关文章

随机推荐

热门专题