非负矩阵分解（NMF）原理及算法实现

一、矩阵分解回想

矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积。对于上述的用户-商品（评分矩阵），记为能够将其分解为两个或者多个矩阵的乘积，如果分解成两个矩阵和。我们要使得矩阵和的乘积能够还原原始的矩阵

当中，矩阵表示的是m个用户于k个主题之间的关系，而矩阵表示的是k个主题与n个商品之间的关系

通常在用户对商品进行打分的过程中，打分是非负的，这就要求：

这便是非负矩阵分解（NMF）的来源。

二、非负矩阵分解

2.1、非负矩阵分解的形式化定义

上面介绍了非负矩阵分解的基本含义。简单来讲，非负矩阵分解是在矩阵分解的基础上对分解完毕的矩阵加上非负的限制条件。即对于用户-商品矩阵找到两个矩阵和，使得：

同一时候要求：

2.2、损失函数

为了能够定量的比较矩阵和的近似程度，提出了两种损失函数的定义方式：
欧几里得距离：

KL散度：

在KL散度的定义中，。当且仅当时取得等号。

当定义好损失函数后，须要求解的问题就变成了例如以下的形式，相应于不同的损失函数：

求解例如以下的最小化问题：

2.3、优化问题的求解

乘法更新规则，详细操作例如以下：

对于欧几里得距离的损失函数：

对于KL散度的损失函数：

上述的乘法规则主要是为了在计算的过程中保证非负，而基于梯度下降的方法中，加减运算无法保证非负。事实上上述的惩罚更新规则与梯度下降的算法是等价的。以下以平方距离为损失函数说明上述过程的等价性：

平方损失函数能够写成：

使用损失函数对求偏导数：

依照梯度下降法的思路：

即为：

令，即能够得到上述的乘法更新规则的形式。

2.4、非负矩阵分解的实现

 from numpy import *

 from pylab import *

 from numpy import *

 def load_data(file_path):

     f = open(file_path)

     V = []

     for line in f.readlines():

         lines = line.strip().split("\t")

         data = []

         for x in lines:

             data.append(float(x))

         V.append(data)

     return mat(V)

 def train(V, r, k, e):

     m, n = shape(V)

     #先随机给定一个W、H，保证矩阵的大小

     W = mat(random.random((m, r)))

     H = mat(random.random((r, n)))

 #K为迭代次数

     for x in range(k):

         #error

         V_pre = W * H

         E = V - V_pre

         #print E

         err = 0.0

         for i in range(m):

             for j in range(n):

                 err += E[i,j] * E[i,j]

         print(err)

         data.append(err)

         if err < e:

             break

 #权值更新

         a = W.T * V

         b = W.T * W * H

         #c = V * H.T

         #d = W * H * H.T

         for i_1 in range(r):

             for j_1 in range(n):

                 if b[i_1,j_1] != 0:

                     H[i_1,j_1] = H[i_1,j_1] * a[i_1,j_1] / b[i_1,j_1]

         c = V * H.T

         d = W * H * H.T

         for i_2 in range(m):

             for j_2 in range(r):

                 if d[i_2, j_2] != 0:

                     W[i_2,j_2] = W[i_2,j_2] * c[i_2,j_2] / d[i_2, j_2]

     return W,H,data

 if __name__ == "__main__":

     #file_path = "./data_nmf"

     # file_path = "./data1"

     data = []

     # V = load_data(file_path)

     V=[[5,3,2,1],[4,2,2,1,],[1,1,2,5],[1,2,2,4],[2,1,5,4]]

     W, H ,error= train(V, 2, 100, 1e-5 )

     print (V)

     print (W)

     print (H)

     print (W * H)

     n = len(error)

     x = range(n)

     plot(x, error, color='r', linewidth=3)

     plt.title('Convergence curve')

     plt.xlabel('generation')

     plt.ylabel('loss')

     show()

这里需要注意训练时r值的选择：r可以表示和主题数或者你想要的到的特征数

K值的选择：k表示训练的次数，设置的越大模型的拟合效果越好，但是具体设置多少，要根据性价比看，看误差曲线的变化

非负矩阵分解（NMF）原理及算法实现的更多相关文章

非负矩阵分解NMF
http://blog.csdn.net/pipisorry/article/details/52098864 非负矩阵分解(NMF,Non-negative matrix factorization ...
文本主题模型之非负矩阵分解(NMF)
在文本主题模型之潜在语义索引(LSI)中,我们讲到LSI主题模型使用了奇异值分解,面临着高维度计算量太大的问题.这里我们就介绍另一种基于矩阵分解的主题模型:非负矩阵分解(NMF),它同样使用了矩阵分解 ...
【代码更新】单细胞分析实录(21): 非负矩阵分解(NMF)的R代码实现，只需两步，啥图都有
1. 起因之前的代码(单细胞分析实录(17): 非负矩阵分解(NMF)代码演示)没有涉及到python语法,只有4个python命令行,就跟Linux下面的ls grep一样的.然鹅,有几个小伙伴不 ...
推荐算法——非负矩阵分解(NMF)
一.矩阵分解回想在博文推荐算法--基于矩阵分解的推荐算法中,提到了将用户-商品矩阵进行分解.从而实现对未打分项进行打分. 矩阵分解是指将一个矩阵分解成两个或者多个矩阵的乘积.对于上述的用户-商品矩阵 ...
浅谈隐语义模型和非负矩阵分解NMF
本文从基础介绍隐语义模型和NMF. 隐语义模型 ”隐语义模型“常常在推荐系统和文本分类中遇到,最初来源于IR领域的LSA(Latent Semantic Analysis),举两个case加快理解. ...
单细胞分析实录(17): 非负矩阵分解(NMF)代码演示
本次演示使用的数据来自2017年发表于Cell的头颈鳞癌单细胞文章:Single-Cell Transcriptomic Analysis of Primary and Metastatic Tumo ...
数据降维-NMF非负矩阵分解
1.什么是非负矩阵分解? NMF的基本思想可以简单描述为:对于任意给定的一个非负矩阵V,NMF算法能够寻找到一个非负矩阵W和一个非负矩阵H,使得满足 ,从而将一个非负的矩阵分解为左右两个非负矩阵的乘积 ...
降维、特征提取与流形学习--非负矩阵分解（NMF）
非负矩阵分解(NMF)是一种无监督学习算法,目的在于提取有用的特征(可以识别出组合成数据的原始分量),也可以用于降维,通常不用于对数据进行重建或者编码. NMF将每个数据点写成一些分量的加权求和(与P ...
机器学习--K折交叉验证和非负矩阵分解
1.交叉验证交叉验证(Cross validation),交叉验证用于防止模型过于复杂而引起的过拟合.有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法. 于是可以先在一个子集上做 ...

随机推荐

JavaScript中函数声明和函数表达式的区别
声明一个函数: var x=1; foo(); function foo() { console.log(x);//1 } myfun();//报错定义一个函数表达式: var myfun=myfo ...
The eighth day
time n(名词):时间:次,时代,时刻: vt(及物动词):为...安排时间:测定...的时间:调准(机械的速度): vi(不及物动词):合拍,和谐,打拍子 files (原型是fly) vi(不 ...
使用kvm制作Eucalyptus镜像（CentOS 6.5为例）
1.前言 Elastic Utility Computing Architecture for Linking Your Programs To Useful Systems (Eucalyptus) ...
URL最大长度问题
在http协议中,其实并没有对url长度作出限制,往往url的最大长度和用户浏览器和Web服务器有关,不一样的浏览器,能接受的最大长度往往是不一样的,当然,不一样的Web服务器能够处理的最大长度的UR ...
免费的freedns实现动态域名和url转发
路由器的固件是dd-wrt 到freedns.afraid.org上注册一个动态域名,如果默认的端口无法使用80,需要配置二级域名的url转发功能. 实测2个月很稳定. 另外为了防止主机ip地址更新频 ...
EM理解（转）
EM是我一直想深入学习的算法之一,第一次听说是在NLP课中的HMM那一节,为了解决HMM的参数估计问题,使用了EM算法.在之后的MT中的词对齐中也用到了.在Mitchell的书中也提到EM可以用于贝叶 ...
lsscsi 与 cat /proc/scsi/scsi
[root@localhost ~]# lsscsi[0:0:0:0] disk SEAGATE ST300MM0048 N001 /dev/sda [0:0:2:0] ...
primeng 中 pickList组件的使用
primeng 是为angular 开发的一个强大的组建库,有很多强大的功能,拿来即用.但要真正满足自己的业务需求,就是按自己的需求进行修改,比如默认的样式等等. 进入正题. pickList 组件的 ...
macbook pro开机键盘键盘和触摸板没反应问题
今天遇到开机键盘和触摸板没反应的问题,打电话给售后,他叫我插一个usb外置键盘,开机时按shift+alt+control+电源键开机,突然发现可以了,这bug我也是醉了
linux分区之ext2,ext3,ext4,gpt
linux分区之ext2,ext3,ext4,gpt 2013-07-10 12:00:24 标签:ext3 gpt 原创作品,允许转载,转载时请务必以超链接形式标明文章原始出处 .作者信息和本声明 ...

非负矩阵分解（NMF）原理及算法实现

非负矩阵分解（NMF）原理及算法实现的更多相关文章

随机推荐

热门专题