推荐系统之矩阵分解及其Python代码实现

有如下R(5,4)的打分矩阵：（“-”表示用户没有打分）

其中打分矩阵R(n,m)是n行和m列，n表示user个数，m行表示item个数

那么，如何根据目前的矩阵R（5,4）如何对未打分的商品进行评分的预测（如何得到分值为0的用户的打分值）？

——矩阵分解的思想可以解决这个问题，其实这种思想可以看作是有监督的机器学习问题（回归问题）。

矩阵R可以近似表示为P与Q的乘积：R（n,m）≈ P(n,K)*Q(K,m)

矩阵分解的过程中，将原始的评分矩阵分解成两个矩阵和的乘积：

矩阵P(n,K)表示n个user和K个特征之间的关系矩阵，这K个特征是一个中间变量，矩阵Q(K,m)的转置是矩阵Q(m,K)，矩阵Q(m,K)表示m个item和K个特征之间的关系矩阵，这里的K值是自己控制的，可以使用交叉验证的方法获得最佳的K值。为了得到近似的R(n,m)，必须求出矩阵P和Q，如何求它们呢？

【方法】

1. 首先令

2. 损失函数：使用原始的评分矩阵与重新构建的评分矩阵之间的误差的平方作为损失函数，即：

如果R(i,j)已知，则R(i,j)的误差平方和为：

　　最终，需要求解所有的非“-”项的损失之和的最小值：

3. 使用梯度下降法获得修正的p和q分量：

　　求解损失函数的负梯度：

根据负梯度的方向更新变量：

4. 不停迭代直到算法最终收敛（直到sum(e^2) <=阈值）

（Plus：为了防止过拟合，增加正则化项）

【加入正则项的损失函数求解】

1. 首先令

2. 通常在求解的过程中，为了能够有较好的泛化能力，会在损失函数中加入正则项，以对参数进行约束，加入正则的损失函数为：

也即：

3. 使用梯度下降法获得修正的p和q分量：

　　求解损失函数的负梯度：

　　根据负梯度的方向更新变量：

4. 不停迭代直到算法最终收敛（直到sum(e^2) <=阈值）

【预测】利用上述的过程，我们可以得到矩阵和，这样便可以为用户 i 对商品 j 进行打分：

【Python代码实现如下】（基于Python 3.X ；使用正则项）

 # !/usr/bin/env python

 # encoding: utf-8

 __author__ = 'Scarlett'

 #矩阵分解在打分预估系统中得到了成熟的发展和应用

 # from pylab import *

 import matplotlib.pyplot as plt

 from math import pow

 import numpy

 def matrix_factorization(R,P,Q,K,steps=5000,alpha=0.0002,beta=0.02):

     Q=Q.T  # .T操作表示矩阵的转置

     result=[]

     for step in range(steps):

         for i in range(len(R)):

             for j in range(len(R[i])):

                 if R[i][j]>0:

                     eij=R[i][j]-numpy.dot(P[i,:],Q[:,j]) # .dot(P,Q) 表示矩阵内积

                     for k in range(K):

                         P[i][k]=P[i][k]+alpha*(2*eij*Q[k][j]-beta*P[i][k])

                         Q[k][j]=Q[k][j]+alpha*(2*eij*P[i][k]-beta*Q[k][j])

         eR=numpy.dot(P,Q)

         e=0

         for i in range(len(R)):

             for j in range(len(R[i])):

                 if R[i][j]>0:

                     e=e+pow(R[i][j]-numpy.dot(P[i,:],Q[:,j]),2)

                     for k in range(K):

                         e=e+(beta/2)*(pow(P[i][k],2)+pow(Q[k][j],2))

         result.append(e)

         if e<0.001:

             break

     return P,Q.T,result

 if __name__ == '__main__':

     R=[

         [5,3,0,1],

         [4,0,0,1],

         [1,1,0,5],

         [1,0,0,4],

         [0,1,5,4]

     ]

     R=numpy.array(R)

     N=len(R)

     M=len(R[0])

     K=2

     P=numpy.random.rand(N,K) #随机生成一个 N行 K列的矩阵

     Q=numpy.random.rand(M,K) #随机生成一个 M行 K列的矩阵

     nP,nQ,result=matrix_factorization(R,P,Q,K)

     print("原始的评分矩阵R为：\n",R)

     R_MF=numpy.dot(nP,nQ.T)

     print("经过MF算法填充0处评分值后的评分矩阵R_MF为：\n",R_MF)

 #-------------损失函数的收敛曲线图---------------

     n=len(result)

     x=range(n)

     plt.plot(x,result,color='r',linewidth=3)

     plt.title("Convergence curve")

     plt.xlabel("generation")

     plt.ylabel("loss")

     plt.show()

运行结果如下：

损失函数的收敛曲线图：

【代码的GitHub地址】

https://github.com/shenxiaolinZERO/CoolRSer/blob/master/CoolRSer/MatrixFactorization.py

【Reference】

1、Matrix Factorization: A Simple Tutorial and Implementation in Python

2、矩阵分解在推荐系统的应用以及python代码的实现

随机推荐

FLume监控文件夹，将数据发送给Kafka以及HDFS的配置文件详解
详细配置文件flume-conf.properties如下: ############################################ # producer config ###### ...
Objective-C:MRC手动释放对象内存举例(引用计数器)
手机内存下的类的设计练习: 设计Book类, 1.三个成员变量: title(书名)author(作者).price(价格) 2.不使用@property,自己完成存取方法(set方法,get方 ...
网络编程socket之listen函数
摘要:listen函数使用主动连接套接口变为被连接套接口,使得一个进程可以接受其它进程的请求,从而成为一个服务器进程.在TCP服务器编程中listen函数把进程变为一个服务器,并指定相应的套接字变为被 ...
python 数据处理中的 LabelEncoder 和 OneHotEncoder
One-Hot 编码即独热编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效.这样做的好处主要有:1. 解决了分类器 ...
Div+Css实现段落首行缩进两个字符（text-indent标签）
段落前面空两个字的距离,不要再使用空格了,用CSS实现段落首缩进两个字符.应该使用首行缩进text-indent.text-indent可以使得容器内首行缩进一定单位.比如中文段落一般每段前空两个汉字 ...
NTP Server
Network Time Protocol互联网时间协议 NTP is intended to synchronize all participating computers to within a ...
Diablo 3 Web API
这是暴雪提供的WebAPI,能够通过网页的方式訪问玩家的用户信息.结构相当清晰,非常有借鉴价值. 应用JSON(JavaScript Object Notation)做数据交换,很好理解. 以我的暗黑 ...
关于COM的Unicode string的精彩论述
I need to make a detour for a few moments, and discuss how to handle strings in COM code. If you are ...
用Java发送HTML格式邮件测试类(支持中文)
代码由纯Java写成,支持中文,一目了然,只要将Main函数中的相关信息填写正确就直接用了,便于修改,可以在此类基础上任意扩展成自己的类. 注意做HTML形式的邮件,最好把HTML,CSS都写全,只写 ...
Java中看今天是星期几，礼拜几
下面这段代码就能达到目的: Date today = new Date(); Calendar c=Calendar.getInstance(); c.setTime(to ...

推荐系统之矩阵分解及其Python代码实现

推荐系统之矩阵分解及其Python代码实现的更多相关文章

随机推荐

热门专题