个性化召回算法实践(三)—

将用户行为表示为二分图模型。假设给用户$u$进行个性化推荐，要计算所有节点相对于用户$u$的相关度，则PersonalRank从用户$u$对应的节点开始游走，每到一个节点都以$1-d$的概率停止游走并从$u$重新开始，或者以$d$的概率继续游走，从当前节点指向的节点中按照均匀分布随机选择一个节点往下游走。这样经过很多轮游走之后，每个顶点被访问到的概率也会收敛趋于稳定，这个时候我们就可以用概率来进行排名了。

在执行算法之前，我们需要初始化每个节点的初始概率值。如果我们对用户$u$进行推荐，则令$u$对应的节点的初始访问概率为1，其他节点的初始访问概率为0，然后再使用迭代公式计算。

\[PR(i)=(1-d)r_i+d\sum_{j \in in(i)} \frac {PR(j)}{|out(i)|} \\
r_i =
\begin{cases}
1 \ \ i=u \\
0 \ \ i!=u
\end{cases}
\]

一般有两种算法实现，一种是矩阵化实现，一种是非矩阵化实现。

非矩阵化实现

根据userID与itemID建立二分图。在代码中，self.G代表全局有向图，为区分userID与itemID分别加了不同的前缀。另外，user-item对保存在图中，方向是相互的。接下来，就在图中根据概率进行转移。

其中G = dict(item_user,**user_item)的含义是将两个dict拼接成一个dict

import pandas as pd

import time

class PersonalRank:

    def __init__(self,X,Y):

        X,Y = ['user_'+str(x) for x in X],['item_'+str(y) for y in Y]

        self.G = self.get_graph(X,Y)

    def get_graph(self,X,Y):

        """

        Args:

            X: user id

            Y: item id

        Returns:

            graph:dic['user_id1':{'item_id1':1},  ... ]

        """

        item_user = dict()

        for i in range(len(X)):

            user = X[i]

            item = Y[i]

            if item not in item_user:

                item_user[item] = {}

            item_user[item][user]=1

        user_item = dict()

        for i in range(len(Y)):

            user = X[i]

            item = Y[i]

            if user not in user_item:

                user_item[user] = {}

            user_item[user][item]=1

        G = dict(item_user,**user_item)

        return G

    def recommend(self, alpha, userID, max_depth,K=10):

        # rank = dict()

        userID = 'user_' + str(userID)

        rank = {x: 0 for x in self.G.keys()}

        rank[userID] = 1

        # 开始迭代

        begin = time.time()

        for k in range(max_depth):

            tmp = {x: 0 for x in self.G.keys()}

            # 取出节点i和他的出边尾节点集合ri

            for i, ri in self.G.items():

                # 取节点i的出边的尾节点j以及边E(i,j)的权重wij,边的权重都为1，归一化后就是1/len(ri)

                for j, wij in ri.items():

                    tmp[j] += alpha * rank[i] / (1.0 * len(ri))

            tmp[userID] += (1 - alpha)

            rank = tmp

        end = time.time()

        print('use_time', end - begin)

        lst = sorted(rank.items(), key=lambda x: x[1], reverse=True)[:K]

        for ele in lst:

            print("%s:%.3f, \t" % (ele[0], ele[1]))

if __name__ == '__main__':

    moviesPath = '../data/ml-1m/movies.dat'

    ratingsPath = '../data/ml-1m/ratings.dat'

    usersPath = '../data/ml-1m/users.dat'

    # usersDF = pd.read_csv(usersPath,index_col=None,sep='::',header=None,names=['user_id', 'gender', 'age', 'occupation', 'zip'])

    # moviesDF = pd.read_csv(moviesPath,index_col=None,sep='::',header=None,names=['movie_id', 'title', 'genres'])

    ratingsDF = pd.read_csv(ratingsPath, index_col=None, sep='::', header=None,names=['user_id', 'movie_id', 'rating', 'timestamp'])

    X=ratingsDF['user_id'][:1000]

    Y=ratingsDF['movie_id'][:1000]

    PersonalRank(X,Y).recommend(alpha=0.8,userID=1,max_depth=50,K=30)#输出对用户1推荐的 top10 item

    # print('PersonalRank result',rank)

矩阵化实现

\[r = (1-\alpha)r_o + \alpha M^T r
\]

其中，$r$是$m+n$行，1列的矩阵，每一行代表该顶点对固定顶点的PR值；是$m+n$行，1列的矩阵，负责选取某一个顶点作为固定顶点，其数值只有1行为1，其余为0。$M$是m+n行，m+n列的矩阵，是转移矩阵，其值$M_{ij}=\frac{1}{out(i)},j \in out(i) \ else \ 0$,即为顶点的出度倒数，若没有连接边则为0。上式可转换为：

\[r = (E-\alpha M^T)^{-1}(1-\alpha)r_o
\]

其中，$(E-\alpha M^T)^{-1}$可以看做所有顶点的推荐结果，每一列代表一个顶点项，对该顶点的PR值。

#-*-coding:utf-8-*-

"""

author:jamest

date:20190310

PersonalRank function with Matrix

"""

import pandas as pd

import numpy as np

import time

import operator

from scipy.sparse import coo_matrix

from scipy.sparse.linalg import gmres

class PersonalRank:

    def __init__(self,X,Y):

        X,Y = ['user_'+str(x) for x in X],['item_'+str(y) for y in Y]

        self.G = self.get_graph(X,Y)

    def get_graph(self,X,Y):

        """

        Args:

            X: user id

            Y: item id

        Returns:

            graph:dic['user_id1':{'item_id1':1},  ... ]

        """

        item_user = dict()

        for i in range(len(X)):

            user = X[i]

            item = Y[i]

            if item not in item_user:

                item_user[item] = {}

            item_user[item][user]=1

        user_item = dict()

        for i in range(len(Y)):

            user = X[i]

            item = Y[i]

            if user not in user_item:

                user_item[user] = {}

            user_item[user][item]=1

        G = dict(item_user,**user_item)

        return G

    def graph_to_m(self):

        """

        Returns:

            a coo_matrix sparse mat M

            a list,total user item points

            a dict,map all the point to row index

        """

        graph = self.G

        vertex = list(graph.keys())

        address_dict = {}

        total_len = len(vertex)

        for index in range(len(vertex)):

            address_dict[vertex[index]] = index

        row = []

        col = []

        data = []

        for element_i in graph:

            weight = round(1/len(graph[element_i]),3)

            row_index=  address_dict[element_i]

            for element_j in graph[element_i]:

                col_index = address_dict[element_j]

                row.append(row_index)

                col.append(col_index)

                data.append(weight)

        row = np.array(row)

        col = np.array(col)

        data = np.array(data)

        m = coo_matrix((data,(row,col)),shape=(total_len,total_len))

        return m,vertex,address_dict

    def mat_all_point(self,m_mat,vertex,alpha):

        """

        get E-alpha*m_mat.T

        Args:

            m_mat

            vertex:total item and user points

            alpha:the prob for random walking

        Returns:

            a sparse

        """

        total_len = len(vertex)

        row = []

        col = []

        data = []

        for index in range(total_len):

            row.append(index)

            col.append(index)

            data.append(1)

        row = np.array(row)

        col = np.array(col)

        data = np.array(data)

        eye_t = coo_matrix((data,(row,col)),shape=(total_len,total_len))

        return eye_t.tocsr()-alpha*m_mat.tocsr().transpose()

    def recommend_use_matrix(self, alpha, userID, K=10,use_matrix=True):

        """

        Args:

            alpha:the prob for random walking

            userID:the user to recom

            K:recom item num

        Returns:

            a dic,key:itemid ,value:pr score

        """

        m, vertex, address_dict = self.graph_to_m()

        userID = 'user_' + str(userID)

        print('add',address_dict)

        if userID not in address_dict:

            return []

        score_dict = {}

        recom_dict = {}

        mat_all = self.mat_all_point(m,vertex,alpha)

        index = address_dict[userID]

        initial_list = [[0] for row in range(len(vertex))]

        initial_list[index] = [1]

        r_zero = np.array(initial_list)

        res = gmres(mat_all,r_zero,tol=1e-8)[0]

        for index in range(len(res)):

            point = vertex[index]

            if len(point.strip().split('_'))<2:

                continue

            if point in self.G[userID]:

                continue

            score_dict[point] = round(res[index],3)

        for zuhe in sorted(score_dict.items(),key=operator.itemgetter(1),reverse=True)[:K]:

            point,score = zuhe[0],zuhe[1]

            recom_dict[point] = score

        return recom_dict

if __name__ == '__main__':

    moviesPath = '../data/ml-1m/movies.dat'

    ratingsPath = '../data/ml-1m/ratings.dat'

    usersPath = '../data/ml-1m/users.dat'

    # usersDF = pd.read_csv(usersPath,index_col=None,sep='::',header=None,names=['user_id', 'gender', 'age', 'occupation', 'zip'])

    # moviesDF = pd.read_csv(moviesPath,index_col=None,sep='::',header=None,names=['movie_id', 'title', 'genres'])

    ratingsDF = pd.read_csv(ratingsPath, index_col=None, sep='::', header=None,names=['user_id', 'movie_id', 'rating', 'timestamp'])

    X=ratingsDF['user_id'][:1000]

    Y=ratingsDF['movie_id'][:1000]

    rank = PersonalRank(X,Y).recommend_use_matrix(alpha=0.8,userID=1,K=30)

    print('PersonalRank result',rank)

参考：

推荐系统概述（一）

Github

个性化召回算法实践(三)——PersonalRank算法的更多相关文章

个性化排序算法实践(三)——deepFM算法
FM通过对于每一位特征的隐变量内积来提取特征组合,最后的结果也不错,虽然理论上FM可以对高阶特征组合进行建模,但实际上因为计算复杂度原因,一般都只用到了二阶特征组合.对于高阶特征组合来说,我们很自然想 ...
个性化排序算法实践(五)——DCN算法
wide&deep在个性化排序算法中是影响力比较大的工作了.wide部分是手动特征交叉(负责memorization),deep部分利用mlp来实现高阶特征交叉(负责generalizatio ...
个性化召回算法实践(一)——CF算法
协同过滤推荐(Collaborative Filtering Recommendation)主要包括基于用户的协同过滤算法与基于物品的协同过滤算法. 下面,以movielens数据集为例,分别实践这两 ...
个性化召回算法实践(四)——ContentBased算法
ContentBased算法的思想非常简单:根据用户过去喜欢的物品(本文统称为 item),为用户推荐和他过去喜欢的物品相似的物品.而关键就在于这里的物品相似性的度量,这才是算法运用过程中的核心. C ...
个性化召回算法实践(二)——LFM算法
LFM算法核心思想是通过隐含特征(latent factor)联系用户兴趣和物品,找出潜在的主题和分类.LFM(latent factor model)通过如下公式计算用户u对物品i的兴趣: \[ P ...
个性化排序算法实践(一)——FM算法
因子分解机(Factorization Machine,简称FM)算法用于解决大规模稀疏数据下的特征组合问题.FM可以看做带特征交叉的LR. 理论部分可参考FM系列,通过将FM的二次项化简,其复杂度可 ...
个性化排序算法实践(二)——FFM算法
场感知分解机(Field-aware Factorization Machine ,简称FFM)在FM的基础上进一步改进,在模型中引入类别的概念,即field.将同一个field的特征单独进行one- ...
[迷宫中的算法实践]迷宫生成算法——递归分割算法
Recursive division method Mazes can be created with recursive division, an algorithm which wo ...
算法实践--最小生成树(Kruskal算法)
什么是最小生成树(Minimum Spanning Tree) 每两个端点之间的边都有一个权重值,最小生成树是这些边的一个子集.这些边可以将所有端点连到一起,且总的权重最小下图所示的例子,最小生成树 ...

随机推荐

获取两日期之前集合并转为String类型的集合
/** * 获取两个日期之间的日期 * * @param start 开始日期 * @param end 结束日期 * @return 日期集合 */ private static List<D ...
Beta冲刺（3/4）
队名:秃头小队组长博客作业博客组长徐俊杰过去两天完成的任务:学习了很多东西 Github签入记录接下来的计划:继续学习还剩下哪些任务:后端部分燃尽图遇到的困难:自己太菜了收获和疑问: ...
第07组 Alpha冲刺（1/4)
队名:秃头小队组长博客作业博客组长徐俊杰过去两天完成的任务:完成人员分配,初步学习Android开发 Github签入记录接下来的计划:继续完成Android开发的学习,带领团队进行前后端开 ...
使用gomod后，导入模块与编译要注意的事项
问题:在使用go mod后,执行编译会报错: Cannot load xxx: cannot find module providing package xxx 目录结构如下: J:. │ └─src ...
Deepin中安装docker
1.sudo apt install docker-ce: 2.安装好后可以用docker version查看一下是否成功,还可以通过网络详情里是否多了一个docker0来判断: 3.sudo use ...
LeetCode 643. 子数组最大平均数 I(Maximum Average Subarray I)
643. 子数组最大平均数 I 643. Maximum Average Subarray I 题目描述给定 n 个整数,找出平均数最大且长度为 k 的连续子数组,并输出该最大平均数. LeetCo ...
PyTorch 常用代码段整理
基础配置检查 PyTorch 版本 torch.__version__ # PyTorch version torch.version.cuda ...
Spring之3：ListableBeanFactory
ListableBeanFactory在BeanFactory的位置见<Spring源码阅览——BeanFactory体系结构> ListableBeanFactory:同样扩展BeanF ...
Hadoop 求单词count数
package com.yw.hadoop273; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongW ...
An unavoidable detour for home CodeForces - 814E (dp)
大意: 给定一棵树每个点的度数, 求所有满足条件的树的个数每个点到$1$的最短路唯一假设$l_i$为点$i$到$1$的最短距离, 那么$l_i\ge l_{i-1}$ 每个点度数范围$2\le d ...

个性化召回算法实践(三)——PersonalRank算法

非矩阵化实现

矩阵化实现

个性化召回算法实践(三)——PersonalRank算法的更多相关文章

随机推荐

热门专题