基于neighborhood models(item-based) 的个性化推荐系统

文章主要介绍的是koren 08年发的论文[1], 2.2neighborhood models部分内容（其余部分会陆续补充上来）。

koren论文中用到netflix 数据集，过于大，在普通的pc机上运行时间很长很长。考虑到写文章目地主要是已介绍总结方法为主，所以采用Movielens 数据集。

变量介绍(涉及到的其他变量可以参看上面提到的相关文章)：

利用pearson相关系数，求i,j之间的相关性。

文章中提到shrunk correlation coefficient(收缩的相关系数)，收缩后pearson相关系数作为i,j相似性，后面会通过实践证明收缩的效果会更好。

预测值：

系统评判标准：RMSE, MAE

系统采用5-fold cross-validation(movielens数据集中已经默认划分好了)

注: 用SGD来训练出最优的用户和项的偏置值，后续会补充完整。

详细代码实现：

'''''

Created on Dec 16, 2012 

@Author: Dennis Wu

@E-mail: hansel.zh@gmail.com

@Homepage: http://blog.csdn.net/wuzh670

@Weibo: http://weibo.com/hansel 

Data set download from : http://www.grouplens.org/system/files/ml-100k.zip

'''

from operator import itemgetter, attrgetter

from math import sqrt,fabs,log

import random  

def load_data(filename_train, filename_test):  

    train = {}

    test = {}  

    for line in open(filename_train):

        (userId, itemId, rating, timestamp) = line.strip().split('\t')

        train.setdefault(userId,{})

        train[userId][itemId] = float(rating)  

    for line in open(filename_test):

        (userId, itemId, rating, timestamp) = line.strip().split('\t')

        test.setdefault(userId,{})

        test[userId][itemId] = float(rating)  

    return train, test  

def initialBias(train, userNum, movieNum, mean):  

    bu = {}

    bi = {}

    biNum = {}

    buNum = {}  

    u = 1

    while u < (userNum+1):

        su = str(u)

        for i in train[su].keys():

            bi.setdefault(i,0)

            biNum.setdefault(i,0)

            bi[i] += (train[su][i] - mean)

            biNum[i] += 1

        u += 1  

    i = 1

    while i < (movieNum+1):

        si = str(i)

        biNum.setdefault(si,0)

        if biNum[si] >= 1:

            bi[si] = bi[si]*1.0/(biNum[si]+25)

        else:

            bi[si] = 0.0

        i += 1  

    u = 1

    while u < (userNum+1):

        su = str(u)

        for i in train[su].keys():

            bu.setdefault(su,0)

            buNum.setdefault(su,0)

            bu[su] += (train[su][i] - mean - bi[i])

            buNum[su] += 1

        u += 1  

    u = 1

    while u < (userNum+1):

        su = str(u)

        buNum.setdefault(su,0)

        if buNum[su] >= 1:

            bu[su] = bu[su]*1.0/(buNum[su]+10)

        else:

            bu[su] = 0.0

        u += 1

    return bu, bi  

def initial(train, userNum, movieNum):  

    average = {}

    Sij = {}

    mean = 0

    num = 0

    N = {}

    for u in train.keys():

        for i in train[u].keys():

            mean += train[u][i]

            num += 1

            average.setdefault(i,0)

            average[i] += train[u][i]

            N.setdefault(i,0)

            N[i] += 1

            Sij.setdefault(i,{})

            for j in train[u].keys():

                if i == j:

                    continue

                Sij[i].setdefault(j,[])

                Sij[i][j].append(u)  

    mean = mean / num

    for i in average.keys():

        average[i] = average[i] / N[i]  

    pearson = {}

    itemSim = {}

    for i in Sij.keys():

        pearson.setdefault(i,{})

        itemSim.setdefault(i,{})

        for j in Sij[i].keys():

            pearson[i][j] = 1

            part1 = 0

            part2 = 0

            part3 = 0

            for u in Sij[i][j]:

                part1 += (train[u][i] - average[i]) * (train[u][j] - average[j])

                part2 += pow(train[u][i] - average[i], 2)

                part3 += pow(train[u][j] - average[j], 2)

            if part1 != 0:

                pearson[i][j] = part1 / sqrt(part2 * part3)

            itemSim[i][j] = fabs(pearson[i][j] * len(Sij[i][j]) / (len(Sij[i][j]) + 100))  

    # initial user and item Bias, respectly

    bu, bi = initialBias(train, userNum, movieNum, mean)  

    return itemSim, mean, average, bu, bi      

def neighborhoodModels(train, test, itemSim, mean, average, bu, bi):  

    pui = {}

    rmse = 0.0

    mae = 0.0

    num = 0

    for u in test.keys():

        pui.setdefault(u,{})

        for i in test[u].keys():

            pui[u][i] = mean + bu[u] + bi[i]

            stat = 0

            stat2 = 0

            for j in train[u].keys():

                if itemSim.has_key(i) and itemSim[i].has_key(j):

                    stat += (train[u][j] - mean - bu[u] - bi[j]) * itemSim[i][j]

                    stat2 += itemSim[i][j]

            if stat > 0:

                pui[u][i] += stat * 1.0 / stat2

            rmse += pow((pui[u][i] - test[u][i]), 2)

            mae += fabs(pui[u][i] - test[u][i])

            num += 1

    rmse = sqrt(rmse*1.0 / num)

    mae = mae * 1.0 / num  

    return rmse, mae  

if __name__ == "__main__":  

    i = 1

    sumRmse = 0.0

    sumMae = 0.0

    while i <= 5:  

        # load data

        filename_train = 'data/u' + str(i) + '.base'

        filename_test = 'data/u' + str(i) + '.test'

        train, test = load_data(filename_train, filename_test)  

        # initial variables

        itemSim, mean, average, bu, bi = initial(train, 943, 1682)  

        # neighborhoodModels

        rmse, mae = neighborhoodModels(train, test, itemSim, mean, average, bu, bi)

        print 'cross-validation %d:  rmse: %s     mae: %s' % (i, rmse, mae)  

        sumRmse += rmse

        sumMae += mae

        i += 1  

    print 'neighborhood models final results:  Rmse: %s      Mae: %s' % (sumRmse/5, sumMae/5)

实验结果：

注：第一个结果是没有使用收缩的pearson相关系数跑出的结果；第二个结果则是使用收缩的相关系数跑出的结果。

基于neighborhood models(item-based) 的个性化推荐系统的更多相关文章

基于baseline、svd和stochastic gradient descent的个性化推荐系统
文章主要介绍的是koren 08年发的论文[1], 2.3部分内容(其余部分会陆续补充上来).koren论文中用到netflix 数据集, 过于大, 在普通的pc机上运行时间很长很长.考虑到写文章目 ...
Paper Reading:个性化推荐系统的研究进展
论文:个性化推荐系统的研究进展发表时间:2009 发表作者:刘建国,周涛,汪秉宏论文链接:论文链接本文发表在2009,对经典个性化推荐算法做了基本的介绍,是非常好的一篇中文推荐系统方面的文章. ...
个性化推荐系统（七）--- ABTest ab测试平台
个性化推荐系统.搜索引擎.广告系统,这些系统都需要在线上不断上线,不断优化,优化之后怎么确定是好是坏.这时就需要ABTest来确定,最近想的办法.优化的算法.优化的逻辑数据是正向的,是有意义的,是提升 ...
推荐系统之基于二部图的个性化推荐系统原理及C++实现
1.引言许多网站都喜欢让用户点击“喜欢/不喜欢”,“顶/反对”,也正是这种很简单的信息也可以利用起来对用户进行推荐!这里介绍一种基于网络结构的推荐系统! 由于推荐系统深深植根于互联网,用户与用户之间 ...
Creating adaptive web recommendation system based on user behavior(设计基于用户行为数据的适应性网络推荐系统)
文章介绍了一个基于用户行为数据的推荐系统的实现步骤和方法.系统的核心是专家系统,它会根据一定的策略计算所有物品的相关度,并且将相关度最高的物品序列推送给用户.计算相关度的策略分为两部分,第一部分是针对 ...
基于baseline和stochastic gradient descent的个性化推荐系统
文章主要介绍的是koren 08年发的论文[1], 2.1 部分内容(其余部分会陆续补充上来). koren论文中用到netflix 数据集, 过于大, 在普通的pc机上运行时间很长很长.考虑到写文 ...
京东架构师的showtime京东个性化推荐系统实战
推荐系统核心任务是排序,从线上服务角度看,就是将数据从给定集合中数据选择出来,选出后根据一定规则策略方法进行排序. 线上服务要根据一定规则进行架构设计,架构设计是什么?每一次权衡取舍都是设计,设计需要 ...
个性化推荐系统中的BadCase分析
针对内测用户反馈,由于前一天点击了几个动画,导致第二天推荐的动画屏占比较高,于是开始对此badcase进行分析. 首先分析了该用户的历史观看纪录,由于系统升级,日志缺陷问题,导致该用户10.15-11 ...
基于Spark Mllib，SparkSQL的电影推荐系统
本文测试的Spark版本是1.3.1 本文将在Spark集群上搭建一个简单的小型的电影推荐系统,以为之后的完整项目做铺垫和知识积累整个系统的工作流程描述如下: 1.某电影网站拥有可观的电影资源和用户 ...

随机推荐

C++之指针与数组区别
C++/C程序中,数组要么在静态存储区被创建(如全局数组),要么在栈上被创建.数组名对应着(而不是指向)一块内存,其地址与容量在生命期内保持不变,只有数组的内容可以改变.指针可以随时指向任意类型的内存 ...
Java 异常基本结构
异常的定义:阻止当前方法或作用域继续执行的情况,即程序无法正常执行下去称之为异常. 异常的基本结构: 所有不正常的类都继承与Throwable类,包括Error类和Exception类 Error一般 ...
https://vjudge.net/contest/321565#problem/C 超时代码
#include <iostream> #include <cstdio> #include <queue> #include <algorithm> ...
jquery实现文字由下到上循环滚动的实例代码
<div id="oDiv"> <ul id="oUl"> <li>第1个li元素</li> <li> ...
CommonsMultipartResolver 文件上传
依赖 <dependency> <groupId>commons-fileupload</groupId> <artifactId>commons-fi ...
概率dp——逆推期望+循环迭代zoj3329
首先要推出dp[i]的期望方程,会发现每一项都和dp[0]相关, 那我们将dp[i]设为和dp[0]有关的式子dp[i]=a[i]*dp[0]+b[i],然后再回代到原来的期望方程里然后进行整理,可 ...
(转)iframe 高度100%时，出现垂直滚动条
问题需求是这样的,iframe在一个div中,并且iframe高度与div一样,所以设置了iframe高度是100%,结果div出现了滚动条,在排除了padding.margin的因素外,还是有滚动 ...
try-catch 捕捉不到异常
code: int _tmain(int argc, _TCHAR* argv[]) { cout << "In main." << endl; //定义 ...
Hibernate之OID
在关系数据库中,主键用来识别记录,并保证每天记录的唯一性.在Java语言中,通过比较两个变量所引用对象的内存地址是否相同,或者比较两变量引用的对象是否相等.Hibernate为了解决两者之间的不同,使 ...
5.1_Spring Boot2.x安装Docker
1.简介 Docker是一个开源的应用容器引擎:是一个轻量级容器技术: Docker 是一个开源的应用容器引擎,基于Go 语言并遵从Apache2.0协议开源.Docker 可以让开发者打包他们的应用 ...

基于neighborhood models(item-based) 的个性化推荐系统

基于neighborhood models(item-based) 的个性化推荐系统的更多相关文章

随机推荐

热门专题