简单的user-based协同过滤算法示例代码

#构造一份打分数据集
1 users = {"小明": {"中国合伙人": 5.0, "太平轮": 3.0, "荒野猎人": 4.5, "老炮儿": 5.0, "我的少女时代": 3.0, "肖洛特烦恼": 4.5, "火星救援": 5.0},

          "小红":{"小时代4": 4.0, "荒野猎人": 3.0, "我的少女时代": 5.0, "肖洛特烦恼": 5.0, "火星救援": 3.0, "后会无期": 3.0},

          "小阳": {"小时代4": 2.0, "中国合伙人": 5.0, "我的少女时代": 3.0, "老炮儿": 5.0, "肖洛特烦恼": 4.5, "速度与激情7": 5.0},

          "小四": {"小时代4": 5.0, "中国合伙人": 3.0, "我的少女时代": 4.0, "匆匆那年": 4.0, "速度与激情7": 3.5, "火星救援": 3.5, "后会无期": 4.5},

          "六爷": {"小时代4": 2.0, "中国合伙人": 4.0, "荒野猎人": 4.5, "老炮儿": 5.0, "我的少女时代": 2.0},

          "小李":  {"荒野猎人": 5.0, "盗梦空间": 5.0, "我的少女时代": 3.0, "速度与激情7": 5.0, "蚁人": 4.5, "老炮儿": 4.0, "后会无期": 3.5},

          "隔壁老王": {"荒野猎人": 5.0, "中国合伙人": 4.0, "我的少女时代": 1.0, "Phoenix": 5.0, "甄嬛传": 4.0, "The Strokes": 5.0},

          "邻村小芳": {"小时代4": 4.0, "我的少女时代": 4.5, "匆匆那年": 4.5, "甄嬛传": 2.5, "The Strokes": 3.0}

         }

 #定义几种距离计算函数

 #更高效的方式为把得分向量化之后使用scipy中定义的distance方法

 from math import sqrt

 def euclidean_dis(rating1, rating2):

     """计算2个打分序列间的欧式距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     commonRatings = False

     for key in rating1:

         if key in rating2:

             distance += (rating1[key] - rating2[key])^2

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return distance

     #无公共打分电影

     else:

         return -1

 def manhattan_dis(rating1, rating2):

     """计算2个打分序列间的曼哈顿距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     commonRatings = False

     for key in rating1:

         if key in rating2:

             distance += abs(rating1[key] - rating2[key])

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return distance

     #无公共打分电影

     else:

         return -1

 def cos_dis(rating1, rating2):

     """计算2个打分序列间的cos距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     dot_product_1 = 0

     dot_product_2 = 0

     commonRatings = False

     for score in rating1.values():

         dot_product_1 += score^2

     for score in rating2.values():

         dot_product_2 += score^2

     for key in rating1:

         if key in rating2:

             distance += rating1[key] * rating2[key]

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return 1-distance/sqrt(dot_product_1*dot_product_2)

     #无公共打分电影

     else:

         return -1

 def pearson_dis(rating1, rating2):

     """计算2个打分序列间的pearson距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     sum_xy = 0

     sum_x = 0

     sum_y = 0

     sum_x2 = 0

     sum_y2 = 0

     n = 0

     for key in rating1:

         if key in rating2:

             n += 1

             x = rating1[key]

             y = rating2[key]

             sum_xy += x * y

             sum_x += x

             sum_y += y

             sum_x2 += pow(x, 2)

             sum_y2 += pow(y, 2)

     # now compute denominator

     denominator = sqrt(sum_x2 - pow(sum_x, 2) / n) * sqrt(sum_y2 - pow(sum_y, 2) / n)

     if denominator == 0:

         return 0

     else:

         return (sum_xy - (sum_x * sum_y) / n) / denominator

 #查找最近邻

 def computeNearestNeighbor(username, users):

     """在给定username的情况下，计算其他用户和它的距离并排序"""

     distances = []

     for user in users:

         if user != username:

             #distance = manhattan_dis(users[user], users[username])

             distance = pearson_dis(users[user], users[username])

             distances.append((distance, user))

     # 根据距离排序，距离越近，排得越靠前

     distances.sort()

     return distances

 #推荐

 def recommend(username, users):

     """对指定的user推荐电影"""

     # 找到最近邻

     nearest = computeNearestNeighbor(username, users)[0][1]

     recommendations = []

     # 找到最近邻看过，但是我们没看过的电影，计算推荐

     neighborRatings = users[nearest]

     userRatings = users[username]

     for artist in neighborRatings:

         if not artist in userRatings:

             recommendations.append((artist, neighborRatings[artist]))

     results = sorted(recommendations, key=lambda artistTuple: artistTuple[1], reverse = True)

     for result in results:

         print(result[0], result[1])

 #测试一下

 recommend('小阳', users)

     后会无期 4.5

     匆匆那年 4.0

     火星救援 3.5

 #简单的张量分解进行打分和推荐

 #要用到numpy模块

 import numpy

 #手写矩阵分解

 #现在有很多很方便对高维矩阵做分解的package，比如libmf, svdfeature等

 def matrix_factorization(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02):

     Q = Q.T

     for step in xrange(steps):

         for i in xrange(len(R)):

             for j in xrange(len(R[i])):

                 if R[i][j] > 0:

                     eij = R[i][j] - numpy.dot(P[i,:],Q[:,j])

                     for k in xrange(K):

                         P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])

                         Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])

         eR = numpy.dot(P,Q)

         e = 0

         for i in xrange(len(R)):

             for j in xrange(len(R[i])):

                 if R[i][j] > 0:

                     e = e + pow(R[i][j] - numpy.dot(P[i,:],Q[:,j]), 2)

                     for k in xrange(K):

                         e = e + (beta/2) * (pow(P[i][k],2) + pow(Q[k][j],2))

         if e < 0.001:

             break

     return P, Q.T

 #读取user数据并用张量分解进行打分

 R = [

      [5,3,0,1],

      [4,0,3,1],

      [1,1,0,5],

      [1,0,0,4],

      [0,1,5,4],

     ]

 R = numpy.array(R)

 N = len(R)

 M = len(R[0])

 K = 2

 P = numpy.random.rand(N,K)

 Q = numpy.random.rand(M,K)

 nP, nQ = matrix_factorization(R, P, Q, K)

 nR = numpy.dot(nP, nQ.T)

nP

array([[ 0.38345373,  2.181972  ],

       [ 0.32334816,  1.56283276],

       [ 1.99170613,  0.16400981],

       [ 1.59666903,  0.14124969],

       [ 1.64308192,  1.07125805]])

nQ

array([[ 0.38946426,  2.29198167],

       [ 0.19720283,  1.18916254],

       [ 1.71589715,  1.76060186],

       [ 2.48314488,  0.03019937]])

nR

array([[ 5.15038133,  2.67033753,  4.49955112,  1.01806534],

       [ 3.70791658,  1.92222735,  3.30635845,  0.85011689],

       [ 1.15160585,  0.58780442,  3.70631887,  4.95064787],

       [ 0.94558722,  0.48283649,  2.98840431,  3.96902618],

       [ 3.0952255 ,  1.59792036,  4.70541851,  4.11236178]])

1 R

array([[5, 3, 0, 1],

       [4, 0, 3, 1],

       [1, 1, 0, 5],

       [1, 0, 0, 4],

       [0, 1, 5, 4]])

简单的user-based协同过滤算法示例代码的更多相关文章

使用Python3.7配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统（个性化推荐）
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_136 时至2020年,个性化推荐可谓风生水起,Youtube,Netflix,甚至于Pornhub,这些在互联网上叱咤风云的流媒体 ...
Slope one—个性化推荐中最简洁的协同过滤算法
Slope One 是一系列应用于协同过滤的算法的统称.由 Daniel Lemire和Anna Maclachlan于2005年发表的论文中提出. [1]有争议的是,该算法堪称基于项目评价的non ...
Collaborative Filtering(协同过滤)算法详解
基本思想基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分.根据不同用户对相同商品或内容的态度和偏好程度计算用户 ...
亚马逊协同过滤算法 Collaborative filtering
这节课时郭强的三维课.他讲的是MAYA和max .自己对这个也不怎么的感兴趣.而且这个课感觉属于数字媒体.自己对游戏,动画,这些东西一点都不兴趣,比如大一的时候刚开学的时候,张瑞的数字媒体的导论课.还 ...
win7下使用Taste实现协同过滤算法
如果要实现Taste算法,必备的条件是: 1) JDK,使用1.6版本.需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量. 2) Maven,使用2 ...
Mahout实现基于用户的协同过滤算法
Mahout中对协同过滤算法进行了封装,看一个简单的基于用户的协同过滤算法. 基于用户:通过用户对物品的偏好程度来计算出用户的在喜好上的近邻,从而根据近邻的喜好推测出用户的喜好并推荐. 图片来源程序 ...
Spark MLlib协同过滤算法
算法说明协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某个兴趣相投.拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者,个人透过合作的机制给予 ...
吴裕雄--天生自然HADOOP操作实验学习笔记：协同过滤算法
实验目的初步认识推荐系统学会用mapreduce实现复杂的算法学会系统过滤算法的基本步骤实验原理前面我们说过了qq的好友推荐,其实推荐算法是所有机器学习算法中最重要.最基础.最复杂的算法,一 ...
spark机器学习从0到1协同过滤算法 (九）
一.概念协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法. 基于用户的协同过滤算法和基于项目的协同过滤算法 1.1.以用户为基础(User-based)的协同过滤用相似统 ...

随机推荐

实力封装：Unity打包AssetBundle（四）
→→前情提要:窗口初现←← 让用户选择要打包的文件时至今日,我们选择打包文件的方式依然是在Project面板或Hierarchy面板中用鼠标点选.现在既然有了窗口,我们自然希望可以将所有文件罗列在窗 ...
[从Paxos到ZooKeeper][分布式一致性原理与实践]<二>一致性协议[Paxos算法]
Overview 在<一>有介绍到,一个分布式系统的架构设计,往往会在系统的可用性和数据一致性之间进行反复的权衡,于是产生了一系列的一致性协议. 为解决分布式一致性问题,在长期的探索过程中 ...
shell脚本实例-mysql多机部署
今天我给大家分享shell 安装mysql 多机部署的实例,本次实验是基于各个主机的公钥已经配置好了,如果还不会推送公钥的同学,可以看看我以前写的文章,那里面有写推公钥的实例,mysql 多机部署一般 ...
django面试二
33. django的缓存能使用redis吗?如果可以的话,如何配置? #1.安装 pip install django-redis#2.在stting中配置CACHES,可以设置多个缓存,根据名字使 ...
HDU 6075 Questionnaire 17多校4 水题
Problem Description In order to get better results in official ACM/ICPC contests, the team leader co ...
python自定义异常抛出接受多个数值
在使用Python的时候,有时候想自己自定义异常错误,同时抛出多个参数,比如对数据库查找一条数据,如果没有找到,返回 {"errCode":"-1", &quo ...
Java中的容器 I————浅谈List
一.List接口的继承关系 List接口是Collection接口的子接口,而ArrayList和LinkedList以及Vector是其实现类. List的特点是可以将元素维护在特定的序列中,可以再 ...
python调用caffe环境配置
背景是这样的,项目需要,必须将训练的模型通过C++进行调用,所以必须使用caffe或者mxnet,而caffe是用C++实现,所以有时候简单的加载一张图片然后再进行预测十分不方便用caffe写pro ...
Unity反射探针用法教程
Unity 3D反射探针本文提供全流程,中文翻译. Chinar 坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) Chinar -- 心分享.心 ...
C#线程、前后台线程
C#线程.前后台线程本文提供全流程,中文翻译. Chinar 坚持将简单的生活方式,带给世人!(拥有更好的阅读体验 -- 高分辨率用户请根据需求调整网页缩放比例) Chinar -- 心分享.心创新 ...

简单的user-based协同过滤算法示例代码

简单的user-based协同过滤算法示例代码的更多相关文章

随机推荐

热门专题