简单的user-based协同过滤算法示例代码

#构造一份打分数据集
1 users = {"小明": {"中国合伙人": 5.0, "太平轮": 3.0, "荒野猎人": 4.5, "老炮儿": 5.0, "我的少女时代": 3.0, "肖洛特烦恼": 4.5, "火星救援": 5.0},

          "小红":{"小时代4": 4.0, "荒野猎人": 3.0, "我的少女时代": 5.0, "肖洛特烦恼": 5.0, "火星救援": 3.0, "后会无期": 3.0},

          "小阳": {"小时代4": 2.0, "中国合伙人": 5.0, "我的少女时代": 3.0, "老炮儿": 5.0, "肖洛特烦恼": 4.5, "速度与激情7": 5.0},

          "小四": {"小时代4": 5.0, "中国合伙人": 3.0, "我的少女时代": 4.0, "匆匆那年": 4.0, "速度与激情7": 3.5, "火星救援": 3.5, "后会无期": 4.5},

          "六爷": {"小时代4": 2.0, "中国合伙人": 4.0, "荒野猎人": 4.5, "老炮儿": 5.0, "我的少女时代": 2.0},

          "小李":  {"荒野猎人": 5.0, "盗梦空间": 5.0, "我的少女时代": 3.0, "速度与激情7": 5.0, "蚁人": 4.5, "老炮儿": 4.0, "后会无期": 3.5},

          "隔壁老王": {"荒野猎人": 5.0, "中国合伙人": 4.0, "我的少女时代": 1.0, "Phoenix": 5.0, "甄嬛传": 4.0, "The Strokes": 5.0},

          "邻村小芳": {"小时代4": 4.0, "我的少女时代": 4.5, "匆匆那年": 4.5, "甄嬛传": 2.5, "The Strokes": 3.0}

         }

 #定义几种距离计算函数

 #更高效的方式为把得分向量化之后使用scipy中定义的distance方法

 from math import sqrt

 def euclidean_dis(rating1, rating2):

     """计算2个打分序列间的欧式距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     commonRatings = False

     for key in rating1:

         if key in rating2:

             distance += (rating1[key] - rating2[key])^2

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return distance

     #无公共打分电影

     else:

         return -1

 def manhattan_dis(rating1, rating2):

     """计算2个打分序列间的曼哈顿距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     commonRatings = False

     for key in rating1:

         if key in rating2:

             distance += abs(rating1[key] - rating2[key])

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return distance

     #无公共打分电影

     else:

         return -1

 def cos_dis(rating1, rating2):

     """计算2个打分序列间的cos距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     distance = 0

     dot_product_1 = 0

     dot_product_2 = 0

     commonRatings = False

     for score in rating1.values():

         dot_product_1 += score^2

     for score in rating2.values():

         dot_product_2 += score^2

     for key in rating1:

         if key in rating2:

             distance += rating1[key] * rating2[key]

             commonRatings = True

     #两个打分序列之间有公共打分电影

     if commonRatings:

         return 1-distance/sqrt(dot_product_1*dot_product_2)

     #无公共打分电影

     else:

         return -1

 def pearson_dis(rating1, rating2):

     """计算2个打分序列间的pearson距离. 输入的rating1和rating2都是打分dict

        格式为{'小时代4': 1.0, '疯狂动物城': 5.0}"""

     sum_xy = 0

     sum_x = 0

     sum_y = 0

     sum_x2 = 0

     sum_y2 = 0

     n = 0

     for key in rating1:

         if key in rating2:

             n += 1

             x = rating1[key]

             y = rating2[key]

             sum_xy += x * y

             sum_x += x

             sum_y += y

             sum_x2 += pow(x, 2)

             sum_y2 += pow(y, 2)

     # now compute denominator

     denominator = sqrt(sum_x2 - pow(sum_x, 2) / n) * sqrt(sum_y2 - pow(sum_y, 2) / n)

     if denominator == 0:

         return 0

     else:

         return (sum_xy - (sum_x * sum_y) / n) / denominator

 #查找最近邻

 def computeNearestNeighbor(username, users):

     """在给定username的情况下，计算其他用户和它的距离并排序"""

     distances = []

     for user in users:

         if user != username:

             #distance = manhattan_dis(users[user], users[username])

             distance = pearson_dis(users[user], users[username])

             distances.append((distance, user))

     # 根据距离排序，距离越近，排得越靠前

     distances.sort()

     return distances

 #推荐

 def recommend(username, users):

     """对指定的user推荐电影"""

     # 找到最近邻

     nearest = computeNearestNeighbor(username, users)[0][1]

     recommendations = []

     # 找到最近邻看过，但是我们没看过的电影，计算推荐

     neighborRatings = users[nearest]

     userRatings = users[username]

     for artist in neighborRatings:

         if not artist in userRatings:

             recommendations.append((artist, neighborRatings[artist]))

     results = sorted(recommendations, key=lambda artistTuple: artistTuple[1], reverse = True)

     for result in results:

         print(result[0], result[1])

 #测试一下

 recommend('小阳', users)

     后会无期 4.5

     匆匆那年 4.0

     火星救援 3.5

 #简单的张量分解进行打分和推荐

 #要用到numpy模块

 import numpy

 #手写矩阵分解

 #现在有很多很方便对高维矩阵做分解的package，比如libmf, svdfeature等

 def matrix_factorization(R, P, Q, K, steps=5000, alpha=0.0002, beta=0.02):

     Q = Q.T

     for step in xrange(steps):

         for i in xrange(len(R)):

             for j in xrange(len(R[i])):

                 if R[i][j] > 0:

                     eij = R[i][j] - numpy.dot(P[i,:],Q[:,j])

                     for k in xrange(K):

                         P[i][k] = P[i][k] + alpha * (2 * eij * Q[k][j] - beta * P[i][k])

                         Q[k][j] = Q[k][j] + alpha * (2 * eij * P[i][k] - beta * Q[k][j])

         eR = numpy.dot(P,Q)

         e = 0

         for i in xrange(len(R)):

             for j in xrange(len(R[i])):

                 if R[i][j] > 0:

                     e = e + pow(R[i][j] - numpy.dot(P[i,:],Q[:,j]), 2)

                     for k in xrange(K):

                         e = e + (beta/2) * (pow(P[i][k],2) + pow(Q[k][j],2))

         if e < 0.001:

             break

     return P, Q.T

 #读取user数据并用张量分解进行打分

 R = [

      [5,3,0,1],

      [4,0,3,1],

      [1,1,0,5],

      [1,0,0,4],

      [0,1,5,4],

     ]

 R = numpy.array(R)

 N = len(R)

 M = len(R[0])

 K = 2

 P = numpy.random.rand(N,K)

 Q = numpy.random.rand(M,K)

 nP, nQ = matrix_factorization(R, P, Q, K)

 nR = numpy.dot(nP, nQ.T)

nP

array([[ 0.38345373,  2.181972  ],

       [ 0.32334816,  1.56283276],

       [ 1.99170613,  0.16400981],

       [ 1.59666903,  0.14124969],

       [ 1.64308192,  1.07125805]])

nQ

array([[ 0.38946426,  2.29198167],

       [ 0.19720283,  1.18916254],

       [ 1.71589715,  1.76060186],

       [ 2.48314488,  0.03019937]])

nR

array([[ 5.15038133,  2.67033753,  4.49955112,  1.01806534],

       [ 3.70791658,  1.92222735,  3.30635845,  0.85011689],

       [ 1.15160585,  0.58780442,  3.70631887,  4.95064787],

       [ 0.94558722,  0.48283649,  2.98840431,  3.96902618],

       [ 3.0952255 ,  1.59792036,  4.70541851,  4.11236178]])

1 R

array([[5, 3, 0, 1],

       [4, 0, 3, 1],

       [1, 1, 0, 5],

       [1, 0, 0, 4],

       [0, 1, 5, 4]])

简单的user-based协同过滤算法示例代码的更多相关文章

使用Python3.7配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统（个性化推荐）
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_136 时至2020年,个性化推荐可谓风生水起,Youtube,Netflix,甚至于Pornhub,这些在互联网上叱咤风云的流媒体 ...
Slope one—个性化推荐中最简洁的协同过滤算法
Slope One 是一系列应用于协同过滤的算法的统称.由 Daniel Lemire和Anna Maclachlan于2005年发表的论文中提出. [1]有争议的是,该算法堪称基于项目评价的non ...
Collaborative Filtering(协同过滤)算法详解
基本思想基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分.根据不同用户对相同商品或内容的态度和偏好程度计算用户 ...
亚马逊协同过滤算法 Collaborative filtering
这节课时郭强的三维课.他讲的是MAYA和max .自己对这个也不怎么的感兴趣.而且这个课感觉属于数字媒体.自己对游戏,动画,这些东西一点都不兴趣,比如大一的时候刚开学的时候,张瑞的数字媒体的导论课.还 ...
win7下使用Taste实现协同过滤算法
如果要实现Taste算法,必备的条件是: 1) JDK,使用1.6版本.需要说明一下,因为要基于Eclipse构建,所以在设置path的值之前要先定义JAVA_HOME变量. 2) Maven,使用2 ...
Mahout实现基于用户的协同过滤算法
Mahout中对协同过滤算法进行了封装,看一个简单的基于用户的协同过滤算法. 基于用户:通过用户对物品的偏好程度来计算出用户的在喜好上的近邻,从而根据近邻的喜好推测出用户的喜好并推荐. 图片来源程序 ...
Spark MLlib协同过滤算法
算法说明协同过滤(Collaborative Filtering,简称CF,WIKI上的定义是:简单来说是利用某个兴趣相投.拥有共同经验之群体的喜好来推荐感兴趣的资讯给使用者,个人透过合作的机制给予 ...
吴裕雄--天生自然HADOOP操作实验学习笔记：协同过滤算法
实验目的初步认识推荐系统学会用mapreduce实现复杂的算法学会系统过滤算法的基本步骤实验原理前面我们说过了qq的好友推荐,其实推荐算法是所有机器学习算法中最重要.最基础.最复杂的算法,一 ...
spark机器学习从0到1协同过滤算法 (九）
一.概念协同过滤算法主要分为基于用户的协同过滤算法和基于项目的协同过滤算法. 基于用户的协同过滤算法和基于项目的协同过滤算法 1.1.以用户为基础(User-based)的协同过滤用相似统 ...

随机推荐

匿名函数lambda,过滤函数filter,映射类型map
匿名函数lambda, 作用是不用定义函数,用完之后会自动被删掉,在使用执行脚本的时候,使用lambda就可以省下定义函数的过程,简化代码的可读性. 格式是例子g=lambda x,y:x+y g( ...
【转载】 PyTorch学习之六个学习率调整策略
原文地址: https://blog.csdn.net/shanglianlm/article/details/85143614 ----------------------------------- ...
Vim 文件coding gbk格式
只需在 ~/.vimrc设置一致即可.文件编辑可正常显示中文,cat,不能正常显示,显示乱码,详情参考上篇. set fileencodings=utf-8,ucs-bom,gb18030,gbk,g ...
Anaconda canda 安装 Python3 配置
链接: 1.安装Python 3.5以及tensorflow 以前用virtualenv觉得挺好用了,但是用多python版本下安装tensorflow,出现问题: pip is configured ...
怎样用CMD命令强行删除文件?
如果你要删除的整个文件夹以及文件夹里面的所有内容的话rd/s/q 盘符:\某个文件夹 (这样整个文件夹所有的文件和文件夹都删除了)比如我想删除D盘的123文件夹以及123文件夹里面所有的内容rd/ ...
NYOJ 85：有趣的数（打表，规律）
85-有趣的数内存限制:64MB 时间限制:3000ms 特判: No 通过数:8 提交数:12 难度:2 题目描述: 把分数按下面的办法排成一个数表. 1/1 1/2 1/3 1/4- 2/1 2 ...
Sublime Text3:插件+快捷键+环境变量设置+C/C++编译环境
环境变量配置如果电脑里之前下载过Codeblocks或者Dev,找到文件根目录,打开MinGw(或者MinGw64),点开bin目录,将bin文件夹的目录复制下来(以Codeblocks为例,将文件 ...
Python学习-终端字体高亮显示1
Python学习-终端字体高亮显示 1.采用原生转义字符序列,对Windows有的版本不支持(比如win7),完美支持Linux 实现过程: 终端的字符颜色是用转义序列控制的,是文本模式下的系统显 ...
（11）模板语言-if判断
views.py from django.shortcuts import render,HttpResponse # Create your views here. def index(reques ...
Python基础（）
一. 文件修改 f = open("yesterday.txt",'r') f1 = open("yesterday2.txt",'w') for line i ...

简单的user-based协同过滤算法示例代码

简单的user-based协同过滤算法示例代码的更多相关文章

随机推荐

热门专题