Contents

   1. 协同过滤的简介

   2. 协同过滤的核心

   3. 协同过滤的实现

   4. 协同过滤的应用

1. 协同过滤的简介

关于协同过滤的一个最经典的例子就是看电影,有时候不知道哪一部电影是我们喜欢的或者评分比较高的,那

么通常的做法就是问问周围的朋友,看看最近有什么好的电影推荐。在问的时候,都习惯于问跟自己口味差不

多的朋友,这就是协同过滤的核心思想。

协同过滤是在海量数据中挖掘出小部分与你品味类似的用户,在协同过滤中,这些用户成为邻居,然后根据他

们喜欢的东西组织成一个排序的目录推荐给你。所以就有如下两个核心问题

(1)如何确定一个用户是否与你有相似的品味?

(2)如何将邻居们的喜好组织成一个排序目录?

协同过滤算法的出现标志着推荐系统的产生,协同过滤算法包括基于用户和基于物品的协同过滤算法。

2. 协同过滤的核心

要实现协同过滤,需要进行如下几个步骤

(1)收集用户偏好

(2)找到相似的用户或者物品

(3)计算并推荐

   收集用户偏好

从用户的行为和偏好中发现规律,并基于此进行推荐,所以如何收集用户的偏好信息成为系统推荐效果最基础

的决定因素。用户有很多种方式向系统提供自己的偏好信息,比如:评分,投票,转发,保存书签,购买,点

击流,页面停留时间等等。

以上的用户行为都是通用的,在实际推荐引擎设计中可以自己多添加一些特定的用户行为,并用它们表示用户

对物品的喜好程度。通常情况下,在一个推荐系统中,用户行为都会多于一种,那么如何组合这些不同的用户

行为呢 ?基本上有如下两种方式

(1)将不同的行为分组

一般可以分为查看和购买,然后基于不同的用户行为,计算不同用户或者物品的相似度。类似与当当网或者

亚马逊给出的“购买了该书的人还购买了”,“查看了该书的人还查看了”等等。

(2)不同行为产生的用户喜好对它们进行加权

对不同行为产生的用户喜好进行加权,然后求出用户对物品的总体喜好。

好了,当我们收集好用户的行为数据后,还要对数据进行预处理,最核心的工作就是减噪归一化

减噪:  因为用户数据在使用过程中可能存在大量噪音和误操作,所以需要过滤掉这些噪音。

    归一化:不同行为数据的取值相差可能很好,例如用户的查看数据肯定比购买数据大得多。通过归一化,才能

使数据更加准确。

通过上述步骤的处理,就得到了一张二维表,其中一维是用户列表,另一维是商品列表,值是用户对商品的喜

好。还是以电影推荐为例,如下表

    找到相似的用户或物品

    对用户的行为分析得到用户的喜好后,可以根据用户的喜好计算相似用户和物品,然后可以基于相似用户或物

品进行推荐。这就是协同过滤中的两个分支了,基于用户的和基于物品的协同过滤。

关于相似度的计算有很多种方法,比如常用的余弦夹角,欧几里德距离度量,皮尔逊相关系数等等。而如果采

用欧几里德度量,那么可以用如下公式来表示相似度

在计算用户之间的相似度时,是将一个用户对所有物品的偏好作为一个向量,而在计算物品之间的相似度时,

是将所有用户对某个物品的偏好作为一个向量。求出相似度后,接下来可以求相似邻居了。

    计算并推荐

在上面,我们求出了相邻用户和相邻物品,接下来就应该进行推荐了。当然从这一步开始,分为两方面,分别

是基于用户的协同过滤和基于物品的协同过滤。我会分别介绍它们的原理

(1)基于用户的协同过滤算法

在上面求相似邻居的时候,通常是求出TOP K邻居,然后根据邻居的相似度权重以及它们对物品的偏好,

预测当前用户没有偏好的未涉及物品,计算得到一个排序的物品列表进行推荐。

(2)基于物品的协同过滤算法

跟上述的基于用户的协同过滤算法类似,但它从物品本身,而不是用户角度。比如喜欢物品A的用户都喜

欢物品C,那么可以知道物品A与物品C的相似度很高,而用户C喜欢物品A,那么可以推断出用户C也可能

喜欢物品C。如下图

上面的相似度权重有时候需要加入惩罚因子,举个例子,在日常生活中,我们每个人购买卫生纸的的频率比

较高,但是不能说明这些用户的兴趣点相似,但是如果它们都买了照相机,那么就可以大致推出它们都是摄

影爱好者。所以像卫生纸这样的物品在计算时,相似度权重需要加上惩罚因子或者干脆直接去掉这类数据。

     适用场景

对于一个在线网站,用户的数量往往超过物品的数量,同时物品数据相对稳定,因此计算物品的相似度不但

计算量小,同时不必频繁更新。但是这种情况只适用于电子商务类型的网站,像新闻类,博客等这类网站的

系统推荐,情况往往是相反的,物品数量是海量的,而且频繁更新。所以从算法复杂度角度来说,两种算法

各有优势。关于协同过滤的文章,可以参考这里:http://www.tuicool.com/articles/6vqyYfR

3. 协同过滤的实现

上面已经介绍了协同过滤的核心思想,现在就来实战一下吧! 采用数据集如下

链接:http://grouplens.org/datasets/movielens/

这个数据集是很多用户对各种电影的评分。接下来先采用Python实现基于用户的协同过滤算法。

首先,我们需要以表格形式读取数据,需要用到Texttable第三方包。安装包如下链接

链接:https://pypi.python.org/pypi/texttable/

大致用法如下

更多方法的使用需要参考Textdtable的源文件texttable.py。接下来可以实现协同过滤算法了。

   代码:

  1. # -*-coding=utf-8 -*-
  2. import sys
  3. import math
  4. from texttable import Texttable
  5. #计算余弦距离
  6. def getCosDist(user1, user2):
  7. sum_x = 0.0
  8. sum_y = 0.0
  9. sum_xy = 0.0
  10. for key1 in user1:
  11. for key2 in user2:
  12. if key1[0] == key2[0]:
  13. sum_x += key1[1] * key1[1]
  14. sum_y += key2[1] * key2[1]
  15. sum_xy += key1[1] * key2[1]
  16. if sum_xy == 0.0:
  17. return 0
  18. demo = math.sqrt(sum_x * sum_y)
  19. return sum_xy / demo
  20. #读取文件,读取以行为单位,每一行是列表里的一个元素
  21. def readFile(filename):
  22. contents = []
  23. f = open(filename, "r")
  24. contents = f.readlines()
  25. f.close()
  26. return contents
  27. #数据格式化为二维数组
  28. def getRatingInfo(ratings):
  29. rates = []
  30. for line in ratings:
  31. rate = line.split("\t")
  32. rates.append([int(rate[0]), int(rate[1]), int(rate[2])])
  33. return rates
  34. #生成用户评分数据结构
  35. def getUserScoreDataStructure(rates):
  36. #userDict[2]=[(1,5),(4,2)].... 表示用户2对电影1的评分是5,对电影4的评分是2
  37. userDict = {}
  38. itemUser = {}
  39. for k in rates:
  40. user_rank = (k[1], k[2])
  41. if k[0] in userDict:
  42. userDict[k[0]].append(user_rank)
  43. else:
  44. userDict[k[0]] = [user_rank]
  45. if k[1] in itemUser:
  46. itemUser[k[1]].append(k[0])
  47. else:
  48. itemUser[k[1]] = [k[0]]
  49. return userDict, itemUser
  50. #计算与指定用户最相近的邻居
  51. def getNearestNeighbor(userId, userDict, itemUser):
  52. neighbors = []
  53. for item in userDict[userId]:
  54. for neighbor in itemUser[item[0]]:
  55. if neighbor != userId and neighbor not in neighbors:
  56. neighbors.append(neighbor)
  57. neighbors_dist = []
  58. for neighbor in neighbors:
  59. dist = getCosDist(userDict[userId], userDict[neighbor])
  60. neighbors_dist.append([dist, neighbor])
  61. neighbors_dist.sort(reverse = True)
  62. return neighbors_dist
  63. #使用UserFC进行推荐,输入:文件名,用户ID,邻居数量
  64. def recommendByUserFC(filename, userId, k = 5):
  65. #读取文件
  66. contents = readFile(filename)
  67. #文件格式数据转化为二维数组
  68. rates = getRatingInfo(contents)
  69. #格式化成字典数据
  70. userDict, itemUser = getUserScoreDataStructure(rates)
  71. #找邻居
  72. neighbors = getNearestNeighbor(userId, userDict, itemUser)[:5]
  73. #建立推荐字典
  74. recommand_dict = {}
  75. for neighbor in neighbors:
  76. neighbor_user_id = neighbor[1]
  77. movies = userDict[neighbor_user_id]
  78. for movie in movies:
  79. if movie[0] not in recommand_dict:
  80. recommand_dict[movie[0]] = neighbor[0]
  81. else:
  82. recommand_dict[movie[0]] += neighbor[0]
  83. #建立推荐列表
  84. recommand_list = []
  85. for key in recommand_dict:
  86. recommand_list.append([recommand_dict[key], key])
  87. recommand_list.sort(reverse = True)
  88. user_movies = [k[0] for k in userDict[userId]]
  89. return [k[1] for k in recommand_list], user_movies, itemUser, neighbors
  90. #获取电影的列表
  91. def getMovieList(filename):
  92. contents = readFile(filename)
  93. movies_info = {}
  94. for movie in contents:
  95. single_info = movie.split("|")
  96. movies_info[int(single_info[0])] = single_info[1:]
  97. return movies_info
  98. #从这里开始运行
  99. if __name__ == '__main__':
  100. reload(sys)
  101. sys.setdefaultencoding('utf-8')
  102. #获取所有电影的列表
  103. movies = getMovieList("u.item")
  104. recommend_list, user_movie, items_movie, neighbors = recommendByUserFC("u.data", 50, 80)
  105. neighbors_id=[ i[1] for i in neighbors]
  106. table = Texttable()
  107. table.set_deco(Texttable.HEADER)
  108. table.set_cols_dtype(['t', 't', 't'])
  109. table.set_cols_align(["l", "l", "l"])
  110. rows=[]
  111. rows.append([u"movie name",u"release", u"from userid"])
  112. for movie_id in recommend_list[:20]:
  113. from_user=[]
  114. for user_id in items_movie[movie_id]:
  115. if user_id in neighbors_id:
  116. from_user.append(user_id)
  117. rows.append([movies[movie_id][0],movies[movie_id][1],""])
  118. table.add_rows(rows)
  119. print table.draw()

推荐结果如下

基于Python协同过滤算法的认识的更多相关文章

  1. Collaborative Filtering(协同过滤)算法详解

    基本思想 基于用户的协同过滤算法是通过用户的历史行为数据发现用户对商品或内容的喜欢(如商品购买,收藏,内容评论或分享),并对这些喜好进行度量和打分.根据不同用户对相同商品或内容的态度和偏好程度计算用户 ...

  2. 使用Python3.7配合协同过滤算法(base on user,基于人)构建一套简单的精准推荐系统(个性化推荐)

    原文转载自「刘悦的技术博客」https://v3u.cn/a_id_136 时至2020年,个性化推荐可谓风生水起,Youtube,Netflix,甚至于Pornhub,这些在互联网上叱咤风云的流媒体 ...

  3. SVD++:推荐系统的基于矩阵分解的协同过滤算法的提高

    1.背景知识 在讲SVD++之前,我还是想先回到基于物品相似的协同过滤算法.这个算法基本思想是找出一个用户有过正反馈的物品的相似的物品来给其作为推荐.其公式为:

  4. Mahout实现基于用户的协同过滤算法

    Mahout中对协同过滤算法进行了封装,看一个简单的基于用户的协同过滤算法. 基于用户:通过用户对物品的偏好程度来计算出用户的在喜好上的近邻,从而根据近邻的喜好推测出用户的喜好并推荐. 图片来源 程序 ...

  5. Spark 基于物品的协同过滤算法实现

    J由于 Spark MLlib 中协同过滤算法只提供了基于模型的协同过滤算法,在网上也没有找到有很好的实现,所以尝试自己实现基于物品的协同过滤算法(使用余弦相似度距离) 算法介绍 基于物品的协同过滤算 ...

  6. 基于物品的协同过滤算法(ItemCF)

    最近在学习使用阿里云的推荐引擎时,在使用的过程中用到很多推荐算法,所以就研究了一下,这里主要介绍一种推荐算法—基于物品的协同过滤算法.ItemCF算法不是根据物品内容的属性计算物品之间的相似度,而是通 ...

  7. 基于用户的最近邻协同过滤算法(MovieLens数据集)

      基于用户的最近邻算法(User-Based Neighbor Algorithms),是一种非概率性的协同过滤算法,也是推荐系统中最最古老,最著名的算法. 我们称那些兴趣相似的用户为邻居,如果用户 ...

  8. Spark机器学习之协同过滤算法

    Spark机器学习之协同过滤算法 一).协同过滤 1.1 概念 协同过滤是一种借助"集体计算"的途径.它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度.其内在思想是相 ...

  9. 【机器学习笔记一】协同过滤算法 - ALS

    参考资料 [1]<Spark MLlib 机器学习实践> [2]http://blog.csdn.net/u011239443/article/details/51752904 [3]线性 ...

随机推荐

  1. mac系统chrome浏览器快捷键

    开发中谷歌浏览器常用快捷键: 开发者工具台快捷键:option+command+iconsole控制台快捷键:option+command+j 或者 option+command+c 1. 标签页和窗 ...

  2. 深度解密Go语言之 scheduler

    目录 前置知识 os scheduler 线程切换 函数调用过程分析 goroutine 是怎么工作的 什么是 goroutine goroutine 和 thread 的区别 M:N 模型 什么是 ...

  3. CF1198E Rectangle Painting 2(最小割 思维

    这个题主要是转化为最小割的思路不好想到. 大意:给你一个大的正方形,有的点黑,有的点白,要把黑染白,你每次可以选一个矩形染色,代价是min(长,宽),问最小代价. 思路:对于一个要染色的块来说,他要被 ...

  4. 【Edu49 1027D】 Mouse Hunt DFS 环

    1027D. Mouse Hunt:http://codeforces.com/contest/1027/problem/D 题意: 有n个房间,每个房间放置捕鼠器的费用是不同的,已知老鼠在一个房间x ...

  5. Codeforces 889F Letters Removing(二分 + 线段树 || 树状数组)

    Letters Removing 题意:给你一个长度为n的字符串,然后进行m次删除操作,每次删除区间[l,r]内的某个字符,删除后并且将字符串往前补位,求删除完之后的字符串. 题解:先开80个set ...

  6. 杭电多校第十场 hdu6434 Count 欧拉函数打表 快速打表模板

    Problem I. Count Time Limit: 4000/2000 MS (Java/Others)    Memory Limit: 524288/524288 K (Java/Other ...

  7. CodeForces round 520 div2

    A:A Prank 题意:给定一个递增序列, 问最多能删除多少个连续数字,要求删除数字之后能还原成原来的数列. 题解:直接找就好了,为了方便可以使得第0个数字为0, 第n+1个元素为1001 代码: ...

  8. MyBatis的发展和选型

    xlecho编辑整理,欢迎转载,转载请声明文章来源.欢迎添加echo微信(微信号:t2421499075)交流学习. 百战不败,依不自称常胜,百败不颓,依能奋力前行.--这才是真正的堪称强大!! 参考 ...

  9. MySQL的安装与配置——详细教程

    免安装版的Mysql MySQL关是一种关系数据库管理系统,所使用的 SQL 语言是用于访问数据库的最常用的 标准化语言,其特点为体积小.速度快.总体拥有成本低,尤其是开放源码这一特点,在 Web 应 ...

  10. 归并排序、jensen不等式、非线性、深度学习

    前言 在此记录一些不太成熟的思考,希望对各位看官有所启发. 从题目可以看出来这篇文章的主题很杂,这篇文章中我主要讨论的是深度学习为什么要"深"这个问题.先给出结论吧:"深 ...