《集体智慧编程学习笔记》—

知识点：

1. 协作型过滤——Collaboraive Filtering

　　通常的做法是对一群人进行搜索，并从中找出与我们品味相近的一小群人，算法会对这些人的偏好进行考察，并将它们组合起来构造出一个经过排名的推荐列表

2.搜索偏好——Collecting Preferences

3.寻找相近的用户——Finding Similar Users

　　3.1 通过相似度评价值来寻找相近的用户

　　3.2 相似度评价值体系：欧几里得距离（Euclidean Distance ），皮尔逊相关度（Pearson Collelation）曼哈顿距离和Jaccard系数等

代码实现：

  1 # !/usr/bin/local/python3

  2 # -*- coding utf-8 -*-

  3 from math import sqrt

  4

  5 # prepare data

  6 critics = {'Lisa Rose':{'Lady in the Water': 2.5, 'Snakes on a Plane': 3.5,

  7                         'Just My Luck': 3.0, 'Superman Returns': 3.5, 'You,Me and Dupree': 2.5,

  8                         'The Night Listener': 3.0},

  9            'Gene Seymour': {'Lady in the Water': 3.0, 'Snakes on a Plane': 3.5, 'Just My Luck': 1.5,

 10                             'Superman Returns': 5.0, 'The Night Listener': 3.0, 'You,Me and Dupree': 3.5},

 11            'Michale Phillips': {'Lady in the Water': 2.5, 'Snakes on a Plane': 3.0, 'Superman Returns': 3.5,

 12                                 'The Night Listener': 4.0},

 13            'Claudia Puig': {'Snakes on a Plane': 3.5, 'Just My Luck': 3.0, 'The Night Listener': 4.5,

 14                             'Superman Returns': 4.0,'You,Me and Dupree': 2.5},

 15            'Mick LaSalle': {'Lady in the Water': 3.0, 'Snakes on a Plane': 4.0, 'Just My Luck': 2.0,

 16                             'Superman Returns': 3.0, 'The Night Listener': 3.0,'You,Me and Dupree': 2.0},

 17            'Jack Mattews': {'Lady in the Water': 3.0, 'Snakes on a Plane': 5.0, 'The Night Listener': '3.0',

 18                             'Superman Returns': 5.0, 'You,Me and Dupree': 3.5},

 19            'Toby': {'Snakes on a Plane': 4.5, 'You,Me and Dupree': 1.0, 'Superman Returns': 4.0}}

 20

 21

 22 # 测试数据

 23 #data =critics['Lisa Rose']['Lady in the Water']

 24 #print(data)

 25

 26 # 返回一个有关P1和P2的基于欧几里得距离的相似度评价

 27 def sim_distance(prefs, p1, p2):

 28     #　得到共同评价的电影列表

 29     si = {}

 30     for item in prefs[p1]:

 31         if item in prefs[p2]:

 32             si[item] = 1

 33     # 如果两人没有共同之处,则返回0

 34     if len(si) ==0: return 0

 35     #　计算所有差值的的平方和

 36     sum_of_squares = sum([pow(prefs[p1][item]-prefs[p2][item], 2) for item in prefs[p1]

 37                           if item in prefs[p2]])

 38 　　 # 表示偏好越相近，返回的值越大，（避免被零整除的错误，当返回为1表示两人具有一样的偏好）

 39     return 1/(1+sqrt(sum_of_squares))

 40

 41

 42 # 返回p1和p2的皮尔逊相关系数

 43 def sim_pearson(prefs, p1, p2):

 44     si={}

 45     for item in prefs[p1]:

 46         if item in prefs[p2]:

 47             si[item] = 1

 48

 49     n = len(si)

 50

 51     if n == 0: return 1

 52     #　求所有偏好之和

 53     sum1 = sum([prefs[p1][it] for it in si])

 54     sum2 = sum([prefs[p2][it] for it in si])

 55

 56     # 求偏好平方和

 57     sum1Sq = sum([pow(prefs[p1][it], 2) for it in si])

 58     sum2Sq = sum([pow(prefs[p2][it], 2) for it in si])

 59

 60     # 求两人偏好乘积之和

 61     pSum = sum([prefs[p1][it] * prefs[p2][it] for it in si])

 62

 63     # 计算皮尔逊评价值

 64     num = pSum - (sum1*sum2/n)

 65     den = sqrt((sum1Sq-pow(sum1, 2)/n)*(sum2Sq-pow(sum2, 2)/n))

 66     if den == 0: return 0

 67 　　 # 返回值介于-1和1之间，值为1则表示两个人对每一样物品均有着完全一致的评价

 68     r = num/den

 69     return r

 70

 71

 72 #   从反映偏好的字典中返回最为匹配者

 73 # 　返回结果的个数和相似度函数均为可选参数

 74 def topMatches(prefs, person, n=5, similarity=sim_pearson):

 75     scores = [(similarity(prefs, person, other), other) for other in prefs if other != person]

 76

 77     # 对表进行排序,评价值最高的排在最前面

 78     scores.sort()

 79     scores.reverse()

 80     return scores[0:n]

 81

 82

 83 # 利用所有他人评价值的加权平均,为某人提供建议

 84 def getRecommendations(prefs, person, similarity=sim_pearson):

 85     totals = {}

 86     simSum = {}

 87     for other in prefs:

 88         #　不和自己作比较

 89         if other == person: continue

 90         #　获取两人之间的相似度

 91         sim = similarity(prefs, person, other)

 92

 93         # 忽略评价值小于零或者为零的情况

 94         if sim <= 0: continue

 95         for item in prefs[other]:

 96             # 只对自己未看过的电影进行评价

 97             if item not in prefs[person] or prefs[person][item] == 0:

 98                 # 相似度*评价值

 99                 totals.setdefault(item, 0)

100                 totals[item] += sim * float(prefs[other][item])

101                 # 相似度之和(多人评价对于特定电影的相似度之和)

102                 simSum.setdefault(item, 0)

103                 simSum[item] += sim

104

105     # 建立一个归一化的列表

106     rankings = [(total/simSum[item], item) for item, total in totals.items()]

107     print(simSum)

108     # 返回经过排序的列表

109     rankings.sort()

110     rankings.reverse()

111     return rankings

112

113

114 #　将人名和物品进行对调

115 def transforPrefs(prefs):

116     result = {}

117     for person in prefs:

118         for item in prefs[person]:

119             result.setdefault(item,{})

120             result[item][person] = prefs[person][item]

121     return result

总结：

1.相似性度量方法的选择问题：

　　1.1 当采用Pearson方法进行评价时，它修正了‘夸大分值’的情况

　　1.2 当采用Euclidean Distance方法进行评价时，适用于存在一定共性的数据之间

2.基于用户过滤和基于物品过滤的选择：
　　2.1 基于用户过滤方法更容易实现，而且无需额外步骤，更适用于规模较小的变化非常频繁的内存数据集

　　2.2 基于物品过滤明显比基于用户的过滤更快，不过在维护物品相似度表有额外的开销,更适用于稀疏数据集

《集体智慧编程学习笔记》——Chapter2:提供推荐的更多相关文章

并发编程学习笔记(4)----jdk5中提供的原子类及Lock使用及原理
(1)jdk中原子类的使用: jdk5中提供了很多原子类,它会使变量的操作变成原子性的. 原子性:原子性指的是一个操作是不可中断的,即使是在多个线程一起操作的情况下,一个操作一旦开始,就不会被其他线程 ...
转网络编程学习笔记一：Socket编程
题外话前几天和朋友聊天,朋友问我怎么最近不写博客了,一个是因为最近在忙着公司使用的一些控件的开发,浏览器兼容性搞死人:但主要是因为这段时间一直在看html5的东西,看到web socket时觉得很有 ...
多线程编程学习笔记——async和await（一）
接上文多线程编程学习笔记——任务并行库(一) 接上文多线程编程学习笔记——任务并行库(二) 接上文多线程编程学习笔记——任务并行库(三) 接上文多线程编程学习笔记——任务并行库(四) 通过前面 ...
Python 集体智慧编程PDF
集体智慧编程PDF 1.图书思维导图http://www.pythoner.com/183.html p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12. ...
多线程编程学习笔记——使用异步IO（一）
接上文多线程编程学习笔记——使用并发集合(一) 接上文多线程编程学习笔记——使用并发集合(二) 接上文多线程编程学习笔记——使用并发集合(三) 假设以下场景,如果在客户端运行程序,最的事情之一是 ...
多线程编程学习笔记——使用异步IO
接上文多线程编程学习笔记——使用并发集合(一) 接上文多线程编程学习笔记——使用并发集合(二) 接上文多线程编程学习笔记——使用并发集合(三) 假设以下场景,如果在客户端运行程序,最的事情之一是 ...
Java并发编程学习笔记
Java编程思想,并发编程学习笔记. 一.基本的线程机制 1.定义任务:Runnable接口线程可以驱动任务,因此需要一种描述任务的方式,这可以由Runnable接口来提供.要想定义任务,只需实现R ...
并发编程学习笔记(15)----Executor框架的使用
Executor执行已提交的 Runnable 任务的对象.此接口提供一种将任务提交与每个任务将如何运行的机制(包括线程使用的细节.调度等)分离开来的方法.通常使用 Executor 而不是显式地创建 ...
并发编程学习笔记(13)----ConcurrentLinkedQueue(非阻塞队列)和BlockingQueue(阻塞队列)原理
· 在并发编程中,我们有时候会需要使用到线程安全的队列,而在Java中如果我们需要实现队列可以有两种方式,一种是阻塞式队列.另一种是非阻塞式的队列,阻塞式队列采用锁来实现,而非阻塞式队列则是采用cas ...

随机推荐

JSONObject和JSONArray的使用
1.Json里面的数据是以一种键值对的方式存在("key","value"),其语法多是{},[]的单独形式或者组合形式. 2.对于JsonObject: a. ...
深入浅出Mybatis系列（九）---缓存
MyBatis系统中默认定义了两级缓存:一级缓存和二级缓存. 1.默认情况下,只有一级缓存(SqlSession级别的缓存,也称为本地缓存)开启. 2.二级缓存需要手动开启和配置,他是基于namesp ...
阿里云sql监控配置-druid
今天我们说说数据源和数据库连接池,熟悉java开发的同仁应该都了解C3PO,在这里不做过多的赘述了,今天我们说的是阿里DRUID,druid是后起之秀,因为它的优秀很快占领了使用市场,下边我们一起来看 ...
恶意软件开发——内存相关API
一.前言 Windows操作系统的内存有三种属性,分别为:可读.可写.可执行,并且操作系统将每个进程的内存都隔离开来,当进程运行时,创建一个虚拟的内存空间,系统的内存管理器将虚拟内存空间映射到物理内存 ...
了解Prometheus
了解Prometheus 标签(空格分隔): 监控介绍 Prometheus是用来收集和存储服务器的实时数据(比如:CPU.硬盘.服务响应.日志等),通过其丰富的运算函数,可以计算得到很多的服务性能 ...
使用Visual Studio分析dump
最近系统是不是CPU会飙升的百分之九十多甚至百分百,在本地又很难复现问题,无法定位问题出现在哪. 可以用转储文件来保存现场,然后通过分析dump文件可以大概分析出问题的所在生成转存文件在CPU飙升 ...
手机端rem简单配置相关
手机端rem简单配置相关 1 <!DOCTYPE html> 2 <html xmlns="http://www.w3.org/1999/xhtml"> 3 ...
Mybatis（三）——全局配置文件
二.properties 三.settings 四.typeAilases 这里不做介绍.
java多线程同步的5种方法
一.为什么要线程同步因为当我们有多个线程要同时访问一个变量或对象时,如果这些线程中既有读又有写操作时,就会导致变量值或对象的状态出现混乱,从而导致程序异常. 举个例子,如果一个银行账户同时被两个线程 ...
Python - 执行cmd命令
python操作cmd 我们通常可以使用os模块的命令进行执行cmd 方法一:os.system os.system(执行的命令) # 源码 def system(*args, **kwargs): ...

《集体智慧编程学习笔记》——Chapter2:提供推荐

《集体智慧编程学习笔记》——Chapter2:提供推荐的更多相关文章

随机推荐

热门专题