◆版权声明:本文出自胖喵~的博客,转载必须注明出处。
  转载请注明出处:https://www.cnblogs.com/by-dream/p/9016289.html

前言


通常我们在网购的时候会遇到这样的情况,当我们买了一个物品A后,网站上可能会给你推荐一些和A相似的物品。这样的推荐就是典型的协同过滤算法,今天就来给大家说说协同过滤算法。

算法概念


协调过滤算法一般有两种,一种是基于物品的,一种是基于用户的,基于物品的是itembase,基于用户的是userbase,简单来说,基于物品的是当用户购买了物品A,如果发现A和C的相似度比较高,就给用户推荐物品C,基于用户的推荐是如果用户1和用户2相似度高,用户2买了物品A而用户1没有买,那么就给用户1推荐物品A。是不是很好理解。今天我主要说说itembase。

简单的推荐


刚才讲到itembase是根据物品的相似度来进行推荐,那么怎么计算物品的相似度呢?我们看一个简单的例子。

下面是一个用户的观看电影的行为的数据:

上面的表格反应的是:

用户1看了电影 A、B;
用户2看了电影 A、C;
用户3看了电影  A、B、C;

后面的打分我们可以先忽略,因为得分都是一样的。
那么对于电影来说,被人看过的统计就是
电影A:1、2、3
电影B:1、3
电影C:2、3

这里我们利用jaccard公式(下方)来计算电影A和B的距离:

那么A和B的 jaccard = (A交B)/(A并B) = [1,3] / [1,2,3] = 2/3

后面依次类我们可以算出A、B、C分别和另外两个jaccard系数。

这个时候,当一个用户看了电影B ,而我们要决定给他推荐电影A或者C的时候,我们就能很明显的看出来B和A之间的jaccard系数更大,固推荐电影A。

带用户打分权重的推荐


上面的流程中,不知道大家有没有注意到,我们忽略了一步,那就是用户对这个电影的打分,我们并没有用上。而现实生活中很有可能会出现这样的问题:我看了一个电影A和电影F,我对电影A打分特别低,但是电影A和电影B的相似度非常高,而我看电影F之后,我对电影F的打分相当的高,但是电影F和电影E之间的相似度是一般高(低于电影A和B的相似度),而如果我们还是用上面的算法的话,那么推荐给我的就是电影B了,而事实上我可能更想看的是电影E。那么如何解决这个问题呢,我们继续看。

这里我得用一个复杂的例子来讲解一下,假如我们有如下数据源:

首先第一步,我们需要构造一个item的同现矩阵

这里讲一下同现矩阵的构造方法:

[A, A] 这个地方的值代表的是 A这部电影一共出现了多少次,我们数数可以看到一共是5次,固这里值为5;

[A, B] 和 [B, A] 的值是相同的,代表的是,A和B同时被一个人观看的次数,我们可以看到用户1、2、5同时看过A和B电影,固这个值就是3;

[C, G] 类型这样的就是说,没有人同时看过C和G这两部电影。

构造完同现矩阵后,这时候,我们可以得到每一个人的打分,再构造一个评分矩阵,这里为了演示过程,我以用户4为例。

首先构造评分矩阵,这里需要注意,没有看过的电影直接记为0即可,即矩阵为:[5, 0, 3, 4.5, 0, 4, 0]

这里我们将 同现矩阵 * 评分矩阵 得到最终的得分矩阵 :

我们看下我标黑的这一列,最终的数值是 3*5+3*0+3*3+2*5+1*0+1*4+0*0 = 38,这一行代表的是B这个电影推荐给用户4的得分是38,由于我们知道用户4没有看过B、E、G,而B的得分是最高的,因此最后我们给B推荐的时候,就会优先推荐B电影。

由于同现矩阵中的数据代表是电影之间的相互权重,固在最终相乘的时候,权重高并且得分高的最终就能得到高分,这也符合推荐相似的且是用户爱看的电影。

itembase协同过滤的详细介绍的更多相关文章

  1. Mahout实现基于用户的协同过滤算法

    Mahout中对协同过滤算法进行了封装,看一个简单的基于用户的协同过滤算法. 基于用户:通过用户对物品的偏好程度来计算出用户的在喜好上的近邻,从而根据近邻的喜好推测出用户的喜好并推荐. 图片来源 程序 ...

  2. Mahout 协同过滤 itemBase RecommenderJob源码分析

    来自:http://blog.csdn.net/heyutao007/article/details/8612906 Mahout支持2种 M/R 的jobs实现itemBase的协同过滤 I.Ite ...

  3. 从item-base到svd再到rbm,多种Collaborative Filtering(协同过滤算法)从原理到实现

    http://blog.csdn.net/dark_scope/article/details/17228643 〇.说明 本文的所有代码均可在 DML 找到,欢迎点星星. 一.引入 推荐系统(主要是 ...

  4. IO流分类详细介绍和各种字节流类介绍与使用 过滤流 字节流

    Java基础笔记 – IO流分类详细介绍和各种字节流类介绍与使用 过滤流 字节流本文由 arthinking 发表于627 天前 ⁄ Java基础 ⁄ 评论数 1 ⁄ 被围观 2,036 views+ ...

  5. [Recommendation System] 推荐系统之协同过滤(CF)算法详解和实现

    1 集体智慧和协同过滤 1.1 什么是集体智慧(社会计算)? 集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web ...

  6. 【转载】协同过滤 & Spark机器学习实战

    因为协同过滤内容比较多,就新开一篇文章啦~~ 聚类和线性回归的实战,可以看:http://www.cnblogs.com/charlesblc/p/6159187.html 协同过滤实战,仍然参考:h ...

  7. CF(协同过滤算法)

    1 集体智慧和协同过滤 1.1 什么是集体智慧(社会计算)? 集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web ...

  8. Mahout之(二)协同过滤推荐

    协同过滤 —— Collaborative Filtering 协同过滤简单来说就是根据目标用户的行为特征,为他发现一个兴趣相投.拥有共同经验的群体,然后根据群体的喜好来为目标用户过滤可能感兴趣的内容 ...

  9. 协同过滤(CF)算法

    1 集体智慧和协同过滤 1.1 什么是集体智慧(社会计算)? 集体智慧 (Collective Intelligence) 并不是 Web2.0 时代特有的,只是在 Web2.0 时代,大家在 Web ...

随机推荐

  1. Python开发【Django】:时间处理

    时间格式化 做博客后台时,需要经常对数据库里面的时间格式(2017-02-17 02:10:44.308638)进行处理,格式化成自己想要的时间(列如年月日),下面就来记录下如何对时间进行处理 1.时 ...

  2. MongoDB: 原子性和事务

    在MongoDB中, 文档级别的的写操作是原子性的, 甚至是在对某个文档的操作中修改其多个内嵌的子文档, 也是原子性的. 在一个写操作同时修改多个文档的情况, 对其中单独的某个文档而言是原子的, 但是 ...

  3. Tomcat安装(linux系统)

    首先解压: 进入配置文件: 统一tomcat的编码,避免乱码的问题: 保存退出. 注意: 查看打开的端口: /etc/init.d/iptables status 开启端口: iptables -A ...

  4. Spring源码解析(五)循环依赖问题

    引言 循环依赖就是多个类之间互相依赖,比如A依赖B,B也依赖A,如果日常开发中我们用new的方式创建对象,这种循环依赖就会导致不断的在创建对象,导致内存溢出. Spring是怎么解决循环依赖的问题的? ...

  5. thinkphp5使用PHPMailler发送邮件

    http://www.dawnfly.cn/article-1-350.html 想要了解thinkphp3.2版本发送邮件的,请点击此链接:http://www.dawnfly.cn/article ...

  6. MR的shuffle和Spark的shuffle之间的区别

    mr的shuffle mapShuffle 数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的 在某个节点上启动了map Task,map Task读取是通 ...

  7. CentOS6.9安装httpd并正确配置静态IP地址

    题目要求 在vmware中安装一台虚拟机,操作系统为centos6.9 ip地址为 192.168.56.11 要求: 1.xshell能够连接上此虚拟机 2.此虚拟机必须可以上网 3.使用yum安装 ...

  8. poj1177 Picture 矩形周长并

    地址:http://poj.org/problem?id=1177 题目: Picture Time Limit: 2000MS   Memory Limit: 10000K Total Submis ...

  9. redis入门学习记录(一)

    1.linux在线下载Redis ,官网地址:https://redis.io/download目前,最新的Redist版本为redis-5.0.0,使用wget下载 进入/usr/local/src ...

  10. http://www.cvvision.cn/2888.html

    图像处理(一)图像变形(1)矩形全景图像还原-Siggraph 2014 著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处.作者:cvvision链接:http://www.cvvi ...