基于物品的协同过滤ItemCF的mapreduce实现
文章的UML图比较好看.....
原文链接:www.cnblogs.com/anny-1980/articles/3519555.html
基于物品的协同过滤ItemCF
数据集字段:
1. User_id: 用户ID
2. Item_id: 物品ID
3. preference:用户对该物品的评分
算法的思想:
1. 建立物品的同现矩阵A,即统计两两物品同时出现的次数
数据格式:Item_id1:Item_id2 次数
2. 建立用户对物品的评分矩阵B,即每一个用户对某一物品的评分
数据格式:Item_id user_id:preference
3. 推荐结果=物品的同现矩阵A * 用户对物品的评分矩阵B
数据格式:user_id item_id,推荐分值
4. 过滤用户已评分的物品项
5.对推荐结果按推荐分值从高到低排序
原始数据:
|
1,101,5.0 1,102,3.0 1,103,2.5 2,101,2.0 2,102,2.5 2,103,5.0 2,104,2.0 3,101,2.0 3,104,4.0 3,105,4.5 3,107,5.0 4,101,5.0 4,103,3.0 4,104,4.5 4,106,4.0 5,101,4.0 5,102,3.0 5,103,2.0 5,104,4.0 5,105,3.5 5,106,4.0 6,102,4.0 6,103,2.0 6,105,3.5 6,107,4.0 |
Hadoop MapReduce程序分为四步:
第一步: 读取原始数据,按用户ID分组,输出文件数据格式为
|
1 103:2.5,101:5.0,102:3.0 2 101:2.0,102:2.5,103:5.0,104:2.0 3 107:5.0,101:2.0,104:4.0,105:4.5 4 103:3.0,106:4.0,104:4.5,101:5.0 5 101:4.0,102:3.0,103:2.0,104:4.0,105:3.5,106:4.0 6 102:4.0,103:2.0,105:3.5,107:4.0 |
第二步:统计两两物品同时出现的次数,输出文件数据格式为
|
101:101 5 101:102 3 101:103 4 101:104 4 101:105 2 101:106 2 101:107 1 102:101 3 102:102 4 102:103 4 102:104 2 102:105 2 102:106 1 102:107 1 103:101 4 103:102 4 103:103 5 103:104 3 103:105 2 103:106 2 103:107 1 104:101 4 104:102 2 104:103 3 104:104 4 104:105 2 104:106 2 104:107 1 105:101 2 105:102 2 105:103 2 105:104 2 105:105 3 105:106 1 105:107 2 106:101 2 106:102 1 106:103 2 106:104 2 106:105 1 106:106 2 107:101 1 107:102 1 107:103 1 107:104 1 107:105 2 107:107 2 |
第三步:生成用户评分矩阵和物品同现矩阵
第一个mapper结果为用户评分矩阵,结果如下:
|
101 2:2.0 101 5:4.0 101 4:5.0 101 3:2.0 101 1:5.0 102 2:2.5 102 1:3.0 102 6:4.0 102 5:3.0 103 6:2.0 103 5:2.0 103 1:2.5 103 4:3.0 103 2:5.0 104 5:4.0 104 2:2.0 104 3:4.0 104 4:4.5 105 5:3.5 105 3:4.5 105 6:3.5 106 4:4.0 106 5:4.0 107 3:5.0 107 6:4.0 |
第二个mapper生成物品同现矩阵,结果如下:
|
101:101 5 101:102 3 101:103 4 101:104 4 101:105 2 101:106 2 101:107 1 102:101 3 102:102 4 102:103 4 102:104 2 102:105 2 102:106 1 102:107 1 103:101 4 103:102 4 103:103 5 103:104 3 103:105 2 103:106 2 103:107 1 104:101 4 104:102 2 104:103 3 104:104 4 104:105 2 104:106 2 104:107 1 105:101 2 105:102 2 105:103 2 105:104 2 105:105 3 105:106 1 105:107 2 106:101 2 106:102 1 106:103 2 106:104 2 106:105 1 106:106 2 107:101 1 107:102 1 107:103 1 107:104 1 107:105 2 107:107 2 |
第四步:做矩阵乘法,推荐结果=物品的同现矩阵A * 用户对物品的评分矩阵B
结果如下:
|
1 107,10.5 1 106,18.0 1 105,21.0 1 104,33.5 1 103,44.5 1 102,37.0 1 101,44.0 2 107,11.5 2 106,20.5 2 105,23.0 2 104,36.0 2 103,49.0 2 102,40.0 2 101,45.5 3 107,25.0 3 106,16.5 3 105,35.5 3 104,38.0 3 103,34.0 3 102,28.0 3 101,40.0 4 107,12.5 4 106,33.0 4 105,29.0 4 104,55.0 4 103,56.5 4 102,40.0 4 101,63.0 5 107,20.0 5 106,34.5 5 105,40.5 5 104,59.0 5 103,65.0 5 102,51.0 5 101,68.0 6 107,21.0 6 106,11.5 6 105,30.5 6 104,25.0 6 103,37.0 6 102,35.0 6 101,31.0 |

基于物品的协同过滤ItemCF的mapreduce实现的更多相关文章
- 转】Mahout分步式程序开发 基于物品的协同过滤ItemCF
原博文出自于: http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ 感谢! Posted: Oct 14, 2013 Tags: Hadoopite ...
- Mahout分步式程序开发 基于物品的协同过滤ItemCF
http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, ...
- 基于物品的协同过滤item-CF 之电影推荐 python
推荐算法有基于协同的Collaboration Filtering:包括 user Based和item Based:基于内容 : Content Based 协同过滤包括基于物品的协同过滤和基于用户 ...
- 推荐召回--基于物品的协同过滤:ItemCF
目录 1. 前言 2. 原理&计算&改进 3. 总结 1. 前言 说完基于用户的协同过滤后,趁热打铁,我们来说说基于物品的协同过滤:"看了又看","买了又 ...
- 基于物品的协同过滤算法(ItemCF)
最近在学习使用阿里云的推荐引擎时,在使用的过程中用到很多推荐算法,所以就研究了一下,这里主要介绍一种推荐算法—基于物品的协同过滤算法.ItemCF算法不是根据物品内容的属性计算物品之间的相似度,而是通 ...
- ItemCF_基于物品的协同过滤_MapReduceJava代码实现思路
ItemCF_基于物品的协同过滤 1. 概念 2. 原理 如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路 数据集: 第一步:构建物品的同现矩阵 第 ...
- ItemCF_基于物品的协同过滤
ItemCF_基于物品的协同过滤 1. 概念 2. 原理 如何给用户推荐? 给用户推荐他没有买过的物品--103 3. java代码实现思路 数据集: 第一步:构建物品的同现矩阵 第 ...
- 基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms” .
ligh@local-host$ ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.3 基于物品的协同过滤推荐算法--读"Item-Based ...
- Music Recommendation System with User-based and Item-based Collaborative Filtering Technique(使用基于用户及基于物品的协同过滤技术的音乐推荐系统)【更新】
摘要: 大数据催生了互联网,电子商务,也导致了信息过载.信息过载的问题可以由推荐系统来解决.推荐系统可以提供选择新产品(电影,音乐等)的建议.这篇论文介绍了一个音乐推荐系统,它会根据用户的历史行为和口 ...
随机推荐
- 【剑指Offer】15、反转链表
题目描述: 输入一个链表,反转链表后,输出新链表的表头. 解题思路: 本题比较简单,有两种方法可以实现:(1)三指针.使用三个指针,分别指向当前遍历到的结点.它的前一个结点以及后一个结 ...
- 2019 gplt团体程序设计天梯赛总结
分很菜… 以后写题一定记得把题意理清楚了再开始写. 模拟题还是大坑,代码还是写得不够多,代码量一大就写bug. 补题 l1-8 估值一亿的AI核心代码 补题链接:https://pintia.cn/p ...
- [MySQL优化案例]系列 — RAND()优化
众所周知,在MySQL中,如果直接 ORDER BY RAND() 的话,效率非常差,因为会多次执行.事实上,如果等值查询也是用 RAND() 的话也如此,我们先来看看下面这几个SQL的不同执行计划和 ...
- 关于使用element中的popup问题
高产似母猪..写完上篇看了几集新番就空虚了..零点时分决定爬起来,趁着清明假期能写多写点. 1.前言 我们知道弹出框都是在触发了某种条件后展示,而一个个的新的弹出框的展示,总是覆盖着上一个弹出框.实现 ...
- laravel5 文件上传
<!DOCTYPE html><html lang="zh-CN"><head> {{--设置字符编码--}} <meta charset ...
- Maven学习总结(26)——maven update时,报:Preference node "org.eclipse.wst.validation"...
详细情况如下: An internal error occurred during: "Updating Maven Project". Preference node " ...
- Nginx学习总结(2)——Nginx手机版和PC电脑版网站配置
考虑到网站的在多种设备下的兼容性,有很多网站会有手机版和电脑版两个版本.访问同一个网站URL,当服务端识别出用户使用电脑访问,就打开电脑版的页面,用户如果使用手机访问,则会得到手机版的页面. 1.判断 ...
- Appendix B: Netsh Command Syntax for the Netsh Firewall Context
11 out of 19 rated this helpful - Rate this topic Published: December 17, 2004 The following Netsh c ...
- VS的代码管理工具
参考文章 可以从中知道修改代码段是要打开相关路径下的文档来修改 官方下载地址 百度云盘 如果项目中国有一些代码重复率非常高,可以把这些代码做成snippet代码段,简化成快捷键命令,加速开发
- [bzoj1861][Zjoi2006]Book 书架_非旋转Treap
Book 书架 bzoj-1861 Zjoi-2006 题目大意:给你一个序列,支持:将指定编号的元素抽出,放到序列顶(底):将指定编号元素左右篡位:查询指定编号元素位置:查询指定数量位置元素编号. ...