ItemCF_基于物品的协同过滤

1.    概念

2.    原理

如何给用户推荐?
给用户推荐他没有买过的物品--103

3.    java代码实现思路

数据集:
第一步:构建物品的同现矩阵
第二步:构建用户的得分矩阵
第三步:同现矩阵*评分矩阵
第四步:拿到最终结果,排序,得到给用户的推荐列表
 
问题一:物品同现矩阵和用户得分矩阵如何构建?
问题二:矩阵相乘如何来做?
 

六个MapReduce

step1_第一个MapReduce: 目的-->去重去除数据集中重复的数据
    第一个MapReduce最终运行的结果:

  
   Mapper端:key:LongWritable(偏移量)   value:一行数据
                                  步骤一:context.write(value, NullWritable.get());    
                                        
   Reducer端:key:一行数据  value:NullWritable
                                  步骤一:context.write(key, NullWritable.get());
                                   
step2_第二个MapReduce:目的-->按用户分组,计算所有物品出现的组合列表,得到用户对物品的喜爱度得分矩阵
   第二个MapReduce最终运行的结果:

 
                     
   Mapper端:key:LongWritable(偏移量)   value:i1,u2723,click,2014/9/14 9:31 || i1,u2723,pay,2014/9/14 9:31
                                  步骤一:按照“,”切割,得到item(i1), user(u2723), action(click)
                                  步骤二:构建输出的key和value(key:user, value:item:物品的得分【根据用户action得到】
                                  步骤三:输出key,value
 
    Reducer端:key:user(u2723)   value:{i1:1, i1:2, i3:2}
                                  步骤一:遍历{i1:1, i1:2, i3:2}对于迭代器中的每一个Text(i1:1),按照“:”切割,分别得到item(i1)action(1)对同一物品的action进行累加,将结果存储到map对象中(map.put(item, action))
                                  步骤二:构建StringBuffer,key:user(u2723),value:{i1:3, i2:4, i3:5}, 并输出
                                          
step3_第三个MapReduce:目的-->对物品组合列表进行计数,建立物品的同现矩阵
   第三个MapReduce最终运行的结果:
                                   
 
   Mapper端:key:LongWritable(偏移量)   value:u26    i276:1,i201:1,i348:1,i321:1,i136:1,
                                  步骤一:切割"\t",得到tokens[1]
                                  步骤二:双重for循环,得到每一个物品和其他物品的同现的次数
                                  步骤三:输出,(key=itemA:itemB,value=1)这里只是得到了单用户的物品同现,在Reducer端得到的是所有用户--同一物品对其他物品的同现次数
 
   Reducer端:第一种--key:itemA:itemB   value:{1,1,1}
                                  步骤一:对Iterable<IntWritable>遍历,统计sum,得到itemA:itemB同现的次数
 
step4_第四个MapReduce:目的-->把物品同现矩阵和用户得分矩阵相乘
   第四个MapReduce最终运行的结果:
                            
 
   Mapper端:key:LongWritable(偏移量)   value: u14    i25:1,i223:1 ||  i100:i105    1
                                  步骤一:因为Mapper读取了第二次输出(用户得分矩阵)和第三次输出的结果(物品同现矩阵),所以要对maptask所对应的split进行判断,判读所读的数据集属于哪一个,这里采用了重写了setup(Context context)方法,定义了flag来进行标识                                  
                                  步骤二:
                                                 如果为同现矩阵(step3)// 样本:  i100:i181    1
                                                         key:i100    value:A:i181,1  输出
                                                 如果为得分矩阵(step2)// 样本:  u24  i64:1,i218:1,i100:2,
                                                         遍历得分矩阵--key:i100    value:B:u24,2,  输出
 
   Reducer端:key:i100   value: {A:i181,1,  A:i180,1  A:i167,3} || {B:u24,2,B:u25,3, B:u26,3}

                                  步骤一:因为value中的A:B:标识同现矩阵,得分矩阵
                                                val.startWith("A:")
                                                   某一个物品i100,针对它和其他物品的同现次数,存在mapA-->value: {A:i181,1,  A:i180,1  A:i167,3}                                                      mapA.put(i181,1),map.put(i180,1)...      
                                                val.startWith("B:")
                                                    该物品(key中的itemID),所有用户的推荐权重分数mapB--{B:u24,2,B:u25,3, B:u26,3}
                                                    mapB.put(u24,2),mapB.put(u25,3)...
                                  步骤二:进行矩阵相乘运算,对于物品i100,它的同现商品以及对应的次数存放到了mapA,而物品对于i100,所有用户的评分已经存放到了mapB,只需要遍历mapA,将其中同现的每一个商品乘以对应的mapB中每一个用户对i100的评分
                                  步骤三:输出,key=userId, value=itemId,result (u24   i101,8.0)
                                                
                                                 
step5_第五个MapReduce:目的-->把相乘后的矩阵相加,获得结果矩阵 
   第五个MapReduce最终运行的结果:
                  
 
    Mapper端:key:LongWritable(偏移量)   value:u13    i9,5.0
                                  步骤一:key=u13,value=i9,5.0  输出
 
    Reducer端:key:u13    value:{i101,2.0, i103,4.5, i101, 5.7}
                                  步骤一:利用map对同一itemId矩阵求和  
                                  步骤二:输出,key=userId, value=itemId,score(样本:  u13    i9,5.0)
                       
step6_第六个MapReduce:目的-->按照推荐得分降序排序,取前十条(二次排序)
   第六个MapReduce最终运行的结果:
                               
 
   Mapper端:key:LongWritable(偏移量)   value:u13    i9,5.0
                                  步骤一:将用户id,物品和得分封装到一个对象

PairWritable

                                  步骤二:输出,key:(PairWritable) value:(item:num)
 
   Shuffle中Sort:
                                  注意:

                                  重写compare()方法,先比较Uid,相等的话,再比较Num

   Shuffle中Group:
                                   注意:

                                   重写compare()方法,Uid相同的为一组
 
   Reducer端:key: PairWritable  value:Text{i160:58.0,i352:9.0,i192:8.0,i455:7.0...}
                                   步骤一:取前十个,利用StringBuffer拼接
                                   步骤二:输出,key=uid,value=sb.toString()
                     

 
 
 
 
 
 
 
 
 

 
 
 
 

 
 

ItemCF_基于物品的协同过滤_MapReduceJava代码实现思路的更多相关文章

  1. ItemCF_基于物品的协同过滤

    ItemCF_基于物品的协同过滤 1.    概念 2.    原理 如何给用户推荐? 给用户推荐他没有买过的物品--103 3.    java代码实现思路 数据集: 第一步:构建物品的同现矩阵 第 ...

  2. 转】Mahout分步式程序开发 基于物品的协同过滤ItemCF

    原博文出自于: http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ 感谢! Posted: Oct 14, 2013 Tags: Hadoopite ...

  3. 基于物品的协同过滤item-CF 之电影推荐 python

    推荐算法有基于协同的Collaboration Filtering:包括 user Based和item Based:基于内容 : Content Based 协同过滤包括基于物品的协同过滤和基于用户 ...

  4. Mahout分步式程序开发 基于物品的协同过滤ItemCF

    http://blog.fens.me/hadoop-mahout-mapreduce-itemcf/ Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, ...

  5. 基于物品的协同过滤推荐算法——读“Item-Based Collaborative Filtering Recommendation Algorithms” .

    ligh@local-host$ ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.0.3 基于物品的协同过滤推荐算法--读"Item-Based ...

  6. Music Recommendation System with User-based and Item-based Collaborative Filtering Technique(使用基于用户及基于物品的协同过滤技术的音乐推荐系统)【更新】

    摘要: 大数据催生了互联网,电子商务,也导致了信息过载.信息过载的问题可以由推荐系统来解决.推荐系统可以提供选择新产品(电影,音乐等)的建议.这篇论文介绍了一个音乐推荐系统,它会根据用户的历史行为和口 ...

  7. Spark 基于物品的协同过滤算法实现

    J由于 Spark MLlib 中协同过滤算法只提供了基于模型的协同过滤算法,在网上也没有找到有很好的实现,所以尝试自己实现基于物品的协同过滤算法(使用余弦相似度距离) 算法介绍 基于物品的协同过滤算 ...

  8. 基于物品的协同过滤算法(ItemCF)

    最近在学习使用阿里云的推荐引擎时,在使用的过程中用到很多推荐算法,所以就研究了一下,这里主要介绍一种推荐算法—基于物品的协同过滤算法.ItemCF算法不是根据物品内容的属性计算物品之间的相似度,而是通 ...

  9. 基于物品的协同过滤ItemCF的mapreduce实现

    文章的UML图比较好看..... 原文链接:www.cnblogs.com/anny-1980/articles/3519555.html 基于物品的协同过滤ItemCF 数据集字段: 1.  Use ...

随机推荐

  1. linux 文件权限的基础知识

    由于自己总是记不住linux里权限的一些知识,因此简单总结如下: 查看文件权限 // 列出所有文件 ls -al // 最前面的一串10个字母的字符串 // 可能像 drwxrwxr-x // 第一位 ...

  2. 解决 mysql 中文乱码

    mysql版本:5.6.38 虽然创建实例时选择的是utf-8的utf8_general_ci,但是用其他程序保存中文时依旧出现乱码的情况. 记录一种可行的解决方案,即修改数据库的字符集. 由于该环境 ...

  3. [数据清洗]- Pandas 清洗“脏”数据(二)

    概要 了解数据 分析数据问题 清洗数据 整合代码 了解数据 在处理任何数据之前,我们的第一任务是理解数据以及数据是干什么用的.我们尝试去理解数据的列/行.记录.数据格式.语义错误.缺失的条目以及错误的 ...

  4. Java设计模式之(一)------单例模式

    1.什么是单例模式? 采取一定的办法保证在整个软件系统中,单例模式确保对于某个类只能存在一个实例.有如下三个特点: ①.单例类只能有一个实例 ②.单例类必须自己创建自己的实例 ③.单例类必须提供外界获 ...

  5. idea激活网站地址,亲测可用(windows7,idea 2016)

    help-register-license server,然后输入 http://idea.iteblog.com/key.php

  6. JAVA个人理解

    为了找到别人写的好文章,先分享下自己的知识,找找感觉路线. 学java前接触的c,后来转向java.第一个照面理解的就是面向对象,没想到让我想了好多年.当时有个负责任的老师说面向对象这个词具体释义众说 ...

  7. Ruby学习之对象模型

    这两周工作内容较多,平时自己也有点不在状态,学的东西有点少了,趁着现在还有点状态,赶紧复习一下之前学习的Ruby吧. Ruby是我真正开始接触动态语言魅力的第一个语言,之前虽然也用过且一直用perl. ...

  8. longest valid parentheses方法归纳

    题目大意见leetcode,下面我稍微介绍下想到的三种方法: 方法一:不用栈去找匹配 建立一个数组l2表示匹配,然后i从0开始,看到 ( 就把l2对应的数值记为-1,直到看到 ),找到)以后,从当前i ...

  9. Ant Design Pro 学习一 安装

    安装: 直接 clone git 仓库 $ git clone --depth=1 https://github.com/ant-design/ant-design-pro.git my-projec ...

  10. AspNet Core Web 应用程序的启动(有关 Program.cs类/ Startup.cs类 ) 当项目中干掉 Startup.cs 类如何设置启动 配置等等

    .有关怎么创建Core MVC/API 这里就不说了,前段时间的博客有说过: 1.  项目生成后会有如图所示两个类 Program类Startup类 2. Startup类  初始内容 public ...