原创：协同过滤之spark FP-Growth树应用示例

上一篇博客中，详细介绍了UserCF和ItemCF，ItemCF，就是通过用户的历史兴趣，把两个物品关联起来，这两个物品，可以有很高的相似度，也可以没有联系，比如经典的沃尔玛
的啤酒尿布案例。通过ItemCF，能能够真正实现个性化推荐，最大限度地挖掘用户的需求。在购物网站和电子商务，图书中，应用特别广泛。需要维护物品相似度表。spark的MLlib中，
有FP-Growth树挖掘物品的相关度，应用很多。关于FP-Growth树的介绍，有很多博文，不详细说了。他相对于Apriori算法，做了很大的改进，大大降低了时间复杂度。构建FP-Growth
树的过程，还需要维护一个头表（链表），用来存储频繁项集的前缀路径。下面的一张图，可以说明：


从FP-Growth增长树中挖掘出频繁项集后，比如：啤酒3 鸡肉2 果汁2 | 尿布3，设置了minConf（最小置信度）后，当用户（或者是一个新用户）购买了尿布时，可以给他推荐啤酒，鸡肉。下面的代码，说明了这一原理：

package com.txq.spark.test

/**
  * Created by ACER on 2016/11/22.
  */
case class ItemFreq(val item:String,val freq:Double) {

}

package com.txq.spark.test

import java.util.concurrent.ConcurrentHashMap
import org.apache.spark.mllib.fpm.FPGrowth
import org.apache.spark.{SparkConf, SparkContext}
import scala.collection._

/**
  * Created by ACER on 2016/11/20.
  */
object Test1 {
  System.setProperty("hadoop.home.dir", "D://hadoop-2.6.2");
  val conf = new SparkConf().setMaster("local").setAppName("testFP-Growth");
  val sc = new SparkContext(conf);

  var freqMap = new ConcurrentHashMap[mutable.ArrayBuffer[String],mutable.ArrayBuffer[ItemFreq]]();//捆绑推销(key值为用户购买的历史商品)
  val items = new ConcurrentHashMap[Long,mutable.ArrayBuffer[String]]()//用户购买的历史商品
  val minSupport = 0.5//最小支持度
  val minConf = 0.75//最小置信度
  var freq = 0L//用户历史商品出现的次数
  var li = mutable.ArrayBuffer[ItemFreq]()
  def main(args: Array[String]): Unit = {
    //1.加载过去一段时间，大量用户购买的商品，数据源为商品列表，训练FP-Growth模型
    val data = sc.textFile("D://fp.txt").map(_.split(" ")).cache()
    val count = data.count()
    val fpg = new FPGrowth().setMinSupport(minSupport).setNumPartitions(3)
    val model = fpg.run(data)

    //2.输出所有频繁项集
    val result = model.freqItemsets.filter(_.items.size >= 1)
    result.foreach(f => println(f.items.mkString(" ")+"->"+f.freq))

    //3.获取用户id，并得到历史商品
    val userId = args(0).toLong
    var bucket:mutable.ArrayBuffer[String] = items.get(userId.toLong)
    if(bucket == null){
      bucket = new mutable.ArrayBuffer[String]()
      for(i <- 1 until args.length){
        bucket += (args(i))
      }
    }
    items.put(userId,bucket)//收集用户购买的历史商品
    for(item <- result){
      //4.在模型中找出与用户的历史商品相符合的频繁项集,得到频率
      if(item.items.mkString == items.get(userId).mkString){
        freq = item.freq
      }
    }
    println("历史商品出现的次数：" + freq)//调试信息(输出用户历史商品的支持度)
    //5.根据历史商品，找出置信度相对高的频繁项，推荐给用户

    for(f <- result){
      if(f.items.mkString.contains(items.get(userId).mkString) && f.items.size > items.get(userId).size) {
        val conf:Double = f.freq.toDouble / freq.toDouble
        if(conf >= minConf) {
          //找出所有置信度大于minConf的项
          var item = f.items
          for (i <- 0 until items.get(userId).size) {
            item = item.filter(_ != items.get(userId)(i)) //过滤掉用户历史商品，剩下的为推荐的商品
          }
          for (str <- item) {
           li += ItemFreq(str, conf)
          }
        }
      }
    }
    freqMap.put(items.get(userId),li);
    println("推荐的商品为：")
    freqMap.get(items.get(userId)).foreach(f =>println(f.item + "->" + f.freq))
  }
}
挖掘出的频繁项集：
尿布->3
尿布 啤酒->3

果汁->4

鸡肉->4
鸡肉 果汁->3

啤酒->4
啤酒 鸡肉->3
啤酒 果汁->3

历史商品出现的次数：4

推荐的商品为：
鸡肉->0.75
啤酒->0.75

测试文件为：
果汁 鸡肉
鸡肉 啤酒 鸡蛋 尿布
果汁 啤酒 尿布 可乐
果汁 鸡肉 啤酒 尿布
鸡肉 果汁 啤酒 可乐

原创：协同过滤之spark FP-Growth树应用示例的更多相关文章

推荐系统-协同过滤在Spark中的实现
作者:vivo 互联网服务器团队-Tang Shutao 现如今推荐无处不在,例如抖音.淘宝.京东App均能见到推荐系统的身影,其背后涉及许多的技术.本文以经典的协同过滤为切入点,重点介绍了被工业界广 ...
原创：协同过滤之ALS
推荐系统的算法,在上个世纪90年代成型,最早应用于UserCF,基于用户的协同过滤算法,标志着推荐系统的形成.首先,要明白以下几个理论:①长尾理论②评判推荐系统的指标.之所以需要推荐系统,是要挖掘冷门 ...
协同过滤 CF & ALS 及在Spark上的实现
使用Spark进行ALS编程的例子可以看:http://www.cnblogs.com/charlesblc/p/6165201.html ALS:alternating least squares ...
【转载】协同过滤 & Spark机器学习实战
因为协同过滤内容比较多,就新开一篇文章啦~~ 聚类和线性回归的实战,可以看:http://www.cnblogs.com/charlesblc/p/6159187.html 协同过滤实战,仍然参考:h ...
Spark MLlib之协同过滤
原文:http://blog.selfup.cn/1001.html 什么是协同过滤协同过滤(Collaborative Filtering, 简称CF),wiki上的定义是:简单来说是利用某兴趣相 ...
Spark机器学习之协同过滤算法
Spark机器学习之协同过滤算法一).协同过滤 1.1 概念协同过滤是一种借助"集体计算"的途径.它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度.其内在思想是相 ...
Spark机器学习(11)：协同过滤算法
协同过滤(Collaborative Filtering,CF)算法是一种常用的推荐算法,它的思想就是找出相似的用户或产品,向用户推荐相似的物品,或者把物品推荐给相似的用户.怎样评价用户对商品的偏好? ...
协同过滤 spark scala
1 http://www.cnblogs.com/charlesblc/p/6165201.html [转载]协同过滤 & Spark机器学习实战 2 基于Spark构建推荐引擎之一:基于物品 ...
Spark 基于物品的协同过滤算法实现
J由于 Spark MLlib 中协同过滤算法只提供了基于模型的协同过滤算法,在网上也没有找到有很好的实现,所以尝试自己实现基于物品的协同过滤算法(使用余弦相似度距离) 算法介绍基于物品的协同过滤算 ...

随机推荐

jQuery中的几个案例：隔行变色、复选框全选和全不选
1 表格隔行变色 1 技术分析: 1 )基本过滤选择器: odd: even: 2 )jq添加和移除样式: addClass(); removeClass(); 2 代码实现 <script s ...
nodeJS实现简易爬虫
nodeJS实现简易爬虫需求:使用nodeJS爬取昵图网某个分类下的图片并存入本地运用nodeJS自带系统模块http.fs 示例代码: var http =require('http'); va ...
溢出处理、盒子模型、背景图片、float（浮动）
一.overflow:溢出内容的处理 overflow:hidden; 溢出内容隐藏(在父元素内使用,可以清除子元素浮动对父元素的影响) overflow:auto; 自动滚动(有溢出 ...
v8--sort 方法源码（1）插入排序法
v8--sort方法源码中对于长度较短的数组使用的是插入排序法. 部分源码: function InsertionSort(a, from, to) { for (var i = from + 1; ...
php正则表达式中preg_match_all函数的详解
php正则表达式中的函数我们之前为大家结果一个preg_match函数,相信大伙对此有所了解,那么php正则表达式中preg_match_all函数的具体使用是如何的呢?今天我们就带大家了解php正则 ...
JAVA导出excel 直接弹出下载框
转自:https://blog.csdn.net/qq_38423105/article/details/80782283 效果展示: 1.首先准备jar包 <dependency> ...
Celery：Next Steps
参考文档:http://docs.celeryproject.org/en/latest/getting-started/next-steps.html#next-steps
超详细的纯净windows系统重装示例
之前说过通过使用大白菜制作启动盘,再去系统之家下载系统.虽然系统能安装,但是有时安装的是ghost版本,安装方便,只要引导后面就是等待自动安装,驱动什么的都不用管.但是有时会带上很多软件,不好清理甚至 ...
手动实现KNN算法
手动实现KNN算法计算距离取k个邻近排序距离(欧氏) 预习 import numpy as np # 数组运算是面向元素级别的 arr1 = np.array([1,2,3]) arr2 = n ...
Docker（5）：Docker镜像基本操作（上）
1.获取镜像可以使用docker pull 命令从网络上下载镜像.该命令的格式为docker pull NAME[:TAG].对于Docker镜像来说,如果不显示地指定TAG,则默认会选择lates ...

原创：协同过滤之spark FP-Growth树应用示例

原创：协同过滤之spark FP-Growth树应用示例的更多相关文章

随机推荐

热门专题