Spark FPGrowth (Frequent Pattern Mining)

给定交易数据集，FP增长的第一步是计算项目频率并识别频繁项目。与为同样目的设计的类似Apriori的算法不同，FP增长的第二步使用后缀树（FP-tree）结构来编码事务，而不会显式生成候选集，生成的代价通常很高。第二步之后，可以从FP树中提取频繁项集。

import org.apache.spark.sql.SparkSession

import org.apache.spark.mllib.fpm.FPGrowth

import org.apache.spark.rdd.RDD

val spark = SparkSession

      .builder()

      .appName("Spark SQL basic example")

      .config("spark.some.config.option", "some-value")

      .getOrCreate()

// For implicit conversions like converting RDDs to DataFrames

import spark.implicits._

val data = List(

            "1,2,5",

            "1,2,3,5",

            "1,2").toDF("items")

data: org.apache.spark.sql.DataFrame = [items: string]

// 注意每行，头部和尾部的[中括号

 data.rdd.map { s => s.toString() }.collect().take(3)

res20: Array[String] = Array([1,2,5], [1,2,3,5], [1,2])                         

val transactions: RDD[Array[String]] = data.rdd.map {

            s =>

              val str = s.toString().drop(1).dropRight(1)

              str.trim().split(",")

          }

val fpg = new FPGrowth().setMinSupport(0.5).setNumPartitions(8)

val model = fpg.run(transactions)

/* model.freqItemsets.collect().foreach { itemset =>

            println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)

          }*/

val freqItemSets = model.freqItemsets.map { itemset =>

            val items = itemset.items.mkString(",")

            val freq = itemset.freq

            (items, freq)

          }.toDF("items", "freq")

freqItemSets: org.apache.spark.sql.DataFrame = [items: string, freq: bigint]

freqItemSets.show

+-----+----+

|items|freq|

+-----+----+

|    1|   3|

|    2|   3|

|  2,1|   3|

|    5|   2|

|  5,2|   2|

|5,2,1|   2|

|  5,1|   2|

+-----+----+

val minConfidence = 0.6

minConfidence: Double = 0.6

/*model.generateAssociationRules(minConfidence).collect().foreach { rule =>

            println(

              rule.antecedent.mkString("[", ",", "]")

                + " => " + rule.consequent.mkString("[", ",", "]")

                + ", " + rule.confidence)

          }*/

// 根据置信度生成关联规则

val Rules = model.generateAssociationRules(minConfidence)

Rules: org.apache.spark.rdd.RDD[org.apache.spark.mllib.fpm.AssociationRules.Rule[String]] = MapPartitionsRDD[129] at filter at AssociationRules.scala:80

val df = Rules.map { s =>

            val L = s.antecedent.mkString(",")

            val R = s.consequent.mkString(",")

            val confidence = s.confidence

            (L, R, confidence)

          }.toDF("left_collect", "right_collect", "confidence")

df: org.apache.spark.sql.DataFrame = [left_collect: string, right_collect: string ... 1 more field]

df.show

+------------+-------------+------------------+

|left_collect|right_collect|        confidence|

+------------+-------------+------------------+

|           2|            5|0.6666666666666666|

|           2|            1|               1.0|

|         5,2|            1|               1.0|

|           5|            2|               1.0|

|           5|            1|               1.0|

|           1|            5|0.6666666666666666|

|           1|            2|               1.0|

|         2,1|            5|0.6666666666666666|

|         5,1|            2|               1.0|

+------------+-------------+------------------+

Spark FPGrowth (Frequent Pattern Mining)的更多相关文章

八、频繁模式挖掘Frequent Pattern Mining
频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题.建议用户参考维基百科的association r ...
Frequent Pattern 挖掘之一(Aprior算法)（转）
数据挖掘中有一个很重要的应用,就是Frequent Pattern挖掘,翻译成中文就是频繁模式挖掘.这篇博客就想谈谈频繁模式挖掘相关的一些算法. 定义何谓频繁模式挖掘呢?所谓频繁模式指的是在样本数据 ...
Frequent Pattern 挖掘之二(FP Growth算法)
Frequent Pattern 挖掘之二(FP Growth算法) FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断 ...
原创：协同过滤之spark FP-Growth树应用示例
上一篇博客中,详细介绍了UserCF和ItemCF,ItemCF,就是通过用户的历史兴趣,把两个物品关联起来,这两个物品,可以有很高的相似度,也可以没有联系,比如经典的沃尔玛的啤酒尿布案例.通过Ite ...
Frequent Pattern 挖掘之二(FP Growth算法)（转）
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据结 ...
Frequent Pattern （FP Growth算法)
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据 ...
论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)
一.论文目标:将差分隐私和频繁项集挖掘结合,主要针对大规模数据. 二.论文的整体思路: 1)预处理阶段: 对于大的数据集,进行采样得到采样数据集并计算频繁项集,估计样本数据集最大长度限制,然后再缩小源 ...
Space Time Pattern Mining Tools（时空模式挖掘工具）
时空模式挖掘工具 # Process: 局部异常值分析 arcpy.LocalOutlierAnalysis_stpm("", "", 输出要素, " ...
《Spark 官方文档》机器学习库（MLlib）指南
spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分 ...

随机推荐

DPI技术简介
匹配模式根据规则的特点,可以分为两种特征字符串模式:特征字符串模式实现方法简单,将流量的特征字符串提取出来即可进行流识别,不过此种方式描述性较差,需要将流量特征进行遍历,才可以将流量全部识别出来, ...
openstack 之~openstack各组件关系
认识openstack 第一:openstack是什么? OpenStack是一个由NASA(美国国家航空航天局)和Rackspace合作研发并发起的,以Apache许可证授权的自由软件和开放源代码项 ...
利用referer属性，记录百度搜索跳转参数
从百度搜索结果跳转到指定链接前,百度会发送一些参数,可以利用referer属性,在本站访问时记录百度跳转来之前的一些参数. 利用百度跳转前参数,进行一些相关的seo优化. 目前所用到的一些参数说明如下 ...
821. 字符的最短距离 c++实现方法
1.题目描述给定一个字符串 S 和一个字符 C.返回一个代表字符串 S 中每个字符到字符串 S 中的字符 C 的最短距离的数组. 示例 1: 输入: S = "loveleetcode&q ...
使用CGlib实现Bean拷贝(BeanCopier)
在做业务的时候,我们有时为了隔离变化,会将DAO查询出来的Entity,和对外提供的DTO隔离开来.大概90%的时候,它们的结构都是类似的,但是我们很不喜欢写很多冗长的b.setF1(a.getF1( ...
Catch a Memory Access Violation in C++
From: https://stackoverflow.com/questions/16612444/catch-a-memory-access-violation-in-c In C++, is ...
from __future__ import print_function的作用
阅读代码的时候会看到下面语句: from __future__ import print_function 该语句是python2的概念,那么python3对于python2就是future了,也就是 ...
MinFilter(MaxFilter)快速算法C++实现
目录 1.算法简述 1.1.MinFilter(MaxFilter) 算法简述 1.2.MinFilter(MaxFilter) 快速算法简述 2.实现代码 2.1.MinFilterOneRow 单 ...
Nload(CentOS网速的实时监控)
Nload(CentOS网速的实时监控)的安装和安装过程中的问题 I. 安装 Download the latest rpmforge-release rpm from wget ftp://ftp. ...
django 与 mysql 勾结指南

Spark FPGrowth (Frequent Pattern Mining)

Spark FPGrowth (Frequent Pattern Mining)的更多相关文章

随机推荐

热门专题