并行FP-Growth算法思路

上图的单线程形成的FP-Tree。

分布式算法事实上是对FP-Tree进行分割，分而治之

首先，假设我们只关心...|c这个conditional transaction，那么可以把每个transaction中的...|c保留，并发送到一个计算节点中，必然能在该计算节点构造出FG-Tree

root

 |   \

f:3  c:1

 |

c:3

进而得到频繁集(f,c)->3.

同样，如果把所有transaction中的...|b保留，并发送到一个计算节点中，必然能在该几点构造出FG-tree

  root

  /     \

f:2     c:1

 |   \      \

c:1   b:1    b:1

 |

a:1

 |

b:1

进而得到(b)->3。

以上两个例子得到了两个tree，并且分别得到了部分结果。

事实上算法的思路就是把transaction的conditional transaction进行分割（分组），分割的依据就是conditional transaction的suffix（的hash，如果直接是suffix也可以，但是使得spark任务有过多task）。对每个分组分别构建FP-tree，然后在每个子树中获得部分结果，合并得到最终结果。

Spark Mllib中算法

遍历一次数据集输出F-List，类似wordcount，得出频繁出现的items，将F-List划分为G-List，即将频繁items进行分组:

F-List包含item全集I中的频繁item，F-List={f_1,...},f_i在Transaction中出现的频率>support阈值。
G-List={g_1,...}, g_i=hash_of(f_i)=H(f_i).

$H:item_i->g_{j}\ hashvalue\ of\ f_i$

实际上，计算的f_i hash值作为partition_id，在MLLib过程中将conditional transaction f'1,f'2,...|f_i 分发到partition_id=H(f_i)对应的计算节点。

// data即所有的transaction，每个trans是Item数组

def run[Item: ClassTag](data: RDD[Array[Item]]): FPGrowthModel[Item] = {

    // 计算support阈值

    val count = data.count()

    val minCount = math.ceil(minSupport * count).toLong

    val numParts = if (numPartitions > 0) numPartitions else data.partitions.length

    val partitioner = new HashPartitioner(numParts)

    // 第一次遍历，统计frequency，过滤掉低于support阈值的item

    val freqItems:Array[Item] = genFreqItems(data, minCount, partitioner)

    // 第二次遍历

    val freqItemsets = genFreqItemsets(data, minCount, freqItems, partitioner)

    new FPGrowthModel(freqItemsets)

  }

各组构建FP-tree

再次遍历数据集，每个trans中的items按照frequency进行降序排列，并构造conditional transactions，例如一个trans={a,b,c,d,e},a的frequency最高，以此降低，构造其相应的conditional transactions：

a,b,c,d,e:

condition trans  ;  partition_id

      a,b,c,d|e  ;   partition = H(e)

      a,b,c|d    ;   partition = H(d)

      a,b|c      ;   partition = H(c)

      a|b        ;   partition = H(b)

      a          ;   partition = H(a)

对应code在genFreqItemsets.

每个transaction的conditional transaction，并且按照suffix计算hash作为partition_id分组
各个partition_id对应的[condition items]所有集合，即G-List，对G-List的agg即为构造FP-Tree过程
在各个part中提取该part包含的频繁集。在part子树中，node x，若hash(x)=part_id,并且x到root路径能形成频繁集，则输出path(x->root)中的各个节点作为频繁集。
将rank转为对应的item

private def genFreqItemsets[Item: ClassTag](

      data: RDD[Array[Item]],  // transactions

      minCount: Long,          // support threshold

      freqItems: Array[Item],  // FP-List

      partitioner: Partitioner): RDD[FreqItemset[Item]] = {

   // freqItems已经排序了，zip出每个Item的rank

    val itemToRank = freqItems.zipWithIndex.toMap

    // 形成partition_id->[condition items]

    data.flatMap { transaction =>

      // 计算conditional transactions

      genCondTransactions(transaction, itemToRank, partitioner)

    }

    // 各个partition_id对应的[condition items]所有集合，即G-List，

    // 对G-List的agg即为构造FP-Tree过程

    .aggregateByKey(new FPTree[Int], partitioner.numPartitions)(

      (tree, transaction) => tree.add(transaction, 1L),

      (tree1, tree2) => tree1.merge(tree2))

    // 在各个part中提取该part包含的频繁集

    .flatMap { case (part, tree) =>

      tree.extract(minCount, x => partitioner.getPartition(x) == part)

    }

    // 将rank转为对应的item

    .map { case (ranks, count) =>

      new FreqItemset(ranks.map(i => freqItems(i)).toArray, count)

    }

  }

计算conditional transactions

itemToRank，rank越小对应的frequency是越大的
每个trans中筛出frequent Item，并对rank排序，得到的item即按照frequency由大到小排序
- FP_list={a,b,c,d,e,f}
- 一个trans=[f,e,d,a,c], 那么将得到[0,2,3,4,5]
构造conditional transaction
- 例如0,2|3 计算3的partition_id(3), 形成partition_id(3)->[0,2,3]

private def genCondTransactions[Item: ClassTag](

      transaction: Array[Item],

      itemToRank: Map[Item, Int],

      partitioner: Partitioner): mutable.Map[Int, Array[Int]] = {

    val output = mutable.Map.empty[Int, Array[Int]]

    // Filter the basket by frequent items pattern and sort their ranks.

    val filtered = transaction.flatMap(itemToRank.get)

    ju.Arrays.sort(filtered)

    val n = filtered.length

    var i = n - 1

    while (i >= 0) {

      val item = filtered(i)

      val part = partitioner.getPartition(item)

      if (!output.contains(part)) {

        output(part) = filtered.slice(0, i + 1)

      }

      i -= 1

    }

    output

  }

FP-Growth in Spark MLLib的更多相关文章

《Spark MLlib机器学习实践》内容简介、目录
http://product.dangdang.com/23829918.html Spark作为新兴的.应用范围最为广泛的大数据处理开源框架引起了广泛的关注,它吸引了大量程序设计和开发人员进行相 ...
Spark MLlib 机器学习
本章导读机器学习(machine learning, ML)是一门涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多领域的交叉学科.ML专注于研究计算机模拟或实现人类的学习行为,以获取新知识.新 ...
Spark MLlib - LFW
val path = "/usr/data/lfw-a/*" val rdd = sc.wholeTextFiles(path) val first = rdd.first pri ...
Spark MLlib 之 Basic Statistics
Spark MLlib提供了一些基本的统计学的算法,下面主要说明一下: 1.Summary statistics 对于RDD[Vector]类型,Spark MLlib提供了colStats的统计方法 ...
Spark MLlib Data Type
MLlib 支持存放在单机上的本地向量和矩阵,也支持通过多个RDD实现的分布式矩阵.因此MLlib的数据类型主要分为两大类:一个是本地单机向量:另一个是分布式矩阵.下面分别介绍一下这两大类都有哪些类型 ...
Spark MLlib - Decision Tree源码分析
http://spark.apache.org/docs/latest/mllib-decision-tree.html 以决策树作为开始,因为简单,而且也比较容易用到,当前的boosting或ran ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l“机器学 ...
Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .MLlib实例 1.1 聚类实例 1.1.1 算法说明聚类(Cluster analys ...
spark mllib配置pom.xml错误 Multiple markers at this line Could not transfer artifact net.sf.opencsv:opencsv:jar:2.3 from/to central (https://repo.maven.apache.org/maven2): repo.maven.apache.org
刚刚spark mllib,在maven repository网站http://mvnrepository.com/中查询mllib后得到相关库的最新dependence为: <dependen ...
Apache Spark源码走读之23 -- Spark MLLib中拟牛顿法L-BFGS的源码实现
欢迎转载,转载请注明出处,徽沪一郎. 概要本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读. 拟牛顿法数学原理代码实现 L-BFGS算法中使 ...

随机推荐

在制MO未取到FP2
描述:工单被过滤掉 IN_SFCHEADER表数据被删除掉备份表监控可见数据是有写入IN_SFCHEADER表删除前会将数据写入IN_SFCHEADER_TEMP表,发现物料编码是带了一个尾续CZ ...
luoguP3367 [模板]并查集
题目链接:https://www.luogu.org/problemnew/show/P3367 思路: 今天学了新算法——并查集,本题是简单的并查集题的模板. 核心思想是“递归+压缩路径”. 并查集 ...
zoj1649-Rescue （迷宫最短路径）【bfs 优先队列】
http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=649 Rescue Time Limit: 2 Seconds Mem ...
Princess Principal(思维题)
Princess Principal https://www.nowcoder.com/acm/contest/201/J 题目描述阿尔比恩王国(the Albion Kingdom)潜伏着一群代号 ...
django的视图函数介绍
我们来看下views视图中的函数的request这个变量到底有哪些方法和属性 1.request.path 结果:不包括域名和端口的url路径 2.request.method 结果:这次请求的方法, ...
DirectFB编程
一.简介 DirectFB是一个轻量级的提供硬件图形加速,输入设备处理和抽象的图形库,它集成了支持半透明的视窗系统以及在LinuxFramebuffer驱动之上的多层显示.它是一个用软件封装当前硬件无 ...
论坛遇到附件上传失败问题总结（discuz）
(1)bbs/source/class/class_upload.php 50行左右,注释$attach['target'] $attach['target'] = DISCUZ_ROOT.'./da ...
轻松学SQL Server数据库
轻松学SQL Server数据库pdf 下载地址:网盘下载目录: 第1章数据库与SQL Server 2008 11.1 数据库基础 21.1.1 数据库的概念 21.1.2 数据库模型 2 ...
BZOJ 1345[BOI]序列问题 - 贪心 + 单调栈
题解真的没有想到是单调栈啊. 回想起被单调栈支配的恐惧最优情况一定是小的数去合并尽量多的数,所以可以维护一个递减的单调栈. 如果加入的数比栈首小, 就直接推入栈. 如果加入的数大于等于栈首, 必 ...
jquery报.live() is not a function的解决方法
jquery报.live() is not a function的解决方法: jquery中的live()方法在jquery1.9及以上的版本中已被废弃了,如果使用,会抛出TypeError: $(. ...

FP-Growth in Spark MLLib