八、频繁模式挖掘Frequent Pattern Mining

频繁模式挖掘(Frequent Pattern Mining):

频繁项集挖掘是通常是大规模数据分析的第一步，多年以来它都是数据挖掘领域的活跃研究主题。建议用户参考维基百科的association rule learning 了解更多信息。MLlib支持了一个并行的FP-growth，FP-growth是很受欢迎的频繁项集挖掘算法。

FP-growth:

FP-growth算法在论文Han et al., Mining frequent patterns without candidate generation 中有详细论述，其中FP指的是频繁模式(frequent pattern)。给定一个事务数据集，FP-growth算法的第一步是计算项的频度并标记频繁项。跟Apriori这类挖掘频繁项集算法不同的是，FP-growth的第二步使用了一个FP-tree结构来编码事务。第二部之后，频繁项集可以直接从FP-tree中提取。在 MLlib中，我们实现了一个FP-growth的并行版本（PFP），具体方法参见论文Li et al., PFP: Parallel FP-growth for query recommendation。

MLlib中FP-growth实现的参数：

minSupport: 最小支持度。用浮点数表示比例。例如某项在5个事务中出现3次，其支持度为3/5=0.6。

numPartitions: 计算的分区数量。

import java.util.Arrays;

import java.util.List;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.mllib.fpm.AssociationRules;

import org.apache.spark.mllib.fpm.FPGrowth;

import org.apache.spark.mllib.fpm.FPGrowthModel;

JavaRDD<String> data = sc.textFile("data/mllib/sample_fpgrowth.txt");

JavaRDD<List<String>> transactions = data.map(

  new Function<String, List<String>>() {

    public List<String> call(String line) {

      String[] parts = line.split(" ");

      return Arrays.asList(parts);

    }

  });

FPGrowth fpg = new FPGrowth()

  .setMinSupport(0.2)

  .setNumPartitions(10);

FPGrowthModel<String> model = fpg.run(transactions);

for (FPGrowth.FreqItemset<String> itemset: model.freqItemsets().toJavaRDD().collect()) {

  System.out.println("[" + itemset.javaItems() + "], " + itemset.freq());

}

double minConfidence = 0.8;

for (AssociationRules.Rule<String> rule

  : model.generateAssociationRules(minConfidence).toJavaRDD().collect()) {

  System.out.println(

    rule.javaAntecedent() + " => " + rule.javaConsequent() + ", " + rule.confidence());

}

关联规则挖掘(Association Rule)：

关联规则实现了一个并行的规则生成算法构建的规则，有一个单一的项目所产生的。

import java.util.Arrays;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.mllib.fpm.AssociationRules;

import org.apache.spark.mllib.fpm.FPGrowth;

import org.apache.spark.mllib.fpm.FPGrowth.FreqItemset;

JavaRDD<FPGrowth.FreqItemset<String>> freqItemsets = sc.parallelize(Arrays.asList(

  new FreqItemset<String>(new String[] {"a"}, 15L),

  new FreqItemset<String>(new String[] {"b"}, 35L),

  new FreqItemset<String>(new String[] {"a", "b"}, 12L)

));

AssociationRules arules = new AssociationRules()

  .setMinConfidence(0.8);JavaRDD<AssociationRules.Rule<String>> results = arules.run(freqItemsets);

for (AssociationRules.Rule<String> rule : results.collect()) {

  System.out.println(

    rule.javaAntecedent() + " => " + rule.javaConsequent() + ", " + rule.confidence());

}

序列模式分析算法(PrefixSpan):

主要是一个序列模式挖掘算法在裴等人描述，通过模式增长挖掘序列模式的改进方法：我们请读者去参考文化序列模式挖掘问题。

spark.PrefixSpan下列参数：

minSupport:需考虑的最小支持度的频繁序列模式

maxPatternLength: 最大长度的飞行常客英里 sequential pattern.Any 飞行常客英里 pattern 超过这个长度不会都包括在 results.

maxLocalProjDBSize:在一个前缀映射数据库之前的投影数据库局部迭代处理允许的最大项目数量开始。这个参数应该尊重你的遗嘱执行人的大小调整。

import java.util.Arrays;

import java.util.List;

import org.apache.spark.mllib.fpm.PrefixSpan;

import org.apache.spark.mllib.fpm.PrefixSpanModel;

JavaRDD<List<List<Integer>>> sequences = sc.parallelize(Arrays.asList(

  Arrays.asList(Arrays.asList(1, 2), Arrays.asList(3)),

  Arrays.asList(Arrays.asList(1), Arrays.asList(3, 2), Arrays.asList(1, 2)),

  Arrays.asList(Arrays.asList(1, 2), Arrays.asList(5)),

  Arrays.asList(Arrays.asList(6))), 2);PrefixSpan prefixSpan = new PrefixSpan()

  .setMinSupport(0.5)

  .setMaxPatternLength(5);

PrefixSpanModel<Integer> model = prefixSpan.run(sequences);

for (PrefixSpan.FreqSequence<Integer> freqSeq: model.freqSequences().toJavaRDD().collect()) {

  System.out.println(freqSeq.javaSequence() + ", " + freqSeq.freq());

}

八、频繁模式挖掘Frequent Pattern Mining的更多相关文章

频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比（Python实现）
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用
今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用,简单记录下试验结果,供以后查阅: 环境:Jdk1.7 + Hadoop2.2.0单机伪集群 + Mahout0.6 ...
频繁模式挖掘apriori算法介绍及Java实现
频繁模式是频繁地出如今数据集中的模式(如项集.子序列或者子结构).比如.频繁地同一时候出如今交易数据集中的商品(如牛奶和面包)的集合是频繁项集. 一些基本概念支持度:support(A=>B) ...
频繁模式挖掘 Apriori算法 FP-tree
啤酒尿布组合营销 X=>Y,其中x属于项集I,Y属于项集I,且X.Y的交集等于空集. 2类算法 Apriori算法不断地构造候选集.筛选候选集来挖掘出频繁项集,需要多次扫描原始数据.磁盘I ...
数据挖掘（七）：Apriori算法：频繁模式挖掘
1 算法思想算法使用频繁项集性质的先验知识.Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集.首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项 ...
C#设计模式之十八状态模式（State Pattern）【行为型】
一.引言今天我们开始讲“行为型”设计模式的第六个模式,该模式是[状态模式],英文名称是:State Pattern.无论是现实世界,还是面向对象的OO世界,里面都有一个东西,那就是对象.有对象当然就 ...
Spark FPGrowth (Frequent Pattern Mining)
给定交易数据集,FP增长的第一步是计算项目频率并识别频繁项目.与为同样目的设计的类似Apriori的算法不同,FP增长的第二步使用后缀树(FP-tree)结构来编码事务,而不会显式生成候选集,生成的代 ...
数据挖掘学习笔记：挖掘频繁模式、关联和相关[ZZ]
所谓挖掘频繁模式,关联和相关,即指在出现的数据集中找到一个经常出现的序列模式或者是一个经常出现的数据结构.就像搞CPU设计的人知道,Cache的预取机制有流预取和指针预取,前者就是发现流模式,即发 ...

随机推荐

Node.js中url的详解
var url = require('url');var str = 'http://zhufengnodejs:123@github.com:80/2016jsnode?name=zfpx& ...
ORACLE导入导出操作篇
1. DIRECTORY 指定转储文件和日志文件所在的目录DIRECTORY=directory_objectDirectory_object用于指定目录对象名称.需要注意,目录对象是使用CREATE ...
Dialog式的Activity(AndroidActivity生命周期)
概述和普通的Activity跳转稍微不同的是,当第1个Activity跳转到第二个Activity后,如果点击'back'按钮(即Android键盘的按钮,则不会调用调用第一个Activity的on ...
linux书籍推荐(转)
ref: http://www.cnblogs.com/jiangjh/archive/2011/06/27/2091164.html#commentform 入门篇 <LINUX权威指南> ...
认识<img>标签，为网页插入图片
在网页的制作中为使网页炫丽美观,肯定是缺少不了图片,可以使用<img>标签来插入图片. 语法: <img src="图片地址" alt="下载失败时的替 ...
推荐一个有趣的软件"Process Monitor"
同事给的,用起来感觉很不错,官网地址:http://technet.microsoft.com/en-us/sysinternals/bb896645.aspx 以下为官网介绍: Introducti ...
java面试题及答案（基础题122道，代码题19道）
JAVA相关基础知识 1.面向对象的特征有哪些方面 1.抽象: 抽象就是忽略一个主题中与当前目标无关的那些方面,以便更充分地注意与当前目标有关的方面.抽象并不打算了解全部问题,而只是选择其中的一部分, ...
Eclipse代码注释模板修改
/** * @ClassName: ${type_name} * @author: <font color="red"><b>ZF</b>< ...
Math.round()、Math.ceil()、Math.floor()与Math.random()的区别？
Math.round(x) 四舍五入加上0.5向下取整 Math.round(1.5) 2 Math.round(-11.5) -11 Math.round(-11.2) -10 Math.ceil ...
ubuntu 关闭开启防火墙
关闭防火墙: 命令: sudo ufw disable 打开防火墙命令: sudo ufw enable

八、频繁模式挖掘Frequent Pattern Mining

八、频繁模式挖掘Frequent Pattern Mining的更多相关文章

随机推荐

热门专题