八、频繁模式挖掘Frequent Pattern Mining

频繁模式挖掘(Frequent Pattern Mining):

频繁项集挖掘是通常是大规模数据分析的第一步，多年以来它都是数据挖掘领域的活跃研究主题。建议用户参考维基百科的association rule learning 了解更多信息。MLlib支持了一个并行的FP-growth，FP-growth是很受欢迎的频繁项集挖掘算法。

FP-growth:

FP-growth算法在论文Han et al., Mining frequent patterns without candidate generation 中有详细论述，其中FP指的是频繁模式(frequent pattern)。给定一个事务数据集，FP-growth算法的第一步是计算项的频度并标记频繁项。跟Apriori这类挖掘频繁项集算法不同的是，FP-growth的第二步使用了一个FP-tree结构来编码事务。第二部之后，频繁项集可以直接从FP-tree中提取。在 MLlib中，我们实现了一个FP-growth的并行版本（PFP），具体方法参见论文Li et al., PFP: Parallel FP-growth for query recommendation。

MLlib中FP-growth实现的参数：

minSupport: 最小支持度。用浮点数表示比例。例如某项在5个事务中出现3次，其支持度为3/5=0.6。

numPartitions: 计算的分区数量。

import java.util.Arrays;

import java.util.List;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.mllib.fpm.AssociationRules;

import org.apache.spark.mllib.fpm.FPGrowth;

import org.apache.spark.mllib.fpm.FPGrowthModel;

JavaRDD<String> data = sc.textFile("data/mllib/sample_fpgrowth.txt");

JavaRDD<List<String>> transactions = data.map(

  new Function<String, List<String>>() {

    public List<String> call(String line) {

      String[] parts = line.split(" ");

      return Arrays.asList(parts);

    }

  });

FPGrowth fpg = new FPGrowth()

  .setMinSupport(0.2)

  .setNumPartitions(10);

FPGrowthModel<String> model = fpg.run(transactions);

for (FPGrowth.FreqItemset<String> itemset: model.freqItemsets().toJavaRDD().collect()) {

  System.out.println("[" + itemset.javaItems() + "], " + itemset.freq());

}

double minConfidence = 0.8;

for (AssociationRules.Rule<String> rule

  : model.generateAssociationRules(minConfidence).toJavaRDD().collect()) {

  System.out.println(

    rule.javaAntecedent() + " => " + rule.javaConsequent() + ", " + rule.confidence());

}

关联规则挖掘(Association Rule)：

关联规则实现了一个并行的规则生成算法构建的规则，有一个单一的项目所产生的。

import java.util.Arrays;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.mllib.fpm.AssociationRules;

import org.apache.spark.mllib.fpm.FPGrowth;

import org.apache.spark.mllib.fpm.FPGrowth.FreqItemset;

JavaRDD<FPGrowth.FreqItemset<String>> freqItemsets = sc.parallelize(Arrays.asList(

  new FreqItemset<String>(new String[] {"a"}, 15L),

  new FreqItemset<String>(new String[] {"b"}, 35L),

  new FreqItemset<String>(new String[] {"a", "b"}, 12L)

));

AssociationRules arules = new AssociationRules()

  .setMinConfidence(0.8);JavaRDD<AssociationRules.Rule<String>> results = arules.run(freqItemsets);

for (AssociationRules.Rule<String> rule : results.collect()) {

  System.out.println(

    rule.javaAntecedent() + " => " + rule.javaConsequent() + ", " + rule.confidence());

}

序列模式分析算法(PrefixSpan):

主要是一个序列模式挖掘算法在裴等人描述，通过模式增长挖掘序列模式的改进方法：我们请读者去参考文化序列模式挖掘问题。

spark.PrefixSpan下列参数：

minSupport:需考虑的最小支持度的频繁序列模式

maxPatternLength: 最大长度的飞行常客英里 sequential pattern.Any 飞行常客英里 pattern 超过这个长度不会都包括在 results.

maxLocalProjDBSize:在一个前缀映射数据库之前的投影数据库局部迭代处理允许的最大项目数量开始。这个参数应该尊重你的遗嘱执行人的大小调整。

import java.util.Arrays;

import java.util.List;

import org.apache.spark.mllib.fpm.PrefixSpan;

import org.apache.spark.mllib.fpm.PrefixSpanModel;

JavaRDD<List<List<Integer>>> sequences = sc.parallelize(Arrays.asList(

  Arrays.asList(Arrays.asList(1, 2), Arrays.asList(3)),

  Arrays.asList(Arrays.asList(1), Arrays.asList(3, 2), Arrays.asList(1, 2)),

  Arrays.asList(Arrays.asList(1, 2), Arrays.asList(5)),

  Arrays.asList(Arrays.asList(6))), 2);PrefixSpan prefixSpan = new PrefixSpan()

  .setMinSupport(0.5)

  .setMaxPatternLength(5);

PrefixSpanModel<Integer> model = prefixSpan.run(sequences);

for (PrefixSpan.FreqSequence<Integer> freqSeq: model.freqSequences().toJavaRDD().collect()) {

  System.out.println(freqSeq.javaSequence() + ", " + freqSeq.freq());

}

八、频繁模式挖掘Frequent Pattern Mining的更多相关文章

频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比（Python实现）
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用
今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用,简单记录下试验结果,供以后查阅: 环境:Jdk1.7 + Hadoop2.2.0单机伪集群 + Mahout0.6 ...
频繁模式挖掘apriori算法介绍及Java实现
频繁模式是频繁地出如今数据集中的模式(如项集.子序列或者子结构).比如.频繁地同一时候出如今交易数据集中的商品(如牛奶和面包)的集合是频繁项集. 一些基本概念支持度:support(A=>B) ...
频繁模式挖掘 Apriori算法 FP-tree
啤酒尿布组合营销 X=>Y,其中x属于项集I,Y属于项集I,且X.Y的交集等于空集. 2类算法 Apriori算法不断地构造候选集.筛选候选集来挖掘出频繁项集,需要多次扫描原始数据.磁盘I ...
数据挖掘（七）：Apriori算法：频繁模式挖掘
1 算法思想算法使用频繁项集性质的先验知识.Apriori使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集.首先,通过扫描数据库,累积每个项的计数,并收集满足最小支持度的项,找出频繁1项 ...
C#设计模式之十八状态模式（State Pattern）【行为型】
一.引言今天我们开始讲“行为型”设计模式的第六个模式,该模式是[状态模式],英文名称是:State Pattern.无论是现实世界,还是面向对象的OO世界,里面都有一个东西,那就是对象.有对象当然就 ...
Spark FPGrowth (Frequent Pattern Mining)
给定交易数据集,FP增长的第一步是计算项目频率并识别频繁项目.与为同样目的设计的类似Apriori的算法不同,FP增长的第二步使用后缀树(FP-tree)结构来编码事务,而不会显式生成候选集,生成的代 ...
数据挖掘学习笔记：挖掘频繁模式、关联和相关[ZZ]
所谓挖掘频繁模式,关联和相关,即指在出现的数据集中找到一个经常出现的序列模式或者是一个经常出现的数据结构.就像搞CPU设计的人知道,Cache的预取机制有流预取和指针预取,前者就是发现流模式,即发 ...

随机推荐

Core Python Notes
开发需要在读 Python 核心编程,一些 Point 记录如下. ******************************************** 版本相关标准版的 Python 是用 C ...
ie下面兼容性问题的一些总结
最后一次搞ie兼容性问题,以后都可以不管了0.0 1.浮动兼容性 1.1IE6下的双边距BUG 在IE6下,块元素有浮动和横向margin的时候,最边上元素的横向margin值会被放大成两倍解决办法 ...
合理计划 dictionary cache 大小
[数据字典缓冲区(Data Dictionary Cache) ] 用于存放Oracle系统管理自身所需要的所有信息,包括登录的用户名.用户对象.权限等. 查看 data dictionary ca ...
按钮制作技巧（css精灵效果）-高级版
[转自己以前的文章] 无论用什么语言,大家敲程序的时候多多少少都会遇到做按钮的时候.今天分享一个之前学做按钮的技巧,有人叫做css精灵效果. 通常做按钮的思路都用附图中的第一种:两张图片交互的形式,让 ...
javascript-Cookie的应用
在我平时开发网页的过程中,可能涉及到浏览器本地的存储,现在主流的浏览器存储方式有:cookie,直接读取xml,userData,H5 的LocalStorage等,Cookie存储数据有限,但对于数 ...
7 Reverse Integer(数字反转Easy)
题目意思:int数字反转考虑:越界问题 class Solution { public: int reverse(int x) { ; while(x){ ans=ans*+x%; x=x/; } ...
【FLYabroad 】微软内部代码检查工具 (Microsoft Source Analysis for C#)[转]
SourceAnalysis (StyleCop)的终极目标是让所有人都能写出优雅和一致的代码,因此这些代码具有很高的可读性. 早就听说了微软内部的静态代码检查和代码强制格式美化工具 StyleCop ...
DNS递归和迭代原理
11.3.7 DNS递归解析原理 “递归解析”(或叫“递归查询”,其实意思是一样的)是最常见,也是默认的解析方式.在这种解析方式中,如果客户端配置的本地名称服务器不能解析的话,则后面的查询全由本地名称 ...
UI基础 - UILabel
//根据文字获取size - (CGSize)getSizeWithstring:(NSString *)string { CGSize maxSize = CGSizeMake(320, 320); ...
JDBC与javaBean
1.JDBC的概念: Java数据库连接技术(Java DataBase Connectivity)能实现java程序对各种数据库的访问, 由一组使用java语言编写的类和接口(jdbc api) ...

八、频繁模式挖掘Frequent Pattern Mining

八、频繁模式挖掘Frequent Pattern Mining的更多相关文章

随机推荐

热门专题