关联规则( Association Rules)之频繁模式树(FP-Tree)

Frequent Pattern Tree（频繁模式树）是Jiawei Han在2004年的文章《Mining Frequent Patterns without Candidate Generation 》中提出的。

————————————————————————————————————————————————————

以下给出一些定义：

设项集（set of items），交易数据库（transaction database）。当中交易(transaction)。，是中的元素组成的集合。模式（Pattern）A是中的元素组成的集合。模式A的支持度（support）是指交易数据库中包括A的交易的数量。

是最小支持度阈值，假设。模式A的支持度大于，那么称A为频繁模式（Frequent Pattern）。

频繁模式树就是要找到交易数据库中的频繁模式。

————————————————————————————————————————————————————

样例：

设项集，交易数据库例如以下表：

最小支持度阈值。

构造频繁模式树仅仅须要扫描（scan）交易数据库两次。

第一次：扫描数据库。对当中的每个项进行计数，得到一个list of frequent items(频繁项的列表) 。比如，项出现了4次，依次类推我们对当中的每一项进行计数，由于最小支持度阈值为3，,我们以下仅仅给出出现次数大于3的项：

。

第二次：扫描数据库的每一交易，得到每个交易的排序频繁项(Ordered Frequent Items)构造频繁模式树(构造过程非常easy，原论文给出了具体的阐述)：

我们对每个交易，仅仅保留大于3的项。并排序。然后我们得出下表。多出了一列就是排序频繁项(Ordered Frequent Items)

—————————————————————————————————————————————————————

依据上面的两步，我们已经构造出了频繁模式树，怎么样通过频繁模式树，找到频繁模式。

当中，我们拿和项有关的频繁模式举例，其它依次类推：

首先。我们找到全部的节点，并沿着树枝路径向上直到根节点(root)，我们发现有两条路径：

和。

然后。我们能够得出出现的3次，同一时候出现了3次，是同一时候和出现次数最多的项，并且次数大于最小支持度阈值。所以就是一个频繁模式，依次类推得出其它项的频繁模式:

。

所以，通过频繁模式树找到了非常多频繁模式。

—————————————————————————————————————————————————————

对于频繁模式树的并行计算(MapReduce),文章

《Parallel FP-Growth for Query Recommendation》中给出了具体说明。

关联规则( Association Rules)之频繁模式树(FP-Tree)的更多相关文章

【机器学习】关联规则挖掘（二）：频繁模式树FP-growth
Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式.FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式.目前,在数据挖掘领域,Apriori和FP- ...
海量数据挖掘MMDS week2: Association Rules关联规则与频繁项集挖掘
http://blog.csdn.net/pipisorry/article/details/48894977 海量数据挖掘Mining Massive Datasets(MMDs) -Jure Le ...
频繁模式挖掘 Apriori算法 FP-tree
啤酒尿布组合营销 X=>Y,其中x属于项集I,Y属于项集I,且X.Y的交集等于空集. 2类算法 Apriori算法不断地构造候选集.筛选候选集来挖掘出频繁项集,需要多次扫描原始数据.磁盘I ...
频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比（Python实现）
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
apriori && fpgrowth:频繁模式与关联规则挖掘
已迁移到我新博客,阅读体验更佳apriori && fpgrowth:频繁模式与关联规则挖掘详细代码我放在github上:click me 一.实验说明 1.1 任务描述 1.2 数 ...
推荐系统第4周--- 基于频繁模式的推荐系统和关联规则挖掘Apriori算法
数据挖掘:关联规则挖掘
【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用
今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用,简单记录下试验结果,供以后查阅: 环境:Jdk1.7 + Hadoop2.2.0单机伪集群 + Mahout0.6 ...
数据挖掘学习笔记：挖掘频繁模式、关联和相关[ZZ]
所谓挖掘频繁模式,关联和相关,即指在出现的数据集中找到一个经常出现的序列模式或者是一个经常出现的数据结构.就像搞CPU设计的人知道,Cache的预取机制有流预取和指针预取,前者就是发现流模式,即发 ...

随机推荐

从零开始做SSH项目（二）
使用hibernate测试加载数据.删除数据和修改数据等功能时,针对的是与数据库表user对应的User. 为了简化对其他数据表对应的实体类的持久化操作,可以在项目中创建一个BaseHibernate ...
洛谷P1730最小密度路径
题目传送门; 首先理解题目,究其本质就是一个最短路问题,而且数据范围贼水,用floyd完全没问题,但是题目有变化,要求出路径边权值与边数之比,这里就可以考虑在把floyd中的二维数组变为三维,f[ i ...
Codeforces Round #448(Div.2) Editorial ABC
被B的0的情况从头卡到尾.导致没看C,心情炸裂又掉分了. A. Pizza Separation time limit per test 1 second memory limit per test ...
Problem E: 十六进制转十进制
#include<stdio.h> int main(void) { ]; int sum,i; while(gets(str)!=NULL) { sum=; ;str[i]!='\0'; ...
[转]Windows7下如何在MyEclipse更改JSP默认编码
分步阅读一般情况下,用MyEclipse创建Web项目,在WebRoot目录下新建JSP页面,页面的编码格式是:ISO-8859-1,而这个编码格式不可以解决多种语言文本显示问题,特别是中文,容易 ...
将HTML表格的每行每列转为数组，采集表格数据
将HTML表格的每行每列转为数组,采集表格数据 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 //将HTML ...
解决myeclipse不编译的方法
请按照下面方法对号入座: MyEclipse不编译解决1. 确保 project->build automatically 已经被选上(最基本). MyEclipse不编译解决2. 如果选上了, ...
《ArcGIS Runtime SDK for Android开发笔记》——（5）、基于Android Studio构建ArcGIS Android开发环境（离线部署）（转）
1.前言在上一篇的内容里我们介绍了基于Android Studio构建ArcGIS Runtime SDK for Android开发环境的基本流程,流程中我们采用的是基于Gradle的构建方式,在 ...
JavaScript基础入门教程（五）
说明本系列博客的第一篇已经说明了,要求阅读者需要具有其它语言的编程基础,所以关于组数的基础部分本篇博客将不再赘述,主要讲js中数组的特性. 创建数组数组的创建主要有两种方法,一种是数组直接量,还有 ...
web及网络基础
关于本http系列博客本系列博客内容全部来自或参考自<图解http>,不过博客中的图示基本上为博主自己手动绘制,部分图可能来自其它地方,但都有标注. 常见协议的分类分层常见协议应用 ...

关联规则( Association Rules)之频繁模式树(FP-Tree)

关联规则( Association Rules)之频繁模式树(FP-Tree)的更多相关文章

随机推荐

热门专题