手推FP-growth (频繁模式增长）算法------挖掘频繁项集

一.频繁项集挖掘为什么会出现FP-growth呢？

原因：这得从Apriori算法的原理说起，Apriori会产生大量候选项集（就是连接后产生的），在剪枝时，需要扫描整个数据库（就是给出的数据），通过模式匹配检查候选集合（为的是找到满足最小支持度的项）。候选产生过程带来的就是昂贵的代价开销，所以FP-growth就出现了。

二.FP-growth（Frequent-Pattern Growth) :频繁模式增长

1.数据库（给出的数据）第一次扫描和Apriori一样，找出频繁1项集的集合，统计各个项的支持度计数（出现的次数）。设置最小支持度，需要将集合的各个项按支持度计数由（大->小）排序。假设排序好的集合为L。

2.构造FP树。首先，创建根结点（为NULL）。第二次扫描数据，将每个事务中的项按L的顺序，在FP树上构建分支。这里需要注意的是，在为新事务建分支的时候，沿共同前缀上的每个结点的计数加1，为后缀之后的项创建结点。例如：事务1：建的分支为：1,2,3。事务2：1,2,5。则FP树新分支（为事务2）需要与事务1共用（1,2）前缀，5则新建结点。此时（1,2）的支持度都相应的变为了2。结点3和5依旧是1

3.当FP树完成，数据频繁模式的挖掘就变为了FP树的挖掘。

4.FP数挖掘的核心流程：从L的最小支持度的项（后缀模式）开始---->构造它的条件模式基（由FP树中与该后缀模式一起出现的前缀路径集组成）--->构造这项的条件FP树，之后递归L中的各项------>产生频繁项集（后缀模式和条件FP树产生的频繁模式连接实现）

5.需要注意的问题：

条件模式基：需要注意--->各个项出现的支持度计数(这里会出现多个集合，因为后缀模式可能会有多个分支)要和当前的后缀模式的支持度计数保持一致。

条件FP树：需要注意--->将条件模式基产生的多个集合合并(将相同前缀路径的各个结点的支持度累计加1，这里去掉不符合最小支持度的结点）。

产生频繁模式：将条件FP树产生的各个集合与后缀模式连接。（如果多个集合中出现重复的项，需累加计数再与后缀模式连接）例如：条件FP数产生的集合：（a:4，b：3），（b:3)，假设此刻的后缀模式为c 。则产生的频繁项集为：（a:4,c:4),(b:6,c:6),(a:4,b:3,c:3)

手推FP-growth (频繁模式增长）算法------挖掘频繁项集的更多相关文章

apriori && fpgrowth:频繁模式与关联规则挖掘
已迁移到我新博客,阅读体验更佳apriori && fpgrowth:频繁模式与关联规则挖掘详细代码我放在github上:click me 一.实验说明 1.1 任务描述 1.2 数 ...
手推Apriori算法------挖掘频繁项集
版权声明:本文为博主原创文章,未经博主允许不得转载. Apriori算法: 使用一种称为逐层搜索的迭代方法,其中K项集用于搜索(K+1)项集. 首先,通过扫描数据库,统计每个项的计数,并收集满足最小支 ...
频繁模式挖掘 Apriori算法 FP-tree
啤酒尿布组合营销 X=>Y,其中x属于项集I,Y属于项集I,且X.Y的交集等于空集. 2类算法 Apriori算法不断地构造候选集.筛选候选集来挖掘出频繁项集,需要多次扫描原始数据.磁盘I ...
FP—Growth算法
FP_growth算法是韩家炜老师在2000年提出的关联分析算法,该算法和Apriori算法最大的不同有两点: 第一,不产生候选集,第二,只需要两次遍历数据库,大大提高了效率,用31646条测试记录, ...
数据挖掘学习笔记：挖掘频繁模式、关联和相关[ZZ]
所谓挖掘频繁模式,关联和相关,即指在出现的数据集中找到一个经常出现的序列模式或者是一个经常出现的数据结构.就像搞CPU设计的人知道,Cache的预取机制有流预取和指针预取,前者就是发现流模式,即发 ...
挖掘频繁项集之FP-Growth算法
http://blog.csdn.net/pipisorry/article/details/48918007 FP-Growth频繁项集挖掘算法(Frequent-Pattern Growth, 频 ...
【机器学习】关联规则挖掘（二）：频繁模式树FP-growth
Apriori算法的一个主要瓶颈在于,为了获得较长的频繁模式,需要生成大量的候选短频繁模式.FP-Growth算法是针对这个瓶颈提出来的全新的一种算法模式.目前,在数据挖掘领域,Apriori和FP- ...
用Spark学习FP Tree算法和PrefixSpan算法
在FP Tree算法原理总结和PrefixSpan算法原理总结中,我们对FP Tree和PrefixSpan这两种关联算法的原理做了总结,这里就从实践的角度介绍如何使用这两个算法.由于scikit-l ...
关联规则—频繁项集Apriori算法
频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系,因此将关联规则挖掘用于分类也会产生比较好的效果.关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系.其 ...

随机推荐

C语言学习8
计算某日是该年的第几天编写一个计算天数的程序,用户从键盘输入年.月.日,在屏幕中输出此日期是该年的第几天. /******************************************** ...
AutoMapper的使用在NET core中的使用记录
关于AutoMapper的用处以及主要便利指出请参考官方文档,本文章仅记录自己使用的过程及代码: 安装在项目中涉及到的类包括:Account,AccountCondition,AutoMapperC ...
xtu read problem training 4 B - Multiplication Puzzle
Multiplication Puzzle Time Limit: 1000ms Memory Limit: 65536KB This problem will be judged on PKU. O ...
九度oj 题目1205：N阶楼梯上楼问题
题目1205:N阶楼梯上楼问题时间限制:1 秒内存限制:128 兆特殊判题:否提交:4990 解决:2039 题目描述: N阶楼梯上楼问题:一次可以走两阶或一阶,问有多少种上楼方式.(要求采用 ...
【转】Java中的IO操作
在使用io操作之前,先看一下java中的文件类File如何使用.File包括文件和目录,对文件和目录的操作是新建目录mkdir,新建文件createNewFile,删除文件和目录delete,以及其他 ...
【（待重做）树状数组+dp+离散化】Counting Sequences
https://www.bnuoj.com/v3/contest_show.php?cid=9149#problem/G [题意] 给定一个数组a,问这个数组有多少个子序列,满足子序列中任意两个相邻数 ...
MySQL Workbench基本操作
MySQL Workbench是一款专为MySQL设计的ER/数据库建模工具.它是著名的数据库设计工具DBDesigner4的继任者.你可以用MySQL Workbench设计和创建新的数据库图示,建 ...
[bzoj3196][Tyvj1730]二逼平衡树_树套树_位置线段树套非旋转Treap/树状数组套主席树/权值线段树套位置线段树
二逼平衡树 bzoj-3196 Tyvj-1730 题目大意:请写出一个维护序列的数据结构支持:查询给定权值排名:查询区间k小值:单点修改:查询区间内定值前驱:查询区间内定值后继. 注释:$1\le ...
02-js变量学习
<html> <head> <title>js的变量学习</title> <meta charset="UTF-8"/> ...
解决Spring MVC无法接收AJAX使用PUT与DELETE请求传输的内容
解决Spring MVC无法接收AJAX使用PUT与DELETE请求传输的内容解决方案在 Web.xml文件中加入以下代码 <!--解决ajax Put与Del请求无法接收到传输的内容-- ...

手推FP-growth (频繁模式增长）算法------挖掘频繁项集

手推FP-growth (频繁模式增长）算法------挖掘频繁项集的更多相关文章

随机推荐

热门专题