FP-Growth算法及演示程序

★火星人★ 2024-10-08 07:55:30 原文

FP-Growth算法

FP-Growth(频繁模式增长)算法是韩家炜老师在2000年提出的关联分析算法，它采取如下分治策略：将提供频繁项集的数据库压缩到一棵频繁模式树（FP-Tree），但仍保留项集关联信息；该算法和Apriori算法最大的不同有两点：第一，不产生候选集，第二，只需要两次遍历数据库，大大提高了效率。

算法伪代码

算法：FP-增长。使用FP-树，通过模式段增长，挖掘频繁模式。

输入：事务数据库D；最小支持度阈值min_sup。

输出：频繁模式的完全集。

1．按以下步骤构造FP-树：

(a) 扫描事务数据库D 一次。收集频繁项的集合F 和它们的支持度。对F 按支持度降序排

序，结果为频繁项表L。

(b) 创建FP-树的根结点，以“null”标记它。对于D 中每个事务Trans，执行：

选择 Trans 中的频繁项，并按L 中的次序排序。设排序后的频繁项表为[p | P]，其

中，p 是第一个元素，而P 是剩余元素的表。调用insert_tree([p | P], T)。该过程执行

情况如下。如果T 有子女N 使得N.item-name = p.item-name，则N 的计数增加1；否

则创建一个新结点N，将其计数设置为1，链接到它的父结点T，并且通过结点链结构

将其链接到具有相同item-name 的结点。如果P 非空，递归地调用insert_tree(P, N)。

2． FP-树的挖掘通过调用FP_growth(FP_tree, null)实现。该过程实现如下：

procedure FP_growth(Tree, α)

(1) if Tree 含单个路径P then

(2) for 路径 P 中结点的每个组合（记作β）

(3) 产生模式β ∪ α，其支持度support = β中结点的最小支持度；

(4) else for each a i 在 Tree 的头部 {

(5) 产生一个模式β = a i ∪ α，其支持度support = a i .support；

(6) 构造β的条件模式基，然后构造β的条件FP-树Treeβ；

(7) if Treeβ ≠ ∅ then

(8) 调用 FP_growth (Treeβ, β)；}

点Build后生成的头表和FP-Tree

点Step后生成再点Next会一次加入一个事务项进行生成FP-Tree

最后生成完了FP-Tree后点击ConditionTreeMode进入FP-Tree挖掘模式,显示当前头表中选中项的条件FP-Tree

FP-Growth算法及演示程序的更多相关文章

Frequent Pattern 挖掘之二(FP Growth算法)（转）
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据结 ...
FP—Growth算法
FP_growth算法是韩家炜老师在2000年提出的关联分析算法,该算法和Apriori算法最大的不同有两点: 第一,不产生候选集,第二,只需要两次遍历数据库,大大提高了效率,用31646条测试记录, ...
关联规则算法之FP growth算法
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据结 ...
Frequent Pattern （FP Growth算法)
FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对.为了达到这样的效果,它采用了一种简洁的数据 ...
机器学习（十五）— Apriori算法、FP Growth算法
1.Apriori算法 Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策. Apriori算法采用了迭代的方法,先搜 ...
Frequent Pattern 挖掘之二(FP Growth算法)
Frequent Pattern 挖掘之二(FP Growth算法) FP树构造 FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断 ...
FP Tree算法原理总结
在Apriori算法原理总结中,我们对Apriori算法的原理做了总结.作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈.为了解决这个问题,FP Tree算法(也称F ...
FP Tree算法原理总结（转载）
FP Tree算法原理总结在Apriori算法原理总结中,我们对Apriori算法的原理做了总结.作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈.为了解决这个问题 ...
FP - growth 发现频繁项集
FP - growth是一种比Apriori更高效的发现频繁项集的方法.FP是frequent pattern的简称,即常在一块儿出现的元素项的集合的模型.通过将数据集存储在一个特定的FP树上,然后发 ...
Fp关联规则算法计算置信度及MapReduce实现思路
说明:參考Mahout FP算法相关相关源代码. 算法project能够在FP关联规则计算置信度下载:(仅仅是单机版的实现,并没有MapReduce的代码) 使用FP关联规则算法计算置信度基于以下的思 ...

随机推荐

mybatis动态SQL - like
用'%${name}%'可以实现模糊查询,但会放开SQL注入漏洞. <when test="name != null and name!=''"> AND name l ...
转：理解Cookie和Session机制
原文: 理解Cookie和Session机制摘要: Cookie工作原理由于HTTP是一种无状态的协议,服务器单从网络连接上无从知道客户身份.怎么办呢?就给客户端们颁发一个通行证吧,每人一个,无论 ...
2017/1/7 学习笔记　jar包，maven
① 关于tar,jar,war文件 tar是通用的另一种打包格式,为了部署到服务器时方便. jar是java app server识别的java部署格式,其实是Zip文件,只是内部的文件有规范. wa ...
浅探委托（delegate）和事件（event）
.NET Framework通过委托提供了一种回调函数机制. internal delegate void FeedBack(Int32 value); 内部委托FeedBack的声明,一个委托要指定 ...
转： UAC 问题
打开VS2005.VS2008.VS2010工程,查看工程文件夹中的Properties文件夹下是否有app.manifest这个文件:如没有,按如下方式创建:鼠标右击工程在菜单中选择“属性”,点击 ...
Griddle, griddle-react 一个REACT 表格组件
Griddle, griddle-react 一个REACT 表格组件: http://griddlegriddle.github.io/Griddle/index.html
iOS 利用不等的constraint实现布局间隔调整
以前也写过一篇文章,说的也是如何利用constraint调整布局间隔,今天说另一种方法,实现简单,但有一定局限. 先看图这里只截取了一部分,这个页面在4寸是可以显示的,但是如果不把控件间的间距缩小, ...
Linux历史
1.Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX标准和UNIX的多用户.多任务.支持多线程和多CPU的操作系统.它能运行主要的UNIX工具软件.应用程序和网络协议.它支 ...
MongoDB 副本集管理（不定时更新）
简介: 前面介绍完了副本集的搭建.用户的管理.参数和日常操作的说明,那副本集搭建好该如何管理呢?现在来说明下副本集的日常查看和管理. 说明: 1)查看命令行参数:db.serverCmdLineOpt ...
Tesseract-OCR 3.05 躲过语言文字识别(运行程序+中英日韩语言包)
最新版本静态编译 tesseract 3.05.00dev leptonica-1.73 libgif 5.1.3 : libjpeg 8c : libpng 1.6.16 : libtiff 3. ...