数据挖掘算法之关联规则挖掘（二）FPGrowth算法

之前介绍的apriori算法中因为存在许多的缺陷，例如进行大量的全表扫描和计算量巨大的自然连接，所以现在几乎已经不再使用

在mahout的算法库中使用的是PFP算法，该算法是FPGrowth算法的分布式运行方式，其内部的算法结构和FPGrowth算法相差并不是十分巨大

所以这里首先介绍在单机内存中运行的FPGrowth算法

还是使用apriori算法的购物车数据作为例子，如下图所示：

TID为购物车项的编号，i1-i5为商品的编号

FPGrowth算法的基本思想是，首先扫描整个购物车数据表，计算每个商品的支持度，并从大到小从上往下排序，得到如下表所示

从底部最小支持度开始，逐一构建FP树

构建过程如下图：

最终构建出的FP树如下图

将这个FP树和支持度表关联起来如下图：

支持度表中的每一项都有一个存放指向FP树中对应节点的指针，例如第一行指向i2:7；第二行指向i1:4，因为i1节点还出现在FP树中的其他位置，所谓i1:4节点中还存放着指向i1:2节点的指针

通过少数的全表扫描构建好的FP树将购物车没有规律的数据变成了一个有迹可循的树形结构，并且省去了进行巨大的自然连接的运算

通过FP树挖掘出关联规则：

通过上图的FP树，我们可以根据每个商品得到该商品对应的条件模式基，条件FP树和产生的频繁模式

例如i5

在FP树中可以看到，从根节点到i5:1的路径有两条：

i2:7-->i1:4-->i5:1

i2:7-->i14-->i3:2-->i5:1

i2:7-->i1:4和i2:7-->i14-->i3:2就是i5的条件模式基，因为最终到达的节点肯定是i5，所以将i5省略

记为{i2,i1:1}{i2,i1,i3:1}，为什么每个条件模式基的计数为1呢？虽然i2和i1的计数都很大，但是由于i5的计数为1，最终到达i5的重复次数也只能为1。所以条件模式基的计数是根据路径中节点的最小计数来决定的

根据条件模式基，我们可以得到该商品的条件FP树，例如i5：

根据条件FP树，我们可以进行全排列组合，得到挖掘出来的频繁模式（这里要将商品本身，如i5也算进去，每个商品挖掘出来的频繁模式必然包括这商品本身）

根据FP树得到的全表如下：

至此，FPGrowth算法输出的结果就是产生的频繁模式，FPGrowth算法使用的是分而治之的方式，将一颗可能十分巨大的树形结构通过构构建条件FP子树的方式分别处理

但是在商品数据十分巨大的情况下，FPGrowth算法所构建的FP树可能会大到计算机内存都无法加载，这时就要使用分布式的FPGrowth，PFP算法来进行计算

本文参考书：《数据挖掘概念与技术》

数据挖掘算法之关联规则挖掘（二）FPGrowth算法的更多相关文章

数据挖掘进阶之关联规则挖掘FP-Growth算法
数据挖掘进阶之关联规则挖掘FP-Growth算法绪近期在写论文方面涉及到了数据挖掘,需要通过数据挖掘方法实现软件与用户间交互模式的获取.分析与分类研究.主要涉及到关联规则与序列模式挖掘两块.关联规 ...
数据挖掘算法之-关联规则挖掘(Association Rule)
在数据挖掘的知识模式中,关联规则模式是比较重要的一种.关联规则的概念由Agrawal.Imielinski.Swami 提出,是数据中一种简单但很实用的规则.关联规则模式属于描述型模式,发现关联规则的 ...
数据挖掘系列 (1) 关联规则挖掘基本概念与 Aprior 算法
转自:http://www.cnblogs.com/fengfenggirl/p/associate_apriori.html 数据挖掘系列 (1) 关联规则挖掘基本概念与 Aprior 算法我计划 ...
数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）
在各种数据挖掘算法中,关联规则挖掘算是比較重要的一种,尤其是受购物篮分析的影响,关联规则被应用到非常多实际业务中,本文对关联规则挖掘做一个小的总结. 首先,和聚类算法一样,关联规则挖掘属于无监督学习方 ...
数据挖掘算法之关联规则挖掘（一）apriori算法
关联规则挖掘算法在生活中的应用处处可见,几乎在各个电子商务网站上都可以看到其应用举个简单的例子如当当网,在你浏览一本书的时候,可以在页面中看到一些套餐推荐,本书+有关系的书1+有关系的书2+... ...
[数据挖掘课程笔记]关联规则挖掘 - Apriori算法
两种度量: 支持度(support) support(A→B) = count(AUB)/N (N是数据库中记录的条数) 自信度(confidence)confidence(A→B) = count ...
关联规则挖掘之apriori算法
前言: 众所周知,关联规则挖掘是数据挖掘中重要的一部分,如著名的啤酒和尿布的问题.今天要学习的是经典的关联规则挖掘算法--Apriori算法一.算法的基本原理由k项频繁集去导出k+1项频繁集. 二 ...
嫌弃Apriori算法太慢？使用FP-growth算法让你的数据挖掘快到飞起
本文始发于个人公众号:TechFlow,原创不易,求个关注今天是机器学习专题的第20篇文章,我们来看看FP-growth算法. 这个算法挺冷门的,至少比Apriori算法冷门.很多数据挖掘的教材还会 ...
数据挖掘-关联分析 Apriori算法和FP-growth 算法
•1.关联分析概念关联分析是从大量数据中发现项集之间有趣的关联和相关联系. •定义:1.事务:每一条交易称为一个事务,如上图包含5个事务.2.项:交易的每一个物品称为一个项,例如豆奶,啤酒等. ...

随机推荐

pythontip题目解答
输出字典key 给你一字典a,如a={1:1,2:2,3:3},输出字典a的key,以','连接,如‘1,2,3'.要求key按照字典序升序排列(注意key可能是字符串). 例如:a={1:1,2:2 ...
[ MongoDB ] 分片集群及测试
分片在Mongodb里面存在另一种集群,就是分片技术,可以满足MongoDB数据量大量增长的需求. 当MongoDB存储海量的数据时,一台机器可能不足以存储数据,也可能不足以提供可接受的读写吞吐量. ...
Selenium2+python自动化65-js定位几种方法总结【转载】
前言本篇总结了几种js常用的定位元素方法,并用js点击按钮,对input输入框输入文本一.以下总结了5种js定位的方法除了id是定位到的是单个element元素对象,其它的都是elements返 ...
seneca的一段代码（原创）
var seneca=require('seneca')() seneca.add({cmd:'wordcount'},function(msg,respond){ var length=0; if( ...
虚拟机vmware下安装Ghost XP——正确的解决方案
http://hi.baidu.com/xjl456852/item/fd466e9935b2da8859146111 在虚拟机中启动系统,出现"Operating System not f ...
VX的快捷方式(转)
转载自:http://blog.csdn.net/xueying_/article/details/7679042 “文本操作”快捷键命令名快捷键说明编辑.折叠到定义 Ctrl + M,Ctr ...
[ubuntu] service apache2 restart [fail]
$ /etc/init.d/apache2 restart * Restarting web server apache2 [fail] 解决办法4步走: 1. sudo /etc/init.d/ap ...
Codeforces 811 A. Vladik and Courtesy
A. Vladik and Courtesy time limit per test 2 seconds memory limit per test 256 megabytes input sta ...
flutter 极光推送
一.配置极光开发者 1.注册极光开发者 https://www.jiguang.cn/push 2.创建应用二.创建APP 1.添加依赖 pubspec.yaml 添加: flutter_jpus ...
SPOJ CIRU - The area of the union of circles （圆的面积并）
CIRU - The area of the union of circles no tags You are given N circles and expected to calculate t ...

数据挖掘算法之关联规则挖掘（二）FPGrowth算法

数据挖掘算法之关联规则挖掘（二）FPGrowth算法的更多相关文章

随机推荐

热门专题