FPGrowth算法总结复习

摘要：

　　1.算法概述

　　2.算法推导

　　3.算法特性及优缺点

　　4.注意事项

　　5.实现和具体例子

　　6.适用场合

内容：

1.算法概述

　　关联规则（associatio rules）:从大规模数据集中寻找物品建隐含关系被称作关联分析或关联规则学习

　　频繁项集（frequent itemsets）：经常出现在一起的物品集合

　　FPgrowth是一个流行的频繁项集挖掘的算法（韩家炜等人在2000年）；在算法中使用了一种称为频繁模式树（Frequent Pattern Tree）的数据结构（见算法推导）。

2.算法推导

2.1 几个基本概念

　　支持度（support）：支持度表示项集{X,Y}在总项集里出现的概率。 Support(X→Y) = P(X,Y) / P(I) = num(XUY) / num(I),其中I为总项集；

　　可信度或置信度（confidence）:置信度表示在先决条件X发生的情况下，由关联规则”X→Y“推出Y的概率；Confidence(X→Y) = P(Y|X) = num(XUY) / num(X)

　　提升度（Lift）: Lift(X→Y) = P(Y|X) / P(Y)

　　强关联规则：满足最小支持度和最小置信度的规则

　　如果Lift(X→Y)>1，则规则“X→Y”是有效的强关联规则。

如果Lift(X→Y) <=1，则规则“X→Y”是无效的强关联规则。

特别地，如果Lift(X→Y) =1，则表示X与Y相互独立。（参考自）

2.2 几个基本原理

　　Aprori 原理:如果某条规则并不满足最小可信度，则该规则的所有子集也不满足最小可信度　　

3.算法特性及优缺点

　　优点：一般快于Apriori算法（只扫描两次数据集）

　　缺点:实现比较困难，在某些数据集上性能下降

4.注意事项

　　连续数据要进行离散化

5.实现和具体例子

　　《机器学习实战》中的实现以及发现国会投票中的模式案例

　　Spark mllib实现(run方法);使用AssociationRules挖掘关联规则

　　应用：

　　　　交叉销售：电信行业针对用户已经使用的产品和业务，向其推荐他没有使用的

6.适用场合

　　支持大规模数据：是

　　特征维度：无

　　是否有 Online 算法:这个没必要吧？

　　特征处理：支持类别型数据或者离散型数据，连续数据要进行离散化

FPGrowth算法总结复习的更多相关文章

使用 FP-growth 算法高效挖掘海量数据中的频繁项集
前言对于如何发现一个数据集中的频繁项集,前文讲解的经典 Apriori 算法能够做到. 然而,对于每个潜在的频繁项,它都要检索一遍数据集,这是比较低效的.在实际的大数据应用中,这么做就更不好了. 本 ...
FP-Growth算法及演示程序
FP-Growth算法 FP-Growth(频繁模式增长)算法是韩家炜老师在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-Tree),但仍保留项集 ...
机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第12章 - 使用FP-growth算法来高效发现频繁项集. 基本概念 FP-growt ...
数据挖掘系列（2）--关联规则FpGrowth算法
上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的集合,效率提高不少,但是我们发现Apriori算法是一个候选消除算法,每一次消除 ...
使用Apriori算法和FP-growth算法进行关联分析
系列文章:<机器学习实战>学习笔记最近看了<机器学习实战>中的第11章(使用Apriori算法进行关联分析)和第12章(使用FP-growth算法来高效发现频繁项集).正如章 ...
FP-Growth算法之频繁项集的挖掘（python）
前言: 关于 FP-Growth 算法介绍请见:FP-Growth算法的介绍. 本文主要介绍从 FP-tree 中提取频繁项集的算法.关于伪代码请查看上面的文章. FP-tree 的构造请见:FP-G ...
FPGrowth算法原理
算法实现: /** * FPGrowth算法的主要思想: * 1. 构造频繁1项集:遍历初始数据集构造频繁1项集,并作为项头表,建立将指向fpTree节点对应元素的引用 * 2. 构造FPTree:再 ...
FpGrowth算法
FpGrowth算法频繁项集与关联规则挖掘(2)--FpGrowth算法上一篇介绍了关联规则挖掘的一些基本概念和经典的Apriori算法,Aprori算法利用频繁集的两个特性,过滤了很多无关的 ...
关联分析：FP-Growth算法
关联分析又称关联挖掘,就是在交易数据.关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式.关联.相关性或因果结构.关联分析的一个典型例子是购物篮分析.通过发现顾客放入购物篮中不同商品 ...

随机推荐

SNMP高速扫描器braa
SNMP高速扫描器braa SNMP(Simple Network Monitoring Protocol,简单网络管理协议)是网络设备管理标准协议.为了便于设备管理,现在联入网络的智能设备都支持 ...
一行代码解决各种IE兼容问题,IE6,IE7,IE8,IE9,IE10
行代码解决各种IE兼容问题,IE6,IE7,IE8,IE9,IE10 2012-04-25 16:29:04| 分类: 学习 |字号订阅在网站开发中不免因为各种兼容问题苦恼,针对兼容问题,其实IE ...
leanote个人版安装
https://github.com/leanote/leanote/wiki/Leanote-%E4%BA%8C%E8%BF%9B%E5%88%B6%E7%89%88%E8%AF%A6%E7%BB% ...
词法分析程序（C）
#include <stdio.h> #include <string.h> ],word[],ch; int type,p,i,n,sum; ]={"begin&q ...
基于lcov实现的增量代码UT覆盖率检查
背景介绍配合CppUTest单元测试框架,lcov提供了一套比较完整的工程工具来对UT覆盖率进行度量.但对有些团队来说,历史负担太重,大量的遗留代码没有相应的UT.在这种情况下,对新增代码进行覆盖率 ...
深入探索RB-tree数据结构
引子部门在各个团队推广软件通用技能矩阵工具,希望通过度量找到能力薄弱点,引导团队进行改进.从我们团队的数据上看,团队在数据结构和算法上的短板明显,需要加强,这也是写这篇文章的背后的初衷. 数据结构和 ...
[BZOJ1127][POI2008] KUP子矩阵
Description 给一个n*n的地图,每个格子有一个价格,找一个矩形区域,使其价格总和位于[k,2k] Input 输入k n(n<2000)和一个n*n的地图 Output 输出矩形的左 ...
mysql数据库表的自增主键号不规律，重新排列
mysql数据库表的自增主键ID乱了,需要重新排序. 原理:删除原有的自增ID,重新建立新的自增ID. 1.删除原有主键: ALTER TABLE `table_name` DROP `id`; 2. ...
弱省互测#0 t2
题意给定两个字符串 A 和 B,求下面四个问题的答案: 1.在 A 的子串中,不是 B 的子串的字符串的数量. 2.在 A 的子串中,不是 B 的子序列的字符串的数量. 3.在 A 的子序列中,不是 ...
四道简单DP
DP类题目找到子问题(状态),然后找到转移方程,就OK #dp #likes matrixchain #according to two point's distance to recurrence ...

FPGrowth算法总结复习

FPGrowth算法总结复习的更多相关文章

随机推荐

热门专题