[comment]: # 机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集

前言

最近在看Peter Harrington写的“机器学习实战”，这是我的学习心得，这次是第12章 - 使用FP-growth算法来高效发现频繁项集。

基本概念

FP-growth算法

FP-growth算法的性能很好，只需要扫描两次数据集，就能生成频繁项集。但不能用于发现关联规则。

我想应该可以使用Apriori算法发现关联规则。

FP代表频繁模式（Frequent Pattern）。
条件模式基（conditional pattern base）。

条件模式基是以所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径（prefix path）。

一条前缀路径是介于所查找元素项与树根节点之间的所有内容。

FP-growth算法 - 用途

快速生成频繁项集
在一批有共性的文章中找到经常出现的匹配词汇（共现词），并进一步发现关联规则。可以用于输入自动补全功能。
发现数据中的共性。比如，可以找到，哪类用户喜欢哪些文章。

核心算法解释

FP-growth算法：生成频繁项集

FP-growth算法 - Step 1：生成FP树

输入
- 数据集[数据，出现次数]
  
  注：出现次数默认为1。在第二步的时候，会再次用到这个方法，这是出现次数就用其用途了。
- 最小支持度
输出
- FP树：FPTree
FPTree的根节点为项名为null的节点。
- 头指针表： headerTable
Tree Node 的数据结构
- name : 项名
- count ：其路径在数据集中出现的频率
- nodeLink ：指向在FP树下一个同项名的项。
- parent : 父节点
- children : 子节点
Header Table Item 的数据结构
- name : 项名
- count ：在数据集中出现的频率
- nodeLink ：指向在FP树第一个同项名的项。
逻辑过程
- 输入
  - sample 数据集

事务ID	事务中的项集
1	'a', 's', 'w', 'x'
2	'a', 'd', 's'
3	'a', 'w'
4	'a', 'x'
5	'a', 'd', 'w'
6	'a', 'e', 's'

- - 最小支持度为3
- Step 1: 生成Header Table。

遍历数据集，获得每个元素项的出现频率

去掉不满足最小支持度的元素项。

结果如下：

元素项	出现频率
a	6
s	3
w	3

注: 项d,e,x被去掉了，由于它们的出现频率小于最小支持率3。

- Step 2: 生成FP Tree。

遍历数据集，

    对当前项集，去掉不在Header Table中的项。

    对当前项集，按照在Header Table中出现频率从大到小排序。

    加入到FP Tree()， 并且对每项，更新Header Table Item或者Tree Node的NodeLink属性。

去掉不在Header Table中的项的结果：

事务ID	事务中的项集	过滤并排序后的项集
1	'a', 's', 'w', 'x'	'a', 's', 'w'
2	'a', 'd', 's'	'a', 's'
3	'a', 'w'	'a', 'w'
4	'a', 'x'	'a'
5	'a', 'd', 'w'	'a', 'w'
6	'a', 'e', 's'	'a'

把处理过的项集加入 FP Tree 的过程：

按照路径找，如果有count++，如果没有增加一个节点，count=1

对新增加的节点，连接到上一个同项集或者header Table的项集的NodeLinker上。

示意图如下：

FP树的构建过程

Add {a,s,w}

a:1

s:1

w:1

a:6
s:3
w:3

a:2

s:2

w:1

Add {a,s}

a:3

s:2

w:1

Add {a,w}

w:1

Header Table

最终的结果如下：(输出的FP树和头指针表)

FP树和Header Table的最终结果

Ø
a:6
s:3
w:1
w:2
Header Table
a:6
s:3
w:3

FP-growth算法 - Step 2：生成频繁项集

输入
- FP树：PF Tree
- 头指针表： header Table
- 最小支持度
- 前缀项集: 初始值为Empty List (输出)
- 频繁项集List：初始值为Empty List (输出)
输出

无
逻辑过程

对Header Table的项，按照count从小到大排序

对Header Table的每一元素项：

    把当前元素项加入到频繁项集List中。（Header Table中的每个项都是满足最小支持度的）

    前缀项集 = 前缀项集 + 当前元素项。

    找到已当前元素项的结尾的条件模式基（到根节点的所有路径以及路径的count）。

    将条件模式基看成一个数据集（每个数据有一个count数），用生成FP Tree的方法，生成新的FP Tree和Header Table。

    注：上一步过滤掉了不满足最小支持度的子项集。(比如：对于元素项w,过滤掉了{s,a})

    如果新的Header Table有数据：

        使用生成频繁项集的方法（也就是递归调用本方法）继续生成（有n+1个元素项的）频繁项集。

- 每个元素项的条件模式基

元素项	条件模式基
a	{}:6
s	{a}:3
w	{s,a}:1, {a}:2

- 元素项w的FP树和Header Table
  
  注：元素项s和节点s实际上都不存在，因为不满足最小支持度。

元素项w的FP树和Header Table

Ø
a:3
s:1
Header Table
a:3
s:1

参考

Machine Learning in Action by Peter Harrington

机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集的更多相关文章

【机器学习实战】第12章使用FP-growth算法来高效发现频繁项集
第12章使用FP-growth算法来高效发现频繁项集前言在第11章时我们已经介绍了用 Apriori 算法发现频繁项集与关联规则.本章将继续关注发现频繁项集这一任务,并使用 FP- ...
【机器学习实战】第12章使用 FP-growth 算法来高效发现频繁项集
第12章使用FP-growth算法来高效发现频繁项集前言在第11章时我们已经介绍了用 Apriori 算法发现频繁项集与关联规则.本章将继续关注发现频繁项集这一任务,并使用 FP- ...
机器学习实战（Machine Learning in Action）学习笔记————08.使用FPgrowth算法来高效发现频繁项集
机器学习实战(Machine Learning in Action)学习笔记————08.使用FPgrowth算法来高效发现频繁项集关键字:FPgrowth.频繁项集.条件FP树.非监督学习作者:米 ...
机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习笔记,这次是第7章 - 利用AdaBoost元算法提高分类性能. 核心思想在使用某个特定的算法是, ...
【转载】机器学习实战 - 读书笔记(07) - 利用AdaBoost元算法提高分类性能
原文地址: https://www.cnblogs.com/steven-yang/p/5686473.html ------------------------------------------- ...
【机器学习实战学习笔记(1-2)】k-近邻算法应用实例python代码
文章目录 1.改进约会网站匹配效果 1.1 准备数据:从文本文件中解析数据 1.2 分析数据:使用Matplotlib创建散点图 1.3 准备数据:归一化特征 1.4 测试算法:作为完整程序验证分类器 ...
机器学习实战 - 读书笔记(13) - 利用PCA来简化数据
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第13章 - 利用PCA来简化数据. 这里介绍,机器学习中的降维技术,可简化样品数据. ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
FP - growth 发现频繁项集
FP - growth是一种比Apriori更高效的发现频繁项集的方法.FP是frequent pattern的简称,即常在一块儿出现的元素项的集合的模型.通过将数据集存储在一个特定的FP树上,然后发 ...

随机推荐

SQL SERVER 2008 如何查询含有某关键词的表
最新文章:Virson's Blog 文章来自:百度知道 /** 查询一个数据库中所有的数据中是否包含指定字符串 */ ) set @str='字符串' --要搜索的字符串 ) declare tb ...
cocos2dx的lua绑定
一.cocos2dx对tolua++绑定的修正 A.c对lua回调函数的引用在使用cocos2dx编写游戏时,我们经常会设置一些回调函数(时钟.菜单选择等).如果采用脚本方式编写游戏的话,这些回调函 ...
爬网页？--Chrome帮你计算XPath
最近用HtmlUnit/HtmlCleaner爬网页,这两个工具都使用XPath来定位html元素.发现chrome竟然有算出XPath的功能! 打开一个网页,F12,在弹出的小窗口中选中一个标签,右 ...
IOS内存管理学习笔记
内存管理作为iOS中非常重要的部分,每一个iOS开发者都应该深入了解iOS内存管理,最近在学习iOS中整理出了一些知识点,先从MRC开始说起. 1.当一个对象在创建之后它的引用计数器为1,当调用这个对 ...
Android 自定义View实现多行RadioGroup (MultiLineRadioGroup)
一.项目概况我们都知道RadioGroup可以实现选择框,但它有一个局限性,由于它是继承自LinearLayout的,所以只能有一个方向,横向或者纵向:但有时候仅一行的RadioGroup并不能满足 ...
php 碎片笔记
1.修改 php.ini 加载路径添加环境变量 ,新建系统变量 PHPRC ,配置如下: 检验: 通过phpinfo(),查看系统配置 Loaded Configuration File ,识别系统 ...
条件注释判断浏览器 除IE外都可识别 <!--[if IE]> 所有的IE可识别 <![e ...
Spring MVC 3.x 基本配置
WEB-INF/web.xml 例1 <?xml version="1.0" encoding="UTF-8"?> <web-app xmln ...
LDPC编译码基本原理
LDPC编译码基本原理学习笔记 V1.1 2015/02/18 LDPC编译码基本原理概述本文是个人针对LDPC的学习笔记,主要针对LDPC译码算法做了简要的总结.该版本主要致力 ...
Hadoop入门进阶课程2--Hadoop2.X 64位编译
本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,博主为石山园,博客地址为 http://www.cnblogs.com/shishanyuan ...

机器学习实战 - 读书笔记(12) - 使用FP-growth算法来高效发现频繁项集

前言