关联规则算法(The Apriori algorithm)详解

一、前言

　　在学习The Apriori algorithm算法时，参考了多篇博客和一篇论文，尽管这些都是很优秀的文章，但是并没有一篇文章详解了算法的整个流程，故整理多篇文章，并加入自己的一些注解，有了下面的文章。大部分应该是copy各篇博客和翻译了论文的重要知识。

　　关联规则的目的在于在一个数据集中找出项之间的关系，也称之为购物蓝分析 (market basket analysis)。例如，购买鞋的顾客，有10%的可能也会买袜子，60%的买面包的顾客，也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。

二、重要概念

　　首先我们来看，什么是规则？规则形如"如果…那么…(If…Then…)",前者为条件，后者为结果。例如一个顾客，如果买了可乐，那么他也会购买果汁。

　　如何来度量一个规则是否够好？有两个量，置信度(Confidence)和支持度(Support)。假设有如下表的购买记录。

顾客	项目
1	orange juice, coke
2	milk, orange juice, window cleaner
3	orange juice, detergent
4	orange juice, detergent, coke
5	window cleaner

将上表整理一下，得到如下的一个2维表

	Orange	Win Cl	Milk	Coke	Detergent
Orange	4	1	1	2	2
WinCl	1	2	1	0	0
Milk	1	1	1	0	0
Coke	2	0	0	2	1
Detergent	1	0	0	0	2

上表中横栏和纵栏的数字表示同时购买这两种商品的交易条数。如购买有Orange的交易数为4，而同时购买Orange和Coke的交易数为2。

置信度表示了这条规则有多大程度上值得可信。设条件的项的集合为A,结果的集合为B。置信度计算在A中，同时也含有B的概率。即Confidence(A==>B)=P(B|A)。例如计算"如果Orange则Coke"的置信度。由于在含有Orange的4条交易中，仅有2条交易含有Coke.其置信度为0.5。

支持度计算在所有的交易集中，既有A又有B的概率。例如在5条记录中，既有Orange又有Coke的记录有2条。则此条规则的支持度为2/5=0.4。现在这条规则可表述为，如果一个顾客购买了Orange,则有50%的可能购买Coke。而这样的情况（即买了Orange会再买Coke）会有40%的可能发生。

三、算法的原理和过程

　　首先找出所有的频集，这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则，这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则，产生只包含集合的项的所有规则，其中每一条规则的右部只有一项。

　　接下来是如何生成频繁集。

　　最出名的关联规则挖掘算法是Apriori算法，它主要利用了向下封闭属性：如果一个项集是频繁项目集，那么它的非空子集必定是频繁项目集。即频繁集的子集也一定是频繁集。比如，如果{A,B,C}是一个3项的频繁集，则其子集{A,B},{B,C},{A,C}也一定是2项的频繁集。它先生成1-频繁项目集，再利用1-频繁项目集生成2-频繁项目集。。。然后根据2-频繁项目集生成3-频繁项目集。。。依次类推，直至生成所有的频繁项目集，然后从频繁项目集中找出符合条件的关联规则。

　　生成一个频繁集的步骤分联合和剪枝两步。

　　1、联合，伪代码如下：

　　其中Lk-1为频繁集。合并只有一个元素不同的item，如(1,2,3)、(1,3,7)和(1、4、9)，就会是(1,2,3)和(1,3,7)合并成(1,2,3,7)，而不会其他的合并，因为其他情况，两元素有不只一个元素不同。

　　2、剪枝

　　合并后的集合，如果有子集不在原集合中，则把该合并集合删除。例如：

　　有2-频繁项目集

　　{1，2}，{1，3}，{1，4}，{2，3}，{2，4}

　　在生成了最大频繁集后，如何生成强规则呢？

　　对于最大频繁集L，找出L的所有的非空集合。对于每个子集合a，生成如下规则a=>(L-a)，然后根据最小支持度和置信度筛选所有规则。

下面举例说明Apiori算法的具体流程：

　　假如有项目集合I={1，2，3，4，5}，有事务集T：

1,2,3

1,2,4

1,3,4

1,2,3,5

1,3,5

2,4,5

1,2,3,4

　　设定minsup=3/7，misconf=5/7。

　　首先：生成频繁项目集：

　　1-频繁项目集：{1}，{2}，{3}，{4}，{5}

　　生成2-频繁项目集：

　　根据1-频繁项目集生成所有的包含2个元素的项目集：任意取两个只有最后一个元素不同的1-频繁项目集，求其并集，由于每个1-频繁项目集元素只有一个，所以生成的项目集如下：

　　{1，2}，{1，3}，{1，4}，{1，5}

　　{2，3}，{2，4}，{2，5}

　　{3，4}，{3，5}

　　{4，5}

　　计算它们的支持度，发现只有{1，2}，{1，3}，{1，4}，{2，3}，{2，4}，{2，5}的支持度满足要求，因此求得2-频繁项目集：

　　{1，2}，{1，3}，{1，4}，{2，3}，{2，4}

　　生成3-频繁项目集：

　　因为{1，2}，{1，3}，{1，4}除了最后一个元素以外都相同，所以求{1，2}，{1，3}的并集得到{1，2，3}， {1，2}和{1，4}的并集得到{1，2，4}，{1，3}和{1，4}的并集得到{1，3，4}。但是由于{1，3，4}的子集{3，4}不在2-频繁项目集中，所以需要把{1，3，4}剔除掉。然后再来计算{1，2，3}和{1，2，4}的支持度，发现{1，2，3}的支持度为3/7 ，{1，2，4}的支持度为2/7，所以需要把{1，2，4}剔除。同理可以对{2，3}，{2，4}求并集得到{2，3，4} ，但是{2，3，4}的支持度不满足要求，所以需要剔除掉。

　　因此得到3-频繁项目集：{1，2，3}。

　　到此频繁项目集生成过程结束。注意生成频繁项目集的时候，频繁项目集中的元素个数最大值为事务集中事务中含有的最大元素个数，即若事务集中事务包含的最大元素个数为k，那么最多能生成k-频繁项目集，这个原因很简单，因为事务集合中的所有事务都不包含（k+1）个元素，所以不可能存在（k+1）-频繁项目集。在生成过程中，若得到的频繁项目集个数小于2，生成过程也可以结束了。

　　现在需要生成强关联规则：

　　这里只说明3-频繁项目集生成关联规则的过程：

　　对于集合{1，2，3}

　　先生成1-后件的关联规则：

　　（1，2）—>3，置信度=3/4

　　（1，3）—>2，　置信度=3/5

　　（2，3）—>1 置信度=3/3

　　（1，3）—>2的置信度不满足要求，所以剔除掉。因此得到1后件的集合{1}，{3}，然后再以{1，3}作为后件

2—>1，3 置信度=3/5不满足要求，所以对于3-频繁项目集生成的强关联规则为：（1，2）—>3和（2，3）—>1。

四、参考文献

　　浅谈数据挖掘中的关联规则挖掘

　　关联规则(apriori algorithm)(1)

　　Fast Algorithms for Mining Association Rules

　　Mining Generalized Association Rules

关联规则算法(The Apriori algorithm)详解的更多相关文章

SSD算法及Caffe代码详解（最详细版本）
SSD(single shot multibox detector)算法及Caffe代码详解 https://blog.csdn.net/u014380165/article/details/7282 ...
python 排序算法总结及实例详解
python 排序算法总结及实例详解这篇文章主要介绍了python排序算法总结及实例详解的相关资料,需要的朋友可以参考下总结了一下常见集中排序的算法排序算法总结及实例详解"> 归 ...
R1（上）—R关联规则分析之Arules包详解
Arules包详解包基本信息发布日期:2014-12-07 题目:挖掘关联规则和频繁项集描述:提供了一个表达.处理.分析事务数据和模式(频繁项集合关联规则)的基本框架. URL:http://R ...
SSD（single shot multibox detector）算法及Caffe代码详解[转]
转自:AI之路这篇博客主要介绍SSD算法,该算法是最近一年比较优秀的object detection算法,主要特点在于采用了特征融合. 论文:SSD single shot multibox det ...
算法笔记--sg函数详解及其模板
算法笔记参考资料:https://wenku.baidu.com/view/25540742a8956bec0975e3a8.html sg函数大神详解:http://blog.csdn.net/l ...
KMP算法的优化与详解
文章开头,我首先抄录一些阮一峰先生关于KMP算法的一些讲解. 下面,我用自己的语言,试图写一篇比较好懂的 KMP 算法解释. 1. 首先,字符串"BBC ABCDAB ABCDABCDABD ...
Python实现的数据结构与算法之基本搜索详解
一.顺序搜索顺序搜索是最简单直观的搜索方法:从列表开头到末尾,逐个比较待搜索项与列表中的项,直到找到目标项(搜索成功)或者超出搜索范围 (搜索失败). 根据列表中的项是否按顺序排列,可以将列表分 ...
Floyd算法(三)之 Java详解
前面分别通过C和C++实现了弗洛伊德算法,本文介绍弗洛伊德算法的Java实现. 目录 1. 弗洛伊德算法介绍 2. 弗洛伊德算法图解 3. 弗洛伊德算法的代码说明 4. 弗洛伊德算法的源码转载请注明 ...
Floyd算法(二)之 C++详解
本章是弗洛伊德算法的C++实现. 目录 1. 弗洛伊德算法介绍 2. 弗洛伊德算法图解 3. 弗洛伊德算法的代码说明 4. 弗洛伊德算法的源码转载请注明出处:http://www.cnblogs.c ...

随机推荐

win7操作技巧
Q : 打开文件夹默认最大化A :随便打开一个文件夹鼠标移动到左上角然后点击鼠标左键选择“最大化” 后关闭之后每次打开就是最大化了
Sencha Cmd是什么
Sencha Cmd的简介 ~~~~~~~~~~~~~~~~~~~~~~~ Sencha cmd 是一个跨平台的命令行工具,它从你应用程序的新创建到部署入产品中的整个生命周期都提供了许多自动化的执行任 ...
Linux写时拷贝技术(copy-on-write)
COW技术初窥: 在Linux程序中,fork()会产生一个和父进程完全相同的子进程,但子进程在此后多会exec系统调用,出于效率考虑,linux中引入了“写时复制“技术,也就是只有进程空间的各段的内 ...
tomcat部署
因为之前一直用的JBoss服务器,今天测试了一下想换成tomcat,然后就考了一个现成的tomcat,然后将jboss下的项目复制了一个到tomcat下,然后改了一下文件名,结果启动时报错 java. ...
SQL 注入防御方法总结
SQL 注入是一类危害极大的攻击形式.虽然危害很大,但是防御却远远没有XSS那么困难. SQL 注入可以参见:https://en.wikipedia.org/wiki/SQL_injection S ...
Linux下shell颜色配置
颜色配置涉及以下几个地方(本人常用的):命令提示符,文件及目录名显示,echo -e命令 1.颜色值分为前景色和背景色,颜色码值对应关系如下: Front Back Color 黑红绿黄(棕) ...
QT添加程序图标及窗口图标
程序图标材料准备图标文件:*.ico文件,存放在源文件同一目录下,如"myapp.ico" 写入图标向*.pro文件中,独立一行写入"RC_ICONS = *.ic ...
Git指令总结和图表
Git 是一个很强大的分布式版本控制系统.它不但适用于管理大型开源软件的源代码,管理私人的文档和源代码也有很多优势. Git常用操作命令: 1) 远程仓库相关命令检出仓库:$ git clone g ...
redis 非集群的主从配置及切换
单纯的master-slave不能称之为集群,只能叫做读写分离.此案例只针对master为单点服务,且程序端写死master为可写,slave为只读.若master宕机则不可用,若主从未开启持久化,不 ...
再学TSQL基础--单表查询
本内容是我学习tsql2008的阅读笔记什么是关系模型? 若对列创建唯一约束,背后中的物理机制也是创建了一个唯一索引. SQL语句的逻辑解析顺序是FROM WHERE GROUP BY HAVING ...

关联规则算法(The Apriori algorithm)详解

关联规则算法(The Apriori algorithm)详解的更多相关文章

随机推荐

热门专题