1 算法思想

算法使用频繁项集性质的先验知识。Apriori使用一种称作逐层搜索的迭代方法，k项集用于探索（k+1）项集。首先，通过扫描数据库，累积每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。该集合记作L1.然后，L1用于找频繁2项集的集合L2，L2用于找L3，如此迭代，直到不能再找到频繁k项集。找每个Lk需要一次数据库全扫描。

Apriori性质可用于压缩搜索空间，提高频繁项集逐层产生的效率。

Apriori性质：频繁项集的所有非空子集也必是频繁的。

Apriori算法主要包括连接步和剪枝步两步组成。在连接步和剪枝步中采用Apriori性质可以提高算法的效率。

1.1 连接步

此步骤用于从频繁k-1项集集合产生候选k项集集合。

为了计算出Lk，根据Apriori性质，需要从Lk-1选择所有可连接的对连接产生候选k项集的集合，记作Ck。假设项集中的项按字典序排序，则可连接的对是指两个频繁项集仅有最后一项不同。例如，若Lk-1的元素l1和l2是可连接的，则l1和l2两个项集的k-1个项中仅有最后一项不同，这个条件仅仅用于保证不产生重复。

1.2 剪枝步

此步骤用于快速缩小Ck包含的项集数目。

由Apriori性质可得，任何非频繁的（k-1）项集都不是频繁k项集的子集，因此，如果Ck中的一条候选k项集的任意一个（k-1）项子集不在Lk-1中，则这条候选k项集必定不是频繁的，从而可以从Ck中删除。这种子集测试可以使用当前所有频繁项集的散列树快速完成。

Ck是Lk的超集，经过子集测试压缩Ck后，即可扫描数据库，确定Ck中每个候选的计数，从而确定Lk。

2 伪代码

算法：Apriori， 使用逐层迭代方法基于候选产生找出频繁项集

输入：

    D：事务数据库；

    min_sup：最小支持度计数阈值。

输出：  L：D中的频繁项集。

方法：

1)  L1 = find_frequent_1_itemsets(D);

2)  for (k = 2; Lk-1 ≠ ∅; k++) {

3)    Ck = aproiri_gen(Lk-1,min_sup);

4)    for each transaction t∈D{ //扫描D用来计数

5)      Ct = subset(Ck,t); //找出事务t中包含的所有候选k项集，

6)      for each candidate c∈Ct //对事务t包含的每个候选k项集的计数加一

7)        c.count++;

8)  }

9)    Lk={c∈Ck | c.count ≥ min_sup}

10) }

11) return L = ∪kLk；

procedure apriori_gen(Lk-1: frequent (k-1)-itemset; min_sup: support)

1) for each itemset l1∈Lk-1

2)   for each itemset l2∈Lk-1

3)     if (l1[1]=l2[1])∧...∧(l1[k-2]=l2[k-2])∧(l1[k-1]<l2[k-2]) then {

4)       c = l1 连接 l2; //连接步: 产生candidates

5)       if has_infrequent_subset(c,Lk-1) then

6)         delete c; // 剪枝步: 移除非频繁的cadidate

7)       else add c to Ck;

8) }

9) return Ck;

procedure has_infrequent_subset(c:candidate k-itemset; Lk-1:frequent (k-1)-itemset)

// 使用先验知识

1) for each (k-1)-subset s of c

2)   if c∉Lk-1 then

3)     return TRUE;

4) return FALSE;

其中，Lk-1表示频繁k-1项集。

3 实现

4 示例

参考资料：

《数据挖掘：概念与技术》（第二版）

数据挖掘（七）：Apriori算法：频繁模式挖掘的更多相关文章

频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
频繁模式挖掘中Apriori、FP-Growth和Eclat算法的实现和对比（Python实现）
最近上数据挖掘的课程,其中学习到了频繁模式挖掘这一章,这章介绍了三种算法,Apriori.FP-Growth和Eclat算法:由于对于不同的数据来说,这三种算法的表现不同,所以我们本次就对这三种算法在 ...
apriori && fpgrowth:频繁模式与关联规则挖掘
已迁移到我新博客,阅读体验更佳apriori && fpgrowth:频繁模式与关联规则挖掘详细代码我放在github上:click me 一.实验说明 1.1 任务描述 1.2 数 ...
【甘道夫】并行化频繁模式挖掘算法FP Growth及其在Mahout下的命令使用
今天调研了并行化频繁模式挖掘算法PFP Growth及其在Mahout下的命令使用,简单记录下试验结果,供以后查阅: 环境:Jdk1.7 + Hadoop2.2.0单机伪集群 + Mahout0.6 ...
八、频繁模式挖掘Frequent Pattern Mining
频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题.建议用户参考维基百科的association r ...
频繁模式挖掘apriori算法介绍及Java实现
频繁模式是频繁地出如今数据集中的模式(如项集.子序列或者子结构).比如.频繁地同一时候出如今交易数据集中的商品(如牛奶和面包)的集合是频繁项集. 一些基本概念支持度:support(A=>B) ...
频繁模式挖掘 Apriori算法 FP-tree
啤酒尿布组合营销 X=>Y,其中x属于项集I,Y属于项集I,且X.Y的交集等于空集. 2类算法 Apriori算法不断地构造候选集.筛选候选集来挖掘出频繁项集,需要多次扫描原始数据.磁盘I ...
玩转大数据：深入浅出大数据挖掘技术(Apriori算法、Tanagra工具、决策树)
一.本课程是怎么样的一门课程(全面介绍) 1.1.课程的背景 “大数据”作为时下最火热的IT行业的词汇,随之而来的数据仓库.数据分析.数据挖掘等等围绕大数据的商业价值的利用逐渐成为 ...
Apriori算法-频繁项集-关联规则
计算频繁项集: 首先生成一个数据集 def loadDataSet(): return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]] 测试数据集da ...

随机推荐

java 编码 UTF-8、ISO-8859-1、GBK 【转】
Java支持UTF-8.ISO-8859-1.GBK等各种字体编码,可笔者发现Java中字体编码的问题仍难倒了不少程序员,网上虽然也有不少关于在Java中如何正确显示中文的文章,但都不够全面,笔者特意 ...
Dependency Walker使用说明
Dependency Walker使用说明标签: dllexewindowsvbqq工具 2010-03-29 11:10 25175人阅读评论(22) 收藏举报分类: 基本常识(45) ...
实测Eclipse连接小米2S调试问题
小米2S手机在Eclipse真机调试时,设备选择列表无法显示手机,DDMS也连接不上设备,解决步骤: 1.打开手机设置中开发者选项 - USB调试开启: 2.保证小米2S手机Windows下设备驱动已 ...
在MFC下实现图像放大镜
当我们想仔细观察某个细微的东西时,一般都会使用放大镜.而要看清显示在计算机屏幕上的图片或文字时通常也可以借助于Windows操作系统附带的放大程序来实现.但该程序只能以固定的放大倍数去进行观看,有时并 ...
Ubuntu 查找命令
Ubuntu 查找文件夹使用find命令查找find / -name 文件夹名称 -type d找到结果中含有路径查找命令从根目录开始查找所有扩展名为.log的文本文件,并找出包含”ERROR” ...
Linux主机规划与磁盘分区
各硬件设备在Linux中的文件名在Linux系统当中,几乎所有的硬件设备文件都在/dev这个目录内. 各硬件设备在Linux中的文件名: 设备设备在Linux中的文件名 IDE接口的硬盘 /dev ...
CodeForces 132C Logo Turtle (记忆化搜索)
Description A lot of people associate Logo programming language with turtle graphics. In this case t ...
第一次用shell脚本来自动运行带参程序
将目录下的part-开头的文件带入程序处理 #!bin/sh FILES=/data5/follow_relation_list_part_00000/part-* file="" ...
SqlCommand.ExecuteScalar 方法
本文来自:http://msdn.microsoft.com/zh-cn/library/system.data.sqlclient.sqlcommand.executescalar(v=vs.100 ...
CF 444A(DZY Loves Physics-低密度脂蛋白诱导子图)
A. DZY Loves Physics time limit per test 1 second memory limit per test 256 megabytes input standard ...

数据挖掘（七）：Apriori算法：频繁模式挖掘