1.Apriori算法

如果一个事务中有X，则该事务中则很有可能有Y，写成关联规则

{X}→{Y}

将这种找出项目之间联系的方法叫做关联分析。关联分析中最有名的问题是购物蓝问题，在超市购物时，有一个奇特的现象——顾客在买完尿布之后通常会买啤酒，即{尿布}→{啤酒}。原来，妻子嘱咐丈夫回家的时候记得给孩子买尿布，丈夫买完尿布后通常会买自己喜欢的啤酒。

考虑到规则的合理性，引入了两个度量：支持度（support）、置信度（confidence），定义如下

支持度保证项集(X, Y)在数据集出现的频繁程度，置信度确定Y在包含X中出现的频繁程度。

对于包含有d个项的数据集，可能的规则数为

如果用brute-force的方法，计算代价太大了。为此，R. Agrawal与R. Srikant提出了Apriori算法。同大部分的关联分析算法一样，Apriori算法分为两步：

生成频繁项集，即满足最小支持度阈值的所有项集；
生成关联规则，从上一步中找出的频繁项集中找出搞置信度的规则，即满足最小置信度阈值。

A priori在拉丁语中是“from before”（先验）的意思。Apriori算法是用到了一个简单到不能再简单的先验：一个频繁项集的子集也是频繁的。

生成频繁项集、关联规则用到了剪枝，具体参看[2]。

class associationRule:

    def __init__(self,dataSet):

        self.sentences=map(set,dataSet)

        self.minSupport=0.5

        self.minConf=0.98

        self.numSents=float(len(self.sentences))

        self.supportData={}

        self.L=[]

        self.ruleList=[]  

    def createC1(self):

        """create candidate itemsets of size 1 C1"""  

        C1=[]

        for sentence in self.sentences:

            for word in sentence:

                if not [word] in C1:

                    C1.append([word])

        C1.sort()

        return map(frozenset,C1)  

    def scan(self,Ck):

        """generate frequent itemsets Lk from candidate itemsets Ck"""  

        wscnt={}

        retList=[]

        #calculate support for every itemset in Ck

        for words in Ck:

            for sentence in self.sentences:

                if words.issubset(sentence):

                    if not wscnt.has_key(words): wscnt[words]=1

                    else: wscnt[words]+=1  

        for key in wscnt:

            support=wscnt[key]/self.numSents

            if support>=self.minSupport:

                retList.append(key)

            self.supportData[key]=support

        self.L.append(retList)  

    def aprioriGen(self,Lk,k):

        """the candidate generation: merge a pair of frequent (k − 1)-itemsets

        only if their first k − 2 items are identical

        """  

        retList=[]

        lenLk=len(Lk)

        for i in range(lenLk):

            for j in range(i+1,lenLk):

                L1=list(Lk[i])[:k-2]; L2=list(Lk[j])[:k-2]

                L1.sort(); L2.sort()

                if L1==L2:

                    retList.append(Lk[i]|Lk[j])

        return retList  

    def apriori(self):

        """generate a list of frequent itemsets"""  

        C1=self.createC1()

        self.scan(C1)

        k=2

        while(k<=3):

            Ck=self.aprioriGen(self.L[k-2],k)

            self.scan(Ck)

            k+=1       

    def generateRules(self):

        """generate a list of rules"""  

        for i in range(1,len(self.L)):    #get only sets with two or more items

            for freqSet in self.L[i]:

                H1=[frozenset([word]) for word in freqSet]

                if(i>1): self.rulesFromConseq(freqSet,H1)

                else: self.calcConf(freqSet,H1)  #set with two items  

    def calcConf(self,freqSet,H):

        """calculate confidence, eliminate some rules by confidence-based pruning"""  

        prunedH=[]

        for conseq in H:

            conf=self.supportData[freqSet]/self.supportData[freqSet-conseq]

            if conf>=self.minConf:

                print "%s --> %s, conf=%.3f"%(map(str,freqSet-conseq), map(str,conseq), conf)

                self.ruleList.append((freqSet-conseq,conseq,conf))

                prunedH.append(conseq)

        return prunedH  

    def rulesFromConseq(self,freqSet,H):

        """generate more association rules from freqSet+H"""  

        m=len(H[0])

        if len(freqSet)>m+1:                #try further merging

            Hmp1=self.aprioriGen(H,m+1)     #create new candidate Hm+1

            Hmp1=self.calcConf(freqSet,Hmp1)

            if len(Hmp1)>1:

                self.rulesFromConseq(freqSet,Hmp1)

读取mushroom.dat数据集

def read_file(raw_file):

    """read file"""  

    return [sorted(list(set(e.split()))) for e in

            open(raw_file).read().strip().split('\n')]  

def main():

    sentences=read_file('test.txt')

    assrules=associationRule(sentences)

    assrules.apriori()

    assrules.generateRules()  

if __name__=="__main__":

    main()

生成的规则

['76'] --> ['34'], conf=1.000
['34'] --> ['85'], conf=1.000
['36'] --> ['85'], conf=1.000
['24'] --> ['85'], conf=1.000
['53'] --> ['90'], conf=1.000
['53'] --> ['34'], conf=1.000
['2'] --> ['85'], conf=1.000
['76'] --> ['85'], conf=1.000
['67'] --> ['86'], conf=1.000
['76'] --> ['86'], conf=1.000
['67'] --> ['34'], conf=1.000
['67'] --> ['85'], conf=1.000
['90'] --> ['85'], conf=1.000
['86'] --> ['85'], conf=1.000
['53'] --> ['85'], conf=1.000
['53'] --> ['86'], conf=1.000
['39'] --> ['85'], conf=1.000
['34'] --> ['86'], conf=0.999
['86'] --> ['34'], conf=0.998
['63'] --> ['85'], conf=1.000
['59'] --> ['85'], conf=1.000
['53'] --> ['86', '85'], conf=1.000
['76'] --> ['34', '85'], conf=1.000
['53'] --> ['90', '34'], conf=1.000
['76'] --> ['86', '85'], conf=1.000
['53'] --> ['34', '85'], conf=1.000
['67'] --> ['34', '85'], conf=1.000
['76'] --> ['86', '34'], conf=1.000
['53'] --> ['86', '34'], conf=1.000
['67'] --> ['86', '34'], conf=1.000
['53'] --> ['90', '85'], conf=1.000
['67'] --> ['86', '85'], conf=1.000
['53'] --> ['90', '86'], conf=1.000
['86'] --> ['85', '34'], conf=0.998
['34'] --> ['86', '85'], conf=0.999

源代码在有些数据集上跑得很慢，还需要做一些优化。这里有一些用作关联分析测试的数据集。

2. Referrence

[1] Peter Harrington, machine learning in action.

[2] Tan, et al., Introduction to data minging.

【数据挖掘】关联分析之Apriori（转载）的更多相关文章

数据挖掘-关联分析 Apriori算法和FP-growth 算法
•1.关联分析概念关联分析是从大量数据中发现项集之间有趣的关联和相关联系. •定义:1.事务:每一条交易称为一个事务,如上图包含5个事务.2.项:交易的每一个物品称为一个项,例如豆奶,啤酒等. ...
Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
【机器学习实战】第11章使用 Apriori 算法进行关联分析
第 11 章使用 Apriori 算法进行关联分析关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出 ...
使用Apriori进行关联分析（二）
书接上文(使用Apriori进行关联分析(一)),介绍如何挖掘关联规则. 发现关联规则我们的目标是通过频繁项集挖掘到隐藏的关联规则. 所谓关联规则,指通过某个元素集推导出另一个元素集.比如有一个频繁 ...
使用Apriori进行关联分析（一）
大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务.但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入.其中最经典的 ...
第十四篇：Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
关联分析---Apriori
关联分析是一种在大规模数据集中寻找有趣关系的任务,这些关系有两种形式:频繁项集和关联规则.频繁项集是经常出现在一起的物品的集合,关联规则暗示两种物品之间可能存在的很强的关系. 如何寻找数据集中的频繁或 ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
使用Apriori算法和FP-growth算法进行关联分析
系列文章:<机器学习实战>学习笔记最近看了<机器学习实战>中的第11章(使用Apriori算法进行关联分析)和第12章(使用FP-growth算法来高效发现频繁项集).正如章 ...

随机推荐

洛谷——P1579 哥德巴赫猜想（升级版）
P1579 哥德巴赫猜想(升级版) 题目背景 1742年6月7日哥德巴赫写信给当时的大数学家欧拉,正式提出了以下的猜想:任何一个大于9的奇数都可以表示成3个质数之和.质数是指除了1和本身之外没有其他约 ...
Xamarin XAML语言教程通过数据绑定使用Progress属性
Xamarin XAML语言教程通过数据绑定使用Progress属性开发者除了可以为ProgressBar定义的Progress属性直接赋双精度类型的值外,还可以通过数据绑定的方式为该属性赋值,此时 ...
Shader与AGAL(From 7yue)
十. 图形界面(GUI)设计3.标签、按钮和按钮事件
标签和按钮也许是图形界面中最常见的两种组件,按钮又总是与激发动作事件有关. 标签标签(JLabel)是最简单的Swing组件.标签对象的作用是对位于其后的界面组件作说明.可以设置标签的属性,即前景色 ...
SQL使用链接服务器执行远程数据库上的存储过程
原文:SQL使用链接服务器执行远程数据库上的存储过程 --创建链接服务器 exec sp_addlinkedserver'server_tmp','','SQLOLEDB','远程服务器名或ip地址' ...
用nodejs和js写增删查模块
文件目录如下:public是静态资源文件,index.html入门页面,server.js就是用nodejs创建的服务端代码,users.json就类似是数据库. 目录显示界面 listUsers ...
DotnetBrowser高级教程-（4）使用MVC框架3-文件上传
网站有时候需要上传文件,本节以上传一张图片为例,在UserController.cs里添加如下代码: public string UploadImgPage() { return "< ...
LNMP第一部分环境搭建
1. MySQL安装(同LAMP里面的安装方法)2. php安装wget http://cn2.php.net/distributions/php-5.4.37.tar.bz2tar jxf ph ...
在eclipse中使用Lombok
1.下载Lombok.jar http://projectlombok.googlecode.com/files/lombok.jar2.运行Lombok.jar: java -jar D:\001 ...
Jquery.data（）的值存放再什么地方的问题？
Where is jQuery.data() stored? Where does jQuery store the values of the data() that it sets to DOM ...

【数据挖掘】关联分析之Apriori（转载）

1.Apriori算法

2. Referrence

【数据挖掘】关联分析之Apriori（转载）的更多相关文章

随机推荐

热门专题