1.Apriori算法

如果一个事务中有X，则该事务中则很有可能有Y，写成关联规则

{X}→{Y}

将这种找出项目之间联系的方法叫做关联分析。关联分析中最有名的问题是购物蓝问题，在超市购物时，有一个奇特的现象——顾客在买完尿布之后通常会买啤酒，即{尿布}→{啤酒}。原来，妻子嘱咐丈夫回家的时候记得给孩子买尿布，丈夫买完尿布后通常会买自己喜欢的啤酒。

考虑到规则的合理性，引入了两个度量：支持度（support）、置信度（confidence），定义如下

支持度保证项集(X, Y)在数据集出现的频繁程度，置信度确定Y在包含X中出现的频繁程度。

对于包含有d个项的数据集，可能的规则数为

如果用brute-force的方法，计算代价太大了。为此，R. Agrawal与R. Srikant提出了Apriori算法。同大部分的关联分析算法一样，Apriori算法分为两步：

生成频繁项集，即满足最小支持度阈值的所有项集；
生成关联规则，从上一步中找出的频繁项集中找出搞置信度的规则，即满足最小置信度阈值。

A priori在拉丁语中是“from before”（先验）的意思。Apriori算法是用到了一个简单到不能再简单的先验：一个频繁项集的子集也是频繁的。

生成频繁项集、关联规则用到了剪枝，具体参看[2]。

class associationRule:

    def __init__(self,dataSet):

        self.sentences=map(set,dataSet)

        self.minSupport=0.5

        self.minConf=0.98

        self.numSents=float(len(self.sentences))

        self.supportData={}

        self.L=[]

        self.ruleList=[]  

    def createC1(self):

        """create candidate itemsets of size 1 C1"""  

        C1=[]

        for sentence in self.sentences:

            for word in sentence:

                if not [word] in C1:

                    C1.append([word])

        C1.sort()

        return map(frozenset,C1)  

    def scan(self,Ck):

        """generate frequent itemsets Lk from candidate itemsets Ck"""  

        wscnt={}

        retList=[]

        #calculate support for every itemset in Ck

        for words in Ck:

            for sentence in self.sentences:

                if words.issubset(sentence):

                    if not wscnt.has_key(words): wscnt[words]=1

                    else: wscnt[words]+=1  

        for key in wscnt:

            support=wscnt[key]/self.numSents

            if support>=self.minSupport:

                retList.append(key)

            self.supportData[key]=support

        self.L.append(retList)  

    def aprioriGen(self,Lk,k):

        """the candidate generation: merge a pair of frequent (k − 1)-itemsets

        only if their first k − 2 items are identical

        """  

        retList=[]

        lenLk=len(Lk)

        for i in range(lenLk):

            for j in range(i+1,lenLk):

                L1=list(Lk[i])[:k-2]; L2=list(Lk[j])[:k-2]

                L1.sort(); L2.sort()

                if L1==L2:

                    retList.append(Lk[i]|Lk[j])

        return retList  

    def apriori(self):

        """generate a list of frequent itemsets"""  

        C1=self.createC1()

        self.scan(C1)

        k=2

        while(k<=3):

            Ck=self.aprioriGen(self.L[k-2],k)

            self.scan(Ck)

            k+=1       

    def generateRules(self):

        """generate a list of rules"""  

        for i in range(1,len(self.L)):    #get only sets with two or more items

            for freqSet in self.L[i]:

                H1=[frozenset([word]) for word in freqSet]

                if(i>1): self.rulesFromConseq(freqSet,H1)

                else: self.calcConf(freqSet,H1)  #set with two items  

    def calcConf(self,freqSet,H):

        """calculate confidence, eliminate some rules by confidence-based pruning"""  

        prunedH=[]

        for conseq in H:

            conf=self.supportData[freqSet]/self.supportData[freqSet-conseq]

            if conf>=self.minConf:

                print "%s --> %s, conf=%.3f"%(map(str,freqSet-conseq), map(str,conseq), conf)

                self.ruleList.append((freqSet-conseq,conseq,conf))

                prunedH.append(conseq)

        return prunedH  

    def rulesFromConseq(self,freqSet,H):

        """generate more association rules from freqSet+H"""  

        m=len(H[0])

        if len(freqSet)>m+1:                #try further merging

            Hmp1=self.aprioriGen(H,m+1)     #create new candidate Hm+1

            Hmp1=self.calcConf(freqSet,Hmp1)

            if len(Hmp1)>1:

                self.rulesFromConseq(freqSet,Hmp1)

读取mushroom.dat数据集

def read_file(raw_file):

    """read file"""  

    return [sorted(list(set(e.split()))) for e in

            open(raw_file).read().strip().split('\n')]  

def main():

    sentences=read_file('test.txt')

    assrules=associationRule(sentences)

    assrules.apriori()

    assrules.generateRules()  

if __name__=="__main__":

    main()

生成的规则

['76'] --> ['34'], conf=1.000
['34'] --> ['85'], conf=1.000
['36'] --> ['85'], conf=1.000
['24'] --> ['85'], conf=1.000
['53'] --> ['90'], conf=1.000
['53'] --> ['34'], conf=1.000
['2'] --> ['85'], conf=1.000
['76'] --> ['85'], conf=1.000
['67'] --> ['86'], conf=1.000
['76'] --> ['86'], conf=1.000
['67'] --> ['34'], conf=1.000
['67'] --> ['85'], conf=1.000
['90'] --> ['85'], conf=1.000
['86'] --> ['85'], conf=1.000
['53'] --> ['85'], conf=1.000
['53'] --> ['86'], conf=1.000
['39'] --> ['85'], conf=1.000
['34'] --> ['86'], conf=0.999
['86'] --> ['34'], conf=0.998
['63'] --> ['85'], conf=1.000
['59'] --> ['85'], conf=1.000
['53'] --> ['86', '85'], conf=1.000
['76'] --> ['34', '85'], conf=1.000
['53'] --> ['90', '34'], conf=1.000
['76'] --> ['86', '85'], conf=1.000
['53'] --> ['34', '85'], conf=1.000
['67'] --> ['34', '85'], conf=1.000
['76'] --> ['86', '34'], conf=1.000
['53'] --> ['86', '34'], conf=1.000
['67'] --> ['86', '34'], conf=1.000
['53'] --> ['90', '85'], conf=1.000
['67'] --> ['86', '85'], conf=1.000
['53'] --> ['90', '86'], conf=1.000
['86'] --> ['85', '34'], conf=0.998
['34'] --> ['86', '85'], conf=0.999

源代码在有些数据集上跑得很慢，还需要做一些优化。这里有一些用作关联分析测试的数据集。

2. Referrence

[1] Peter Harrington, machine learning in action.

[2] Tan, et al., Introduction to data minging.

【数据挖掘】关联分析之Apriori（转载）的更多相关文章

数据挖掘-关联分析 Apriori算法和FP-growth 算法
•1.关联分析概念关联分析是从大量数据中发现项集之间有趣的关联和相关联系. •定义:1.事务:每一条交易称为一个事务,如上图包含5个事务.2.项:交易的每一个物品称为一个项,例如豆奶,啤酒等. ...
Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
【机器学习实战】第11章使用 Apriori 算法进行关联分析
第 11 章使用 Apriori 算法进行关联分析关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出 ...
使用Apriori进行关联分析（二）
书接上文(使用Apriori进行关联分析(一)),介绍如何挖掘关联规则. 发现关联规则我们的目标是通过频繁项集挖掘到隐藏的关联规则. 所谓关联规则,指通过某个元素集推导出另一个元素集.比如有一个频繁 ...
使用Apriori进行关联分析（一）
大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务.但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入.其中最经典的 ...
第十四篇：Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
关联分析---Apriori
关联分析是一种在大规模数据集中寻找有趣关系的任务,这些关系有两种形式:频繁项集和关联规则.频繁项集是经常出现在一起的物品的集合,关联规则暗示两种物品之间可能存在的很强的关系. 如何寻找数据集中的频繁或 ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
使用Apriori算法和FP-growth算法进行关联分析
系列文章:<机器学习实战>学习笔记最近看了<机器学习实战>中的第11章(使用Apriori算法进行关联分析)和第12章(使用FP-growth算法来高效发现频繁项集).正如章 ...

随机推荐

消息队列集群kafka安装配置
1. 下载wget http://mirror.rise.ph/apache/kafka/0.11.0.0/kafka_2.12-0.11.0.0.tgz2. 安装tar xf kafka_2.12- ...
MySQL区间统计SQL
SELECT elt( INTERVAL ( datediff(END_DATE, CURDATE()), 1, 201, 401, 601 ), '0-200', '200-400', '400-6 ...
使用gtest自动化测试并给出性能测试结果（windows 版本，版本平台也可以使用，但并没有做完整的测试）
/************************************************************* *使用gtest自动化测试 * ********************* ...
Python学习笔记——对象
Python 的对象定义方式如下: class Person: def __init__(self, name): self.name = name ...
SQL Server 2017 EXPRESS 安装 SQLCMD 设置远程连接
1.配置管理器内启动TCP/IP协议(端口改为1433)以及加入防火墙允许 2.进入本地实例: cmd Microsoft Windows [版本 ] (c) Microsoft Corporatio ...
iptables 要点总结
http://jiayu0x.com/2014/12/02/iptables-essential-summary/
在eclipse上部署openfire 3.9.1源码,並配置openfire
参考文章:https://my.oschina.net/u/1409622/blog/205603 在网上找了很久部署openfire源码的文章,由于我使用的是最新的3.9.1源码,试了很多种部署方法 ...
单元测试方法属性（Unit Test Method Attribute)
Additional test attributes(可以在测试方法上使用的属性)As you have seen, the unit-testing subsystem within Visual ...
项目中的.Net
一.@符号的妙用 1.字符串转义符源:'\'在C#中是特殊符号,表示转义字符,所有要表示普通字符串'\',则需要用'\\',通过@符号,可以实现'\'当做普通字符使用,如下: str ...
[置顶] kubernetes资源对象--Label
概念 Label机制是K8S中一个重要设计,通过Label进行对象弱关联,灵活地分类和选择不同服务或业务,让用户根据自己特定的组织结构以松耦合方式进行服务部署. Label是一对KV,对用户而言非常有 ...

【数据挖掘】关联分析之Apriori（转载）

1.Apriori算法

2. Referrence

【数据挖掘】关联分析之Apriori（转载）的更多相关文章

随机推荐

热门专题