Apriori 获取关联规则实现

前言

自己的一个Apriori 获取关联规则的python实现。具体原理不讲，代码添加了说明，还是很好理解的。

数据预处理

#最小置信度

min_conf = 0.5

#最小支持度

min_sup = 2

f=open('data.txt')

dataset = f.readlines()

print(dataset)

['T1\tbread, cream, milk, tea\n', 'T2\tbread, cream, milk\n', 'T3\tcake, milk\n', 'T4\tmilk, tea\n', 'T5\tbread, cake, milk\n', 'T6\tbread, tea\n', 'T7\tbeer, milk, tea\n', 'T8\tbread, tea\n', 'T9\tbread, cream, milk, tea\n', 'T10\tbread, milk, tea']

dataset = [data.replace('\n','').split('\t') for data in dataset]

print(dataset)

[['T1', 'bread, cream, milk, tea'], ['T2', 'bread, cream, milk'], ['T3', 'cake, milk'], ['T4', 'milk, tea'], ['T5', 'bread, cake, milk'], ['T6', 'bread, tea'], ['T7', 'beer, milk, tea'], ['T8', 'bread, tea'], ['T9', 'bread, cream, milk, tea'], ['T10', 'bread, milk, tea']]

dataset = [tuple([data[0],sorted(data[1].replace(' ', '').split(','))]) for data in dataset]

print(dataset)

[('T1', ['bread', 'cream', 'milk', 'tea']), ('T2', ['bread', 'cream', 'milk']), ('T3', ['cake', 'milk']), ('T4', ['milk', 'tea']), ('T5', ['bread', 'cake', 'milk']), ('T6', ['bread', 'tea']), ('T7', ['beer', 'milk', 'tea']), ('T8', ['bread', 'tea']), ('T9', ['bread', 'cream', 'milk', 'tea']), ('T10', ['bread', 'milk', 'tea'])]

terms = [term for data in dataset for term in data[1]]

terms.sort()

terms = [terms[i] for i in range(0,len(terms)) if i==0 or terms[i]!=terms[i-1]]

print(terms)

['beer', 'bread', 'cake', 'cream', 'milk', 'tea']

Aprior寻找频繁项集

def is_sub_seq(P, T):

    '''判断P是否为T的子序列

    Parameters

    --------

    P: 一个有序序列

    T: 一个有序序列

    '''

    i, j = 0, 0

    while(i<len(P) and j<len(T)):

        if(P[i]==T[j]):

            i+=1

        j+=1

    return i==len(P)

def Aprior_sieve(L):

    '''从一个项集组成的序列中中筛选出频繁项集

    Parameters

    ---

    L: 一个项集组成的序列

    Returns

    ---

    一个频繁项集和它支持度组成的序列

    '''

    L = [[l,0] for l in L]

    for l in L:

        for data in dataset:

            if(is_sub_seq(l[0], data[1])):

                l[1] += 1

    L = [l for l in L if l[1]>=minsup]

    return L

def Aprior_gen(L,k):

    '''通过k项集构造k+1项集

    Parameters

    ---

    L:一个频繁k项集和它支持度组成的序列

    k:频繁k项集的项数

    Returns

    ---

    一个k+1项集组成的序列

    '''

    print(k,":\t",L)

    NL = []

    myset = {tuple(l[0]) for l in L}

    for i in range(0, len(L)):

        for j in range(i+1, len(L)):

            if(L[i][0][:k-1]==L[j][0][:k-1]):

                nl = L[i][0].copy()

                nl.append(L[j][0][k-1])

                ok = True

                for r in range(0, k-1):

                    tmp = nl.copy()

                    tmp.pop(r)

                    tmp = tuple(tmp)

                    if(tmp not in myset):

                        ok = False

                        break

                if(ok):

                    NL.append(nl)

            else:

                break

    return NL

L = [[term] for term in terms]

L = Aprior_sieve(L)

print(L)

[[['bread'], 7], [['cake'], 2], [['cream'], 3], [['milk'], 8], [['tea'], 7]]

Ans = []

Ans.append(L)

for i in range(1,len(terms)):

    L = Aprior_gen(Ans[i-1],i)

    L = Aprior_sieve(L)

    if(len(L)==0):

        break

    Ans.append(L)

print(Ans)

1 :	 [[['bread'], 7], [['cake'], 2], [['cream'], 3], [['milk'], 8], [['tea'], 7]]

2 :	 [[['bread', 'cream'], 3], [['bread', 'milk'], 5], [['bread', 'tea'], 5], [['cake', 'milk'], 2], [['cream', 'milk'], 3], [['cream', 'tea'], 2], [['milk', 'tea'], 5]]

3 :	 [[['bread', 'cream', 'milk'], 3], [['bread', 'cream', 'tea'], 2], [['bread', 'milk', 'tea'], 3], [['cream', 'milk', 'tea'], 2]]

4 :	 [[['bread', 'cream', 'milk', 'tea'], 2]]

[[[['bread'], 7], [['cake'], 2], [['cream'], 3], [['milk'], 8], [['tea'], 7]], [[['bread', 'cream'], 3], [['bread', 'milk'], 5], [['bread', 'tea'], 5], [['cake', 'milk'], 2], [['cream', 'milk'], 3], [['cream', 'tea'], 2], [['milk', 'tea'], 5]], [[['bread', 'cream', 'milk'], 3], [['bread', 'cream', 'tea'], 2], [['bread', 'milk', 'tea'], 3], [['cream', 'milk', 'tea'], 2]], [[['bread', 'cream', 'milk', 'tea'], 2]]]

获取关联规则

mydict = { tuple(l[0]):l[1] for i in range(0, len(Ans)) for l in Ans[i]}

print(mydict)

R=set()

{('bread',): 7, ('cake',): 2, ('cream',): 3, ('milk',): 8, ('tea',): 7, ('bread', 'cream'): 3, ('bread', 'milk'): 5, ('bread', 'tea'): 5, ('cake', 'milk'): 2, ('cream', 'milk'): 3, ('cream', 'tea'): 2, ('milk', 'tea'): 5, ('bread', 'cream', 'milk'): 3, ('bread', 'cream', 'tea'): 2, ('bread', 'milk', 'tea'): 3, ('cream', 'milk', 'tea'): 2, ('bread', 'cream', 'milk', 'tea'): 2}

def conf(rule):

    return mydict[rule[1]]/mydict[rule[0]]

def gen_rule(X, Y):

    for item in Y:

        if item not in X:

            nX = X.copy()

            nX.append(item)

            nX.sort()

            rule = (tuple(nX),Y)

            if(rule not in R and conf(rule)>=min_conf):

                R.add(rule)

                gen_rule(nX, Y)

for l in mydict.keys():

    gen_rule([],l)

R = [(f, tuple(set(b)-set(f))) for f, b in R]

R.sort()

print(R)

[(('bread',), ()), (('bread',), ('milk',)), (('bread',), ('tea',)), (('bread', 'cream'), ()), (('bread', 'cream'), ('milk',)), (('bread', 'cream'), ('milk', 'tea')), (('bread', 'cream'), ('tea',)), (('bread', 'cream', 'milk'), ()), (('bread', 'cream', 'milk'), ('tea',)), (('bread', 'cream', 'milk', 'tea'), ()), (('bread', 'cream', 'tea'), ()), (('bread', 'cream', 'tea'), ('milk',)), (('bread', 'milk'), ()), (('bread', 'tea'), ()), (('cake',), ()), (('cake',), ('milk',)), (('cake', 'milk'), ()), (('cream',), ()), (('cream',), ('bread',)), (('cream',), ('bread', 'milk')), (('cream',), ('bread', 'milk', 'tea')), (('cream',), ('bread', 'tea')), (('cream',), ('milk',)), (('cream',), ('milk', 'tea')), (('cream',), ('tea',)), (('cream', 'milk'), ()), (('cream', 'milk'), ('bread',)), (('cream', 'milk'), ('bread', 'tea')), (('cream', 'milk'), ('tea',)), (('cream', 'milk', 'tea'), ()), (('cream', 'milk', 'tea'), ('bread',)), (('cream', 'tea'), ()), (('cream', 'tea'), ('bread',)), (('cream', 'tea'), ('bread', 'milk')), (('cream', 'tea'), ('milk',)), (('milk',), ()), (('milk',), ('bread',)), (('milk',), ('tea',)), (('milk', 'tea'), ()), (('tea',), ()), (('tea',), ('bread',)), (('tea',), ('milk',))]

print(len(mydict), len(R))

17 42

感想

算法的原理还是比较简单的，但实现起来还是要花些功夫。另外使用python的一些特性可以极大简化代码实现，如列表解析（学到了一种多重循环的解析），容器转换。踩了一波语法特性的坑，比如copy,dict的键为容器的话只能用tuple

Apriori 获取关联规则实现的更多相关文章

关联规则—频繁项集Apriori算法
频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系,因此将关联规则挖掘用于分类也会产生比较好的效果.关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系.其 ...
一步步教你轻松学关联规则Apriori算法
一步步教你轻松学关联规则Apriori算法 (白宁超 2018年10月22日09:51:05) 摘要:先验算法(Apriori Algorithm)是关联规则学习的经典算法之一,常常应用在商业等诸多领 ...
apriori && fpgrowth:频繁模式与关联规则挖掘
已迁移到我新博客,阅读体验更佳apriori && fpgrowth:频繁模式与关联规则挖掘详细代码我放在github上:click me 一.实验说明 1.1 任务描述 1.2 数 ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
机器学习经典算法之Apriori
一. 搞懂关联规则中的几个概念关联规则这个概念,最早是由 Agrawal 等人在 1993 年提出的.在 1994 年 Agrawal 等人又提出了基于关联规则的 Apriori 算法,至今 Apr ...
【转载】Apriori
通过这个博客学习:数据挖掘十大算法(四):Apriori(关联分析算法) 代码也是摘自上面博客,对照代码理解理论部分可能更加有助于对该算法的理解 from numpy import * # 构造数据 ...
Apriori算法第一篇
摘要: Apriori算法是产生k项高频项目组的一般手段.算法概要:首先产生k项高频项目集合Lk,自身链接形成k+1项的项目结合C(k+1),然后剪枝(去掉以前去掉的不满足支持度的高频),生成K=1项 ...
机器学习实战（Machine Learning in Action）学习笔记————07.使用Apriori算法进行关联分析
机器学习实战(Machine Learning in Action)学习笔记————07.使用Apriori算法进行关联分析关键字:Apriori.关联规则挖掘.频繁项集作者:米仓山下时间:2018 ...
R_Studio(关联)对dvdtrans.csv数据进行关联规则分析
dvdtrans.csv数据:该原始数据仅仅包含了两个字段(ID, Item) 用户ID,商品名称(共30条) #导入arules包 #install.packages("arules&qu ...

随机推荐

Myeclipse2014无法启动,启动十分之一自动闪退,闪退
现象: Myeclipse2014 无法启动闪退配图: 解决办法: 删掉 {workspace}/.metadata/.plugins/org.eclipse.e4.workbench/work ...
oracle的sys和system的默认密码
oracle的sys和system默认密码system默认:manager sys默认:change_on_install使用PL/SQL Plus登录数据库时,system用户使用密码manager ...
Oracle数据库对表基本的操作--增删查改
--向student表中加入入学时间属性,其数据类型为日期型alter table student add scome date; --删除student表中的入学时间属性alter table st ...
standby_file_management 参数为manual 导致ORA-01111问题
情景: Dataguard 物理备库执行恢复报错: Errors in file /home/u01/app/diag/rdbms/rzorcl11g/ORCL/trace/ORCL_pr00_358 ...
前端调用接口得到的数据跟postman跑出来的数据里数字部份不相等
昨天碰到这样一个场景,调用后端接口返回的数据发现所有数据都是正常的,只有一个商品ID的最后两位是错的,每一个商品都是,导致无法进行商品的上下架和删除, 经过查资料发现: 浏览器解析数字的坑,一旦超出一 ...
LR--用栈实现移进--归约分析(demo)
1.考虑文法 \(E->E+E\) \(E->E*E\) \(E->id\) 2.最右推导不难看出,这个文法是而二义的,所以有多个最右推导 3.移进归约用一个栈存文法符号,用输入 ...
activeMQ的request-response请求响应模式
一:为什么需要请求响应模式在消息中间中,生产者只负责生产消息,而消费者只负责消费消息,两者并无直接的关联.但是如果生产者想要知道消费者有没有消费完,或者用不用重新发送的时候,这时就要用到请求响应模式 ...
结对编程总结by黄柏欣李斌
在十一国庆期间(当然,还有国庆之前的几天),我们进行了一个结对编程的项目.对我受益良多,在伙伴面前发现自己的渺小,在知识面前,始终输给这浩瀚的海洋,及时发现了自己的不足,这次项目,对我来说就相当于一个 ...
微信小程序——长按复制、一键复制
wxml: 订单号:<text selectable='true' bindlongtap='copy' >{{OrderModel.OrderNo}}</text><b ...
python学习笔记（二）python基础知识(交作业)
交作业 #!/usr/bin/env python # coding: utf-8 # # 1. 每个用户购买了多少不同种类的产品 # filename = 'train.txt' import sy ...

Apriori 获取关联规则实现

前言

数据预处理

Aprior寻找频繁项集

获取关联规则

感想

Apriori 获取关联规则实现的更多相关文章

随机推荐

热门专题