Python实现Apriori

运行环境

  • Pyhton3

计算过程

st=>start: 开始
e=>end: 结束
op1=>operation: 读入数据
op2=>operation: 递归生成频繁项集
op3=>operation: 关联规则挖掘
op4=>operation: 输出结果 st->op1->op2->op3->op4->e

输入样例

/* Apriori.txt */
文本编号 词列表(以空格分隔)
1 消防员 冲进 火场 救出 男童
2 公务员 患 癌症 保持 在岗
3 消防员 多次 冲进 火场 救人 不幸 身亡
4 老人 成功 进行 免费 白内障 手术
5 海豚 误 吞 排球 后 手术 成功 取出
6 6旬 老人 跳楼 自杀 身亡
7 男子 跳楼 自杀 身亡
8 疑犯 枪杀 出租车 司机
9 男子 枪杀 妻子 后 自杀
10 医师 误 把 肾脏 当 肝脏 致人 身亡
11 癌症 老人 成功 手术
12 男子 枪杀 司机 后 喝药 自杀
13 癌症 医师 保持 手术 清醒
14 男子 跳楼 自杀
15 男子 枪杀 老人 后 自杀
16 消防员 冲进 火场 将 男童 救出
17 出租车 司机 免费 搭载 老人
18 男子 误 杀 弟媳 后 自杀 身亡
19 医师 误 把 患者 肝脏 捅破 致人 身亡
20 6旬 老人 火场 救人 不幸 身亡

代码实现

# -*- coding: utf-8 -*-
__author__ = 'Wsine' def loadDataSet(fileName):
attrTemp = []
with open(fileName) as fr:
for line in fr.readlines()[1:]:
words = line.strip().split('\t')[1].split()
attrTemp.extend(words)
attr = list(set(attrTemp))
dataSet = []
with open(fileName) as fr:
for line in fr.readlines()[1:]:
words = line.strip().split('\t')[1].split()
data = []
for word in words:
for index, _word in enumerate(attr):
if word == _word:
data.append(index)
break
dataSet.append(data)
return dataSet, attr def createC1(dataSet):
"""
输入:数据集
输出:所有大小为1的候选项集合C1
"""
C1 = []
for transaction in dataSet:
for item in transaction:
if not [item] in C1:
C1.append([item])
C1.sort()
return list(map(frozenset, C1)) def scanD(D, Ck, minSupport):
"""
输入:数据集集合, 候选项集, 最小支持度
输出:最频繁项集的支持度
"""
ssCnt = {}
for tid in D:
for can in Ck:
if can.issubset(tid):
if not can in ssCnt:
ssCnt[can] = 1
else:
ssCnt[can] += 1
numItems = float(len(D))
retList = []
supportData = {}
for key in ssCnt:
support = ssCnt[key] / numItems
if support >= minSupport:
retList.insert(0, key)
supportData[key] = support
return retList, supportData def aprioriGen(Lk, k):
"""
输入:频繁项集列表, 项集元素个数
输出:合并后的项集列表
"""
retList = []
lenLk = len(Lk)
for i in range(lenLk):
for j in range(i+1, lenLk):
L1 = list(Lk[i])[:k-2]
L2 = list(Lk[j])[:k-2]
L1.sort()
L2.sort()
if L1 == L2:
retList.append(Lk[i] | Lk[j])
return retList def apriori(dataSet, minSupport=0.5):
"""
输入:数据集, 最小支持度
输出:候选项集列表
"""
C1 = createC1(dataSet)
D = list(map(set, dataSet))
L1, supportData = scanD(D, C1, minSupport)
L = [L1]
k = 2
while (len(L[k-2]) > 0):
Ck = aprioriGen(L[k-2], k)
Lk, supK = scanD(D, Ck, minSupport)
supportData.update(supK)
L.append(Lk)
k += 1
return L, supportData def calcConf(freqSet, H, supportData, br1, minConf=0.7):
"""
输入:频繁项集, 所有项集, 支持度数据, 通过检查的bigRuleList, 最小置信度
输出:满足最小置信度要求的规则列表
"""
prunedH = []
for conseq in H:
conf = supportData[freqSet] / supportData[freqSet - conseq]
if conf >= minConf:
#print(freqSet - conseq, '-->', conseq, 'conf:', conf)
br1.append((freqSet - conseq, conseq, conf))
prunedH.append(conseq)
return prunedH def rulesFromConseq(freqSet, H, supportData, br1, minConf=0.7):
"""
输入:频繁项集, 所有项集, 支持度数据, 通过检查的bigRuleList, 最小置信度
描述:生成更多的关联规则
"""
m = len(H[0])
if (len(freqSet) > (m + 1)):
Hmp1 = aprioriGen(H, m + 1)
Hmp1 = calcConf(freqSet, Hmp1, supportData, br1, minConf)
if (len(Hmp1) > 1):
rulesFromConseq(freqSet, Hmp1, supportData, br1, minConf) def generateRules(L, supportData, minConf=0.7):
"""
输入:频繁项集列表, 包含频繁项集支持数据的字典, 最小置信度
输出:置信度规则列表
"""
bigRuleList = []
for i in range(1, len(L)):
for freqSet in L[i]:
H1 = [frozenset([item]) for item in freqSet]
if (i > 1):
rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf)
else:
calcConf(freqSet, H1, supportData, bigRuleList, minConf)
return bigRuleList def printRules(rules, attr):
for rule in rules:
ruleFrom = []
ruleFromSet = set(rule[0])
while len(ruleFromSet) > 0:
ruleFrom.append(attr[ruleFromSet.pop()])
ruleTo = []
ruleToSet = set(rule[1])
while len(ruleToSet) > 0:
ruleTo.append(attr[ruleToSet.pop()])
print(ruleFrom, '-->', ruleTo)
print('\tconf: ', rule[-1]) def main():
dataSet, attr = loadDataSet('Apriori.txt')
L, supportData = apriori(dataSet, minSupport=0.2)
print('二项集', L[1])
print('三项集', L[2])
rules = generateRules(L, supportData, minConf=0.2)
printRules(rules, attr) if __name__ == '__main__':
main()

输出样例

二项集 [frozenset({32, 39}), frozenset({32, 46}), frozenset({46, 39})]
三项集 [frozenset({32, 46, 39})]
['自杀'] --> ['男子']
conf: 0.8571428571428572
['男子'] --> ['自杀']
conf: 1.0
['后'] --> ['男子']
conf: 0.8
['男子'] --> ['后']
conf: 0.6666666666666667
['自杀'] --> ['后']
conf: 0.5714285714285715
['后'] --> ['自杀']
conf: 0.8
['自杀'] --> ['男子', '后']
conf: 0.5714285714285715
['后'] --> ['男子', '自杀']
conf: 0.8
['男子'] --> ['后', '自杀']
conf: 0.6666666666666667

Python实现Apriori的更多相关文章

  1. Python --深入浅出Apriori关联分析算法(二) Apriori关联规则实战

    上一篇我们讲了关联分析的几个概念,支持度,置信度,提升度.以及如何利用Apriori算法高效地根据物品的支持度找出所有物品的频繁项集. Python --深入浅出Apriori关联分析算法(一) 这次 ...

  2. 基于Python的机器学习实战:Apriori

    目录: 1.关联分析 2. Apriori 原理 3. 使用 Apriori 算法来发现频繁集 4.从频繁集中挖掘关联规则 5. 总结 1.关联分析  返回目录 关联分析是一种在大规模数据集中寻找有趣 ...

  3. 数据挖掘入门系列教程(五)之Apriori算法Python实现

    数据挖掘入门系列教程(五)之Apriori算法Python实现 加载数据集 获得训练集 频繁项的生成 生成规则 获得support 获得confidence 获得Lift 进行验证 总结 参考 数据挖 ...

  4. Python 和 R 数据分析/挖掘工具互查

    如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...

  5. Python 数据挖掘 工具包整理

    连接器与io 数据库 类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle MongoDB pymo ...

  6. 【机器学习实战】第11章 使用 Apriori 算法进行关联分析

    第 11 章 使用 Apriori 算法进行关联分析 关联分析 关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出 ...

  7. R包和python对应的库

    数据库 类别 Python R MySQL mysql-connector-python(官方) RMySQL Oracle cx_Oracle ROracle Redis redis rredis ...

  8. Apriori算法的原理与python 实现。

    前言:这是一个老故事, 但每次看总是能从中想到点什么.在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售.但是这个奇怪的举措却使尿布和啤酒的销量双双增加了.这不是一个笑话,而是发生在美国沃尔玛 ...

  9. Apriori算法Python实现

    Apriori如果数据挖掘算法的头发模式挖掘鼻祖,从60年代开始流行,该算法非常简单朴素的思维.首先挖掘长度1频繁模式,然后k=2 这些频繁模式的长度合并k频繁模式.计算它们的频繁的数目,并确保其充分 ...

随机推荐

  1. CLRS: online maximum (n,k)algorithm

    //the first k elements interviewed and rejected, //for  the latter n-k elements ,if value >max,re ...

  2. React模板

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  3. Spring MVC防御CSRF、XSS和SQL注入攻击

    参考: http://www.myhack58.com/Article/html/3/7/2012/36142_6.htm http://blog.csdn.net/jasontome/article ...

  4. Android WebRTC 音视频开发总结(一)

    本系列文章主要总结和分享WebRTC开发过程中的一些经验,转载请说明出处(博客园RTC.Blacker),更多交流与合作请看页面上方的子标题! 一.WebRTC是什么? 可能您还不知道WebRTC是什 ...

  5. 手机连上wifi热点后自动弹窗的功能

    使用buildroot编译bind DNS服务器 用buildroot来制作文件系统很方便,编译出来的文件系统是直接可用的,不用添加脚本等麻烦的工作,很多的库和app都可以直接添加到文件系统里边,如常 ...

  6. basis基本tcode

    SM21 ST11     SM50 查看work process 使用情况 操作相关的查询功能     SM## 常用tcode     SM01 锁定事务 SM04 用户清单 SM05 HTTP ...

  7. 设计模式-工厂方法模式(FactoryMethod)

    简介: 简单工厂模式将类的示例化放在工厂对象中. 工厂方法模式是简单工厂模式的延伸,不同的是其将子类的实例化延迟到子类工厂中实现,本身仅定义一个创建对象的接口. 工厂方法模式主要由四部分组成: 1.抽 ...

  8. static local variable

    Putting the keyword static in front of a local variable declaration creates a special type of variab ...

  9. windows下如何修改远程登录端口

    windows下如何修改远程登录端口 windows远程桌面默认端口为3389,修改 方法如下:在"开始>运行"中输入"regedit" 点击“确定”,打 ...

  10. 【转】一个高端.NET技术人才的2014年度总结

    [转]一个高端.NET技术人才的2014年度总结  本人在一家公司做技术负责人.主要从事的是.net方面的开发与管理,偏重开发. 弹指一挥间,时间飘然而过,转眼又是一年. 回顾2014年,是我人生中最 ...