python实现关联规则

　　代码中Ci表示候选频繁i项集，Li表示符合条件的频繁i项集
　　
　　# coding=utf-8
　　
　　def createC1(dataSet): # 构建所有1项候选项集的集合
　　
　　C1 = []
　　
　　for transaction in dataSet:
　　
　　for item in transaction:
　　
　　if [item] not in C1:
　　
　　C1.append([item]) # C1添加的是列表，对于每一项进行添加，[[1], [2], [3], [4], [5]]
　　
　　#print('C1:',C1)
　　
　　return list(map(frozenset, C1)) # 使用frozenset，被“冰冻”的集合，为后续建立字典key-value使用。
　　
　　###由候选项集生成符合最小支持度的项集L。参数分别为数据集、候选项集列表，最小支持度
　　
　　###如
　　
　　###C3: [frozenset({1, 2, 3}), frozenset({1, 3, 5}), frozenset({2, 3, 5})]
　　
　　###L3: [frozenset({2, 3, 5})]
　　
　　def scanD(D, Ck, minSupport):
　　
　　ssCnt = {}
　　
　　for tid in D: # 对于数据集里的每一条记录
　　
　　for can in Ck: # 每个候选项集can
　　
　　if can.issubset(tid): # 若是候选集can是作为记录的子集，那么其值+1,对其计数
　　
　　if not ssCnt.__contains__(can): # ssCnt[can] = ssCnt.get(can,0)+1一句可破，没有的时候为0,加上1,有的时候用get取出，加1
　　
　　ssCnt[can] = 1
　　
　　else:
　　
　　ssCnt[can] += 1
　　
　　numItems = float(len(D))
　　
　　retList = []
　　
　　supportData = {}
　　
　　for key in ssCnt:
　　
　　support = ssCnt[key] / numItems # 除以总的记录条数，即为其支持度
　　
　　if support >= minSupport:
　　
　　retList.insert(0, key) # 超过最小支持度的项集，将其记录下来。
　　
　　supportData[key] = support
　　
　　return retList, supportData
　　
　　###由Lk生成K项候选集Ck
　　
　　###如由L2: [frozenset({3, 5}), frozenset({2, 5}), frozenset({2, 3}), frozenset({1, 3})]
　　
　　###生成
　　
　　###C3: [frozenset({1, 2, 3}), frozenset({1, 3, 5}), frozenset({2, 3, 5})]
　　
　　def aprioriGen(Lk, k):
　　
　　retList = []
　　
　　lenLk = len(Lk)
　　
　　for i in range(lenLk):
　　
　　for j in range(i + 1,lenLk):
　　
　　if len(Lk[i] | Lk[j])==k:
　　
　　retList.append(Lk[i] | Lk[j])
　　
　　return list(set(retList))
　　
　　####生成所有频繁子集
　　
　　def apriori(dataSet, minSupport=0.5):
　　
　　C1 = createC1(dataSet)
　　
　　D = list(map(set, dataSet))
　　
　　L1, supportData = scanD(D, C1, minSupport)
　　
　　L = [L1] # L将包含满足最小支持度，即经过筛选的所有频繁n项集，这里添加频繁1项集
　　
　　k = 2
　　
　　while (len(L[k - 2]) > 0): # k=2开始，由频繁1项集生成频繁2项集，直到下一个打的项集为空
　　
　　Ck = aprioriGen(L[k - 2], k)
　　
　　Lk, supK = scanD(D, Ck, minSupport)
　　
　　supportData.update(supK) # supportData为字典，存放每个项集的支持度，并以更新的方式加入新的supK
　　
　　L.append(Lk)
　　
　　k += 1
　　
　　return L, supportData
　　
　　if __name__ == "__main__":
　　
　　dataSet = [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]
　　
　　D = list(map(set, dataSet))
　　
　　L,suppData = apriori(dataSet)
　　
　　print('L:',L)
　　
　　print('suppData:',suppData)
　　
　　'''
　　
　　C1 = createC1(dataSet)
　　
　　L1, supportData1 = scanD(D, C1, 0.5)
　　
　　print('C1:',C1)
　　
　　print('L1:',L1)
　　
　　print('supportData1:',supportData1)
　　
　　C2 = aprioriGen(L1, 2)
　　
　　L2, supportData2 = scanD(D, C2, 0.5)
　　
　　print('C2:',C2)
　　
　　print('L2:',L2)
　　
　　print('supportData2:www.gcyl152.com/',supportData2)
　　
　　C3 = aprioriGen(L2, 3)
　　
　　L3, supportData3 www.michenggw.com= scanD(D, C3, 0.5)
　　
　　print('C3:',C3)
　　
　　print('L3:',L3)
　　
　　print('supportData3:',supportData3)
　　
　　'''
　　
　　最终得到的所有支持度大于0.5的频繁子集及其支持度如下：
　　
　　       frozenset({1})www.mcyllpt.com/ : 0.5,
　　
　　       frozenset({3}): 0.75,
　　
　　       frozenset({4}): 0.25,
　　
　　       frozenset({2}): 0.75,
　　
　　       frozenset({5}): 0.75,
　　
　　       frozenset({1, 3}): 0.5,
　　
　　       frozenset({2, 3}): 0.5,
　　
　　       frozenset({2, 5}): 0.75,
　　
　　       frozenset({3, 5}): 0.5,
　　
　　       frozenset({1, 2}): 0.25,
　　
　　       frozenset({1, 5}): 0.25,
　　
　　       frozenset({2, 3, 5}): 0.5,
　　
　　       frozenset({1, 2, 3}): 0.25,
　　
　　       frozenset({1, 3, 5}): 0.25

python实现关联规则的更多相关文章

关联规则 -- apriori 和 FPgrowth 的基本概念及基于python的算法实现
apriori 使用Apriori算法进行关联分析貌似网上给的代码是这个大牛写的关联规则挖掘及Apriori实现购物推荐老师 Apriori 的python算法实现 python实现关联规则 ...
python调用R语言，关联规则可视化
首先当然要配置r语言环境变量什么的 D:\R-3.5.1\bin\x64; D:\R-3.5.1\bin\x64\R.dll;D:\R-3.5.1;D:\ProgramData\Anaconda3\L ...
Python机器学习算法 — 关联规则（Apriori、FP-growth）
关联规则 -- 简介关联规则挖掘是一种基于规则的机器学习算法,该算法可以在大数据库中发现感兴趣的关系.它的目的是利用一些度量指标来分辨数据库中存在的强规则.也即是说关联规则挖掘是用于知识发现,而非预 ...
Python --深入浅出Apriori关联分析算法（二） Apriori关联规则实战
上一篇我们讲了关联分析的几个概念,支持度,置信度,提升度.以及如何利用Apriori算法高效地根据物品的支持度找出所有物品的频繁项集. Python --深入浅出Apriori关联分析算法(一) 这次 ...
Python两步实现关联规则Apriori算法，参考机器学习实战，包括频繁项集的构建以及关联规则的挖掘
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...
[Python数据挖掘]第8章、中医证型关联规则挖掘
一.背景和挖掘目标二.分析方法与过程 1.数据获取 2.数据预处理 1.筛选有效问卷(根据表8-6的标准) 共发放1253份问卷,其中有效问卷数为930 2.属性规约 3.数据变换 ''' 聚类 ...
python实现简单关联规则Apriori算法
from itertools import combinations from copy import deepcopy # 导入数据,并剔除支持度计数小于min_support的1项集 def lo ...
Python 和 R 数据分析/挖掘工具互查
如果大家已经熟悉python和R的模块/包载入方式,那下面的表查找起来相对方便.python在下表中以模块.的方式引用,部分模块并非原生模块,请使用 pip install * 安装:同理,为了方便索 ...
Python实现Apriori
Python实现Apriori 运行环境 Pyhton3 计算过程 st=>start: 开始 e=>end: 结束 op1=>operation: 读入数据 op2=>ope ...

随机推荐

[MIP]mip-script组件自定义 JS 代码使用限制
自mip升级v2版本后,多了一个mip-script组件,很多人就都以为可以写自定义js代码了!然并卵,MIP2页中还是一样不允许自定义javascript代码,所有的交互须通过组件实现. 引用官方说 ...
使用SQLite删除Mac OS X 中launchpad里的快捷方式
一般情况下,从App Store安装的应用程序,如果应用删除,那么launchpad里对应的图标会一起删除了. 而对于不是通过App Store安装的应用程序,删除应用程序,Launchpad中很可能 ...
tarnado源码解析系列一
目录 tarnado tarnado源码安装 tarnado测试程序 application类的解析一. tarnado简介最近在学习Python,无意间接触到的tarnado,感觉tarnado ...
JAVA判断时间是否在时间区间内
package com.liying.tiger.test; import java.text.ParseException; import java.text.SimpleDateFormat; i ...
JOI2017 春季合宿：Railway Trip
自己的AC做法似乎离正解偏了十万八千里而且复杂了不少--不管怎样还是记录下来吧. 题意: 题目链接: JOISC2017 F - AtCoder JOISC2017 F - LOJ \(N\)个车站排 ...
Spring事务：一种编程式事务，三种声明式事务
事务隔离级别隔离级别是指若干个并发的事务之间的隔离程度.TransactionDefinition 接口中定义了五个表示隔离级别的常量: TransactionDefinition.ISOLATIO ...
PHP.44-TP框架商城应用实例-后台19-权限管理-RBAC需求分析
RBAC:Role Based Access Control:基于角色的访问控制需求分析:[类似效果如下图] 1.权限,角色,管理员 2.权限管理[无限级] 注意:权限会被分配给角色,而不是给管理员 ...
汇编实验15：安装新的int 9中断例程
汇编实验15:安装新的int 9中断例程任务安装一个新的int 9中断例程,功能:在DOS下,按下“A”键后,除非不在松开,一旦松开后,就显示满屏幕的“A”,其他键照常处理. 预备知识概要这次实 ...
mysql ON DUPLICATE KEY UPDATE、REPLACE INTO
INSERT INTO ON DUPLICATE KEY UPDATE 与 REPLACE INTO,两个命令可以处理重复键值问题,在实际上它之间有什么区别呢?前提条件是这个表必须有一个唯一索引或主键 ...
springmvc基础篇—处理图片静态资源文件
当我们在web.xml中对DispatcherServlet的过滤设置为/ 的时候,表示对所有的路径进行拦截过滤,那么不可避免的就会产生一个问题,那就是像图片这种静态资源文件我明明引用路径有,但就是加 ...

python实现关联规则

python实现关联规则的更多相关文章

随机推荐

热门专题