【转载】Apriori

代码也是摘自上面博客，对照代码理解理论部分可能更加有助于对该算法的理解

from numpy import *

# 构造数据

def loadDataSet():

    return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

# 将所有元素转换为frozenset型字典，存放到列表中

def createC1(dataSet):

    C1 = []

    for transaction in dataSet:

        for item in transaction:

            if not [item] in C1:

                C1.append([item])

    C1.sort()

    # 使用frozenset是为了后面可以将这些值作为字典的键

    # print("C1:", C1)

    # print("list(map(frozenset, C1)):", list(map(frozenset, C1)))

    return list(map(frozenset, C1))  # frozenset一种不可变的集合，set可变集合

# 过滤掉不符合支持度的集合

# 返回 频繁项集列表retList 所有元素的支持度字典

def scanD(D, Ck, minSupport):

    ssCnt = {}

    for tid in D:

        for can in Ck:

            if can.issubset(tid):  # 判断can是否是tid的《子集》 （这里使用子集的方式来判断两者的关系）

                if can not in ssCnt:  # 统计该值在整个记录中满足子集的次数（以字典的形式记录，frozenset为键）

                    ssCnt[can] = 1

                else:

                    ssCnt[can] += 1

    numItems = float(len(D))

    retList = []  # 重新记录满足条件的数据值（即支持度大于阈值的数据）

    supportData = {}  # 每个数据值的支持度

    for key in ssCnt:

        support = ssCnt[key] / numItems

        if support >= minSupport:

            retList.insert(0, key)

        supportData[key] = support

    # print("retList:",retList)

    # print("supportData:", supportData)

    return retList, supportData  # 排除不符合支持度元素后的元素 每个元素支持度

# 生成所有可以组合的集合

# 频繁项集列表Lk 项集元素个数k  [frozenset({2, 3}), frozenset({3, 5})] -> [frozenset({2, 3, 5})]

def aprioriGen(Lk, k):

    # print("LK:",Lk)

    retList = []

    lenLk = len(Lk)

    for i in range(lenLk):  # 两层循环比较Lk中的每个元素与其它元素

        for j in range(i + 1, lenLk):

            L1 = list(Lk[i])[:k - 2]  # 将集合转为list后取值

            L2 = list(Lk[j])[:k - 2]

            # print("L1:",L1,"L2",L2)

            L1.sort()

            L2.sort()  # 这里说明一下：该函数每次比较两个list的前k-2个元素，如果相同则求并集得到k个元素的集合

            if L1 == L2:

                retList.append(Lk[i] | Lk[j])  # 求并集

            # print("retList:", retList)

    return retList  # 返回频繁项集列表Ck

# 封装所有步骤的函数

# 返回 所有满足大于阈值的组合 集合支持度列表

def apriori(dataSet, minSupport=0.5):

    D = list(map(set, dataSet))  # 转换列表记录为字典  [{1, 3, 4}, {2, 3, 5}, {1, 2, 3, 5}, {2, 5}]

    C1 = createC1(

        dataSet)  # 将每个元素转会为frozenset字典    [frozenset({1}), frozenset({2}), frozenset({3}), frozenset({4}), frozenset({5})]

    L1, supportData = scanD(D, C1, minSupport)  # 过滤数据

    L = [L1]

    k = 2

    while (len(L[k - 2]) > 0):  # 若仍有满足支持度的集合则继续做关联分析

        Ck = aprioriGen(L[k - 2], k)  # Ck候选频繁项集

        Lk, supK = scanD(D, Ck, minSupport)  # Lk频繁项集

        supportData.update(supK)  # 更新字典（把新出现的集合:支持度加入到supportData中）

        L.append(Lk)

        k += 1  # 每次新组合的元素都只增加了一个，所以k也+1（k表示元素个数）

    return L, supportData

# dataSet = loadDataSet()

# L, suppData = apriori(dataSet)

# print(L)

# print(suppData)

# 获取关联规则的封装函数

def generateRules(L, supportData, minConf=0.7):  # supportData 是一个字典

    bigRuleList = []

    for i in range(1, len(L)):  # 从为2个元素的集合开始

        for freqSet in L[i]:

            # 只包含单个元素的集合列表

            H1 = [frozenset([item]) for item in freqSet]  # frozenset({2, 3}) 转换为 [frozenset({2}), frozenset({3})]

            # 如果集合元素大于2个，则需要处理才能获得规则

            if (i > 1):

                rulesFromConseq(freqSet, H1, supportData, bigRuleList, minConf)  # 集合元素 集合拆分后的列表 。。。

            else:

                calcConf(freqSet, H1, supportData, bigRuleList, minConf)

    return bigRuleList

# 对规则进行评估 获得满足最小可信度的关联规则

def calcConf(freqSet, H, supportData, brl, minConf=0.7):

    prunedH = []  # 创建一个新的列表去返回

    for conseq in H:

        conf = supportData[freqSet] / supportData[freqSet - conseq]  # 计算置信度

        if conf >= minConf:

            print(freqSet - conseq, '-->', conseq, 'conf:', conf)

            brl.append((freqSet - conseq, conseq, conf))

            prunedH.append(conseq)

    return prunedH

# 生成候选规则集合

def rulesFromConseq(freqSet, H, supportData, brl, minConf=0.7):

    m = len(H[0])

    if (len(freqSet) > (m + 1)):  # 尝试进一步合并

        Hmp1 = aprioriGen(H, m + 1)  # 将单个集合元素两两合并

        Hmp1 = calcConf(freqSet, Hmp1, supportData, brl, minConf)

        if (len(Hmp1) > 1):  # need at least two sets to merge

            rulesFromConseq(freqSet, Hmp1, supportData, brl, minConf)

dataSet = loadDataSet()

L, suppData = apriori(dataSet, minSupport=0.5)

print(L)

print(suppData)

rules = generateRules(L, suppData, minConf=0.7)

# rules = generateRules(L,suppData,minConf=0.5)

print(rules)

【转载】Apriori的更多相关文章

【数据挖掘】关联分析之Apriori（转载）
[数据挖掘]关联分析之Apriori 1.Apriori算法如果一个事务中有X,则该事务中则很有可能有Y,写成关联规则 {X}→{Y} 将这种找出项目之间联系的方法叫做关联分析.关联分析中最有名的问 ...
Android源码目录结构详解（转载）
转自:http://blog.csdn.net/xiangjai/article/details/9012387 在学习Android的过程中,学习写应用还好,一开始不用管太多代码,直接调用函数就可以 ...
频繁模式挖掘apriori算法介绍及Java实现
频繁模式是频繁地出如今数据集中的模式(如项集.子序列或者子结构).比如.频繁地同一时候出如今交易数据集中的商品(如牛奶和面包)的集合是频繁项集. 一些基本概念支持度:support(A=>B) ...
Apriori算法Python实现
Apriori如果数据挖掘算法的头发模式挖掘鼻祖,从60年代开始流行,该算法非常简单朴素的思维.首先挖掘长度1频繁模式,然后k=2 这些频繁模式的长度合并k频繁模式.计算它们的频繁的数目,并确保其充分 ...
WEKA使用教程(经典教程转载)
http://blog.csdn.net/yangliuy/article/details/7589306 WEKA使用教程(经典教程转载) 标签: lift算法csv数据挖掘class任务 2012 ...
Apriori算法第二篇----详细分析和代码实现
1 Apriori介绍 Apriori算法使用频繁项集的先验知识,使用一种称作逐层搜索的迭代方法,k项集用于探索(k+1)项集.首先,通过扫描事务(交易)记录,找出所有的频繁1项集,该集合记做L1,然 ...
Apriori算法原理总结
Apriori算法是常用的用于挖掘出数据关联规则的算法,它用来找出数据值中频繁出现的数据集合,找出这些集合的模式有助于我们做一些决策.比如在常见的超市购物数据集,或者电商的网购数据集中,如果我们找到了 ...
[机器学习] Apriori算法
适用场合 Apriori算法包含两部分内容:1,发现频繁项集 2,挖掘关联规则. 通俗地解释一下,就是这个意思:1.发现哪些项目常常同时出现 2.挖掘这些常常出现的项目是否存在“如果A那么B”的关系. ...
【机器学习实战】第11章使用 Apriori 算法进行关联分析
第 11 章使用 Apriori 算法进行关联分析关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出 ...

随机推荐

Vue 网站首页加载优化
Vue 网站首页加载优化本篇主要讲解 Vue项目打包后 vendor.js 文件很大如何对它进行优化以及开启Vue的压缩和 nginx gzip 压缩的使用, 其他就是对接口优化等 1. v ...
firewalld和iptables区别
在RHEL7里有几种防火墙共存:firewalld.iptables.ebtables,默认是使用firewalld来管理netfilter子系统,不过底层调用的命令仍然是iptables等. fir ...
Docker学习：（一）初识Docker
Docker(容器虚拟化技术)要点(秒级启动) Docker的WWH公式学习 What[是什么]. Why[为什么要用它]. How[怎么用] 1.Docker简介 (1)问题:为什么会有docker ...
微信小程序适配iPhone X
1.获取设备型号 App({ // 全局数据 globalData: { // 其他数据定义 ... isIPX: false, // 当前设备是否为 iPhone X }, // 小程序启动入口 o ...
多测师讲解接口测试 _fiddler无法打开浏览器_高级讲师肖sir
错误现象: 打开fi'd'dler以后浏览器无法打开,关闭fiddler之后可以打开浏览器解决方案: 1. 2. 在点击确定
Git的介绍以及安装
Git的简单介绍 Git是一个开源的分布式版本控制系统,可以有效,高速的处理从很小到非常大的项目管理,GIT是为了帮助linux内核开发而开发的一个开放源码的版本控制软件 Git的安装 Linux平台 ...
day42 Pyhton 并发编程05
一.内容回顾 # 线程 # 正常的编程界: # 进程 # 计算机中最小的资源分配单位 # 数据隔离 # 进程可以独立存在 # 创建与销毁还有切换都慢给操作系统压力大 # 线程 # 计算机中能被C ...
Android Jetpack从入门到精通（深度好文，值得收藏）
前言即学即用Android Jetpack系列Blog的目的是通过学习Android Jetpack完成一个简单的Demo,本文是即学即用Android Jetpack系列Blog的第一篇. 记得去 ...
C/C++编程日记：用C语言实现的简单Web服务器(Linux)，全代码分享！
相信大家对Apache都有所听闻,Apache是目前使用最为广泛我Web服务器.大家可以从news.netcraft.com/这个网站得到证实. 这是腾讯的uptime.netcraft.com/up ...
2.通过QOpenGLWidget绘制三角形
参考:1.opengl绘制三角形 1.QOpenGLWidget的早先版本 QGLWidget是遗留Qt OpenGL模块的一部分,和其他QGL类一样,应该在新的应用程序中避免使用.相反,从Qt 5. ...

【转载】Apriori

【转载】Apriori的更多相关文章

随机推荐

热门专题