关联分析---Apriori

关联分析是一种在大规模数据集中寻找有趣关系的任务，这些关系有两种形式：频繁项集和关联规则。频繁项集是经常出现在一起的物品的集合，关联规则暗示两种物品之间可能存在的很强的关系。

如何寻找数据集中的频繁或关联关系呢？主要是通过支持度和可信度。

一个项集的支持度被定义为数据集中包含该项集的记录所占的比例。

可信度是针对关联规则来定义的，比如规则A->B的可信度为：支持度{A,B} / 支持度{A}

支持度和可信度是用来量化关联分析是否成功的方法。

Apriori原理：

要计算某个项集在数据集的支持度，需要大量的计算。一个有N个数据的集合共有2^N-1种项集的组合，即N=100的数据集可能有2¹⁰⁰-1中项集的组合，对于普通的计算机而言，需要很长的时间才能完成运算。

为了降低所需的计算时间，通常采用采用Apriori原理，来减少可能感兴趣的项集。

Apriori在拉丁语中指“来自以前”， Apriori原理：如果某个项集是频繁的，那么它的所有子集也是频繁的；如果一个项集是非频繁集，那么它的所有超集也是非频繁的。

比如，一旦计算出{2,3}的支持度，知道它是非频繁的项集，则可推出{1,2,3}，{0,2,3}等包含{2,3}的项集也是非频繁的，就不需要再进行计算支持度了。

使用该原理就可以避免项集数据的指数增长，从而在合理的时间内计算出频繁项集。

使用Apriori算法来发现频繁集：

def loadDataSet():

    return [[1, 3, 4], [2, 3, 5], [1, 2, 3, 5], [2, 5]]

def createC1(dataSet):

    C1 = []

    for transaction in dataSet:

        for item in transaction:

            if not [item] in C1:

                C1.append([item])

    C1.sort()

    return map(frozenset, C1)#use frozen set so we

                            #can use it as a key in a dict    

def scanD(D, Ck, minSupport):

    ssCnt = {}

    for tid in D:

        for can in Ck:

            if can.issubset(tid):

                if not ssCnt.has_key(can): ssCnt[can]=1

                else: ssCnt[can] += 1

    numItems = float(len(D))

    retList = []

    supportData = {}

    for key in ssCnt:

        support = ssCnt[key]/numItems

        if support >= minSupport:

            retList.insert(0,key)

        supportData[key] = support

    return retList, supportData

def aprioriGen(Lk, k): #creates Ck

    retList = []

    lenLk = len(Lk)

    for i in range(lenLk):

        for j in range(i+1, lenLk):

            L1 = list(Lk[i])[:k-2]; L2 = list(Lk[j])[:k-2]

            L1.sort(); L2.sort()

            if L1==L2: #if first k-2 elements are equal

                retList.append(Lk[i] | Lk[j]) #set union

    return retList

def apriori(dataSet, minSupport = 0.5):

    C1 = createC1(dataSet)

    D = map(set, dataSet)

    L1, supportData = scanD(D, C1, minSupport)

    L = [L1]

    k = 2

    while (len(L[k-2]) > 0):

        Ck = aprioriGen(L[k-2], k)

        Lk, supK = scanD(D, Ck, minSupport)#scan DB to get Lk

        supportData.update(supK)

        L.append(Lk)

        k += 1

    return L, supportData

关联分析---Apriori的更多相关文章

关联分析Apriori算法和FP-growth算法初探
1. 关联分析是什么? Apriori和FP-growth算法是一种关联算法,属于无监督算法的一种,它们可以自动从数据中挖掘出潜在的关联关系.例如经典的啤酒与尿布的故事.下面我们用一个例子来切入本文对 ...
数据挖掘-关联分析 Apriori算法和FP-growth 算法
•1.关联分析概念关联分析是从大量数据中发现项集之间有趣的关联和相关联系. •定义:1.事务:每一条交易称为一个事务,如上图包含5个事务.2.项:交易的每一个物品称为一个项,例如豆奶,啤酒等. ...
关联分析(Apriori算法)
两个概念: 频繁项集:常出现的物品集合关联分析:找到诸如:尿布-->啤酒的关联,反过来则是另一条两个控制参数: 项集的支持度(support):一个项集出现的次数在所有样本中出现的比例可信 ...
Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
机器学习实战 - 读书笔记(11) - 使用Apriori算法进行关联分析
前言最近在看Peter Harrington写的"机器学习实战",这是我的学习心得,这次是第11章 - 使用Apriori算法进行关联分析. 基本概念关联分析(associat ...
使用Apriori算法和FP-growth算法进行关联分析
系列文章:<机器学习实战>学习笔记最近看了<机器学习实战>中的第11章(使用Apriori算法进行关联分析)和第12章(使用FP-growth算法来高效发现频繁项集).正如章 ...
Apriori关联分析算法概述
概念关联分析:从大规模数据集中寻找物品间的隐含关系.物品间关系又分为两种:频繁项集或关联规则,频繁项集是经常出现一块的物品集合:关联规则则暗示物品间存在很强的联系关联评判标准:支持度和可信度.支持 ...
【机器学习实战】第11章使用 Apriori 算法进行关联分析
第 11 章使用 Apriori 算法进行关联分析关联分析关联分析是一种在大规模数据集中寻找有趣关系的任务. 这些关系可以有两种形式: 频繁项集(frequent item sets): 经常出 ...
无监督学习算法-Apriori进行关联分析
关联分析是无监督讯息算法中的一种,Apriori主要用来做_关联分析_,_关联分析_可以有两种形式:频繁项集或者关联规则.举个例子:交易订单序号商品名称 1 书籍,电脑 2 杯子,手机,手机壳, ...

随机推荐

ACM ICPC 2015 Moscow Subregional Russia, Moscow, Dolgoprudny, October, 18, 2015 C. Colder-Hotter
C. Colder-Hotter time limit per test 1 second memory limit per test 512 megabytes input standard inp ...
Posterior visual bounds retrieval for the Plato framework
Plato is a MVVM compliant 2D on-canvas graphics framework I've been designing and implementing for d ...
ACM: 畅通工程-并查集-解题报告
畅通工程 Time Limit:2000MS Memory Limit:32768KB 64bit IO Format:%I64d & %I64u Description 某省调查城镇交通状况 ...
Java_DES 加密和解密源码
Java密码学结构设计遵循两个原则: 1) 算法的独立性和可靠性. 2) 实现的独立性和相互作用性. 算法的独立性是通过定义密码服务类来获得.用户只需了解密码算法的概念,而不用去关心如何实现这些概念. ...
LBS基站数据解析接口
http://www.cellocation.com/interfac/#hybrid http://www.cellid.cn/ https://www.juhe.cn/docs/api/id/8
前端自动化工具 -- fis 使用简介
https://github.com/fex-team/fis FIS入门: http://fis.baidu.com/docs/beginning/getting-started.html FIS ...
1022. Digital Library (30)
A Digital Library contains millions of books, stored according to their titles, authors, key words o ...
android-Activity(四大组件之一)
一.Activity理解 1.定义: 直译为活动,是Android定义四大应用组件之一,也是最重要的用的最多的: 用来提供一个能让用户操作并与之交互的界面一个应用有多个界面也就是包含多个Activi ...
c# 哈希表跟函数
一.哈希表集合先进后出,一个一个赋值,但只能一起取值. 1.哈希表的建立.赋值以及读取. 2.利用枚举类型打印出集合中的Key值和Value值. 二.函数函数:能够独立完成某项功能的模块. 函数四 ...
UIDynamic(物理仿真)
简介什么是UIDynamic UIDynamic是从iOS 7开始引入的一种新技术,隶属于UIKit框架可以认为是一种物理引擎,能模拟和仿真现实生活中的物理现象如: 重力.弹性碰撞等现象物理引 ...

关联分析---Apriori

关联分析---Apriori的更多相关文章

随机推荐

热门专题