一、 Apriori关联分析概述

选择物品之间的关联规则也就是要找出物品之间的关系，要找到这种关系有两步

找出频繁一起出现的物品集的集合，我们称之为频繁项集，比如一个超市的频繁项集可能有{{啤酒，尿布}{鸡蛋，牛奶}{香蕉，苹果}}
在频繁项集的基础上，使用关联规则算法找出其中的关联结果

也就是先找到频繁项集，再根据关联规则再找出关联物品

二、关联分析的几个概念

这里有一份交易记录

编号 0 1 2 3 4 5

购买商品集合 {牛奶，洋葱，豆蔻，芸豆，鸡蛋，酸奶} ，{菠萝，洋葱，豆蔻，芸豆，鸡蛋，酸奶}，{牛奶，独角兽，玉米，酸奶}，{玉米，洋葱，洋葱，鸡蛋}

2.1 关键概念

支持度：支持度可以理解为商品的流行程度

支持度 = （包含物品A的记录数） / (总的记录数）

用上面的例子举例，一共有5次交易，牛奶出现在3次交易中，故牛奶的支持度3/5

置信度置信度是指如果购买A，则有较大可能性购买B

置信度 (A>B) = （包含物品A和B的记录数量）/（包含A的数量）

举例：我们已经知道，（牛奶，鸡蛋）一起购买的次数是两次，鸡蛋购买次数是4次，那么confidence(牛奶> 鸡蛋）的记录就是2/4

提升度：提升度指当销售一个物品时，另一个物品的销售率会增加多少，计算方式是：

提升度（A>B) = 置信度 (A>B)/支持度A

当提升度大于1的时候，表示A卖的越多，B也会卖的越多。提升度等于1表示产品A和B没有关联。最后提升度小于1则意味着购买A 反而会减少B的购买

举例：上面我们说的牛奶和鸡蛋的置信度是2/4，牛奶的支持度是3/5，那么就能计算出牛奶和鸡蛋的支持度0.83

2.2 关联规则

如果一个关联结果的置信度低，那么所有超集的置信度也低

Apriori算法介绍

支持度越高，物品越受欢迎，那么支持度是怎么决定的呢，这个是我们主观决定的，我们会给Apriori提供一个最小支持度参数，然后Apriori会返回比这个最小支持度高的那些频繁项集

利用一个思想加速运算：如果一个项集子集是不频繁的，那么他的超集也都是不频繁的，例如如果发现项集{A,B}是非频繁的，那么他所组成的超集也是非频繁的{A, B, C}, {A, B, D} 等等我们就可以去忽略不计了

三、 Apriori算法流程

要用Apriori算法，我们需要提供两个参数：数据集和最小支持度，Aprori算法会通过递归遍历所有的数据集组合，先遍历一个物品组合的情况，剔除掉支持度低于最小支持度的数据项，然后用剩下的物品进行组合，遍历两个物品组合的情况，再剔除不满足条件的组合。不断递归下去，直到不再有物品可以递归组合。

# def apriori(df, min_support=0.5,use_colnames=False, max_len=None)

# df 数据集

# min_support 给定的最小支持度

# use_colnames 默认为false,返回物品编号的组合显示，为True的话直接显示物品名称

# max_len 最大物品组合数，默认为NOne,不做限制。如果只想返回两个物品组合的话，便将这个设置为2

import pandas as pd

from mlxtend.preprocessing import TransactionEncoder

from mlxtend.frequent_patterns import apriori

# 设置数据集

dataset = [['牛奶','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],

        ['莳萝','洋葱','肉豆蔻','芸豆','鸡蛋','酸奶'],

        ['牛奶','苹果','芸豆','鸡蛋'],

        ['牛奶','独角兽','玉米','芸豆','酸奶'],

        ['玉米','洋葱','洋葱','芸豆','冰淇淋','鸡蛋']]

te = TransactionEncoder()

# 进行onehot编码

te_any = te.fit(dataset).transform(dataset)

df = pd.DataFrame(te_any, columns= te.columns_)

df

# 利用Aprori算法找出频繁项集

freq = apriori(df, min_support=0.6, use_colnames=True)

from mlxtend.frequent_patterns import association_rules

result = association_rules(freq, metric='confidence',min_threshold=0.6)

result.sort_values(by='confidence',ascending=False).head(10)

Apriori关联分析详解的更多相关文章

Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
Memcache的使用和协议分析详解
Memcache的使用和协议分析详解作者:heiyeluren博客:http://blog.csdn.NET/heiyeshuwu时间:2006-11-12关键字:PHP Memcache Linu ...
wav文件格式分析详解
wav文件格式分析详解文章转载自:http://blog.csdn.net/BlueSoal/article/details/932395 一.综述 WAVE文件作为多媒体中使用的声波文件格式 ...
线程组ThreadGroup分析详解多线程中篇（三）
线程组,顾名思义,就是线程的组,逻辑类似项目组,用于管理项目成员,线程组就是用来管理线程. 每个线程都会有一个线程组,如果没有设置将会有些默认的初始化设置而在java中线程组则是使用类ThreadG ...
HanLP中人名识别分析详解
HanLP中人名识别分析详解在看源码之前,先看几遍论文<基于角色标注的中国人名自动识别研究> 关于命名识别的一些问题,可参考下列一些issue: l ·名字识别的问题 #387 l ·机 ...
第十四篇：Apriori 关联分析算法原理分析与代码实现
前言想必大家都听过数据挖掘领域那个经典的故事 - "啤酒与尿布" 的故事. 那么,具体是怎么从海量销售信息中挖掘出啤酒和尿布之间的关系呢? 这就是关联分析所要完成的任务了. 本文 ...
深入浅出Apriori关联分析算法（一）
在美国有这样一家奇怪的超市,它将啤酒与尿布这样两个奇怪的东西放在一起进行销售,并且最终让啤酒与尿布这两个看起来没有关联的东西的销量双双增加.这家超市的名字叫做沃尔玛. 你会不会觉得有些不可思议?虽然事 ...
Python --深入浅出Apriori关联分析算法（二） Apriori关联规则实战
上一篇我们讲了关联分析的几个概念,支持度,置信度,提升度.以及如何利用Apriori算法高效地根据物品的支持度找出所有物品的频繁项集. Python --深入浅出Apriori关联分析算法(一) 这次 ...
GC日志分析详解
点击返回上层目录原创声明:作者:Arnold.zhao 博客园地址:https://www.cnblogs.com/zh94 GC日志分析详解以ParallelGC为例,YoungGC日志解释如下 ...

随机推荐

Nginx的安装及配置
1.概述 Nginx是开源免费的一款轻量级的Web 服务器/反向代理服务器及电子邮件(IMAP/POP3)代理服务器.其特点是占有内存少,并发能力强,使用nginx网站用户有很多,如百 ...
关于华为模拟器eNSP-防火墙USG6000V怎么重装镜像
一.首先关闭eNSP软件二.打开Oracle VM VirtualBox 三.单击VirtualBox “管理 - 虚拟介质管理”,将vfw_usg.vdi下面的子链接释放然后删除四.最后回到主界 ...
Highlight List View Objects 突出显示列表视图对象
In this lesson, you will learn how to format data that satisfies the specified criteria. For this pu ...
VS2017无法打开Razor视图文件提示:引发类型"System.Exception"异常
背景介绍由于电脑装了R#(吃内存大户),导致VS2017打开项目慢以及卡顿,因此在扩展和更新这个功能里面将没用的插件关闭了,导致.NET CORE的Razor视图文件打不开(真心是一脸懵逼,关个插件 ...
(办公)记事本_Linux的In命令
参考菜鸟教程Linux:https://www.runoob.com/linux/linux-comm-ln.html linux的ln命令. Linux ln命令是一个非常重要命令,它的功能是为某一 ...
office2019专业版激活秘钥激活码
office2019专业版激活码激活秘钥 2019年5月更新 [Key]:F4QWT-NMMKH-XPTV9-W9HFB-B4JCQ [剩余次数:900000+] office2019激活产品秘钥 ...
SpringSession header/cookie/attribute存放 session id
SpringSession header/cookie/attribute存放 SessionID(死磕) 疯狂创客圈 Java 高并发[ 亿级流量聊天室实战]实战系列 [博客园总入口 ] 架构师成长 ...
批量群发，营销必备！Python代码实现自动发送邮件！
在运维开发中,使用 Python 发送邮件是一个非常常见的应用场景.今天一起来探讨一下,GitHub 的大牛门是如何使用 Python 封装发送邮件代码的. 一般发邮件方法 SMTP是发送邮件的协议, ...
Xmind软件——xmind 8 pro下载激活推荐！！
亲测有效,在csdn上找到一个. 下载激活xmind 8 pro链接
架构组件：基于Shard-Jdbc分库分表，数据库扩容方案
本文源码:GitHub·点这里 || GitEE·点这里一.数据库扩容 1.业务场景互联网项目中有很多"数据量大,业务复杂度高,需要分库分表"的业务场景. 这样分层的架构 (1 ...

Apriori关联分析详解