R语言关联规则

在用R语言做关联规则分析之前，我们先了解下关联规则的相关定义和解释。

关联规则的用途是从数据背后发现事物之间可能存在的关联或者联系，是无监督的机器学习方法，用于知识发现，而非预测。

关联规则挖掘过程主要包含两个阶段：第一阶段从资料集合中找出所有的高频项目组，第二阶段再由这些高频项目组中产生关联规则。

接下来，我们了解下关联规则的两个主要参数：支持度和置信度。

用简化的方式来理解这两个指标，支持度是两个关联物品同时出现的概率，而置信度是当一物品出现，则另一个物品也出现的概率。

假如有一条规则：牛肉—>鸡肉，那么同时购买牛肉和鸡肉的顾客比例是3/7，而购买牛肉的顾客当中也购买了鸡肉的顾客比例是3/4。这两个比例参数是很重要的衡量指标，它们在关联规则中称作支持度（support）和置信度（confidence）。对于规则：牛肉—>鸡肉，它的支持度为3/7，表示在所有顾客当中有3/7同时购买牛肉和鸡肉，其反应了同时购买牛肉和鸡肉的顾客在所有顾客当中的覆盖范围；它的置信度为3/4，表示在买了牛肉的顾客当中有3/4的人买了鸡肉，其反应了可预测的程度，即顾客买了牛肉的话有多大可能性买鸡肉。

关联规则算法中最常用是Apriori算法。

下面我们用R来做个关联规则的算法实例。在R中有一个arules包，我们可以用数据集Groceries作为实例。

library(arules)

data(Groceries)  #加载数据集

inspect(Groceries) #查看数据内容

做完基础动作后，我们就需要求频繁项集，即满足最小支持度的关联关系数据子集数量。

freq=eclat(Groceries,parameter = list(support=0.05,maxlen=10))

inspect(freq) #查看频繁项集情况

' items support

[1] {whole milk,yogurt} 0.05602440

[2] {whole milk,rolls/buns} 0.05663447

[3] {other vegetables,whole milk} 0.07483477

[4] {whole milk} 0.25551601

[5] {other vegetables} 0.19349263

[6] {rolls/buns} 0.18393493

[7] {yogurt} 0.13950178

[8] {soda} 0.17437722

[9] {root vegetables} 0.10899847

[10] {tropical fruit} 0.10493137

[11] {bottled water} 0.11052364

[12] {sausage} 0.09395018

[13] {shopping bags} 0.09852567

[14] {citrus fruit} 0.08276563

[15] {pastry} 0.08896797

[16] {pip fruit} 0.07564820

[17] {whipped/sour cream} 0.07168277

[18] {fruit/vegetable juice} 0.07229283

[19] {domestic eggs} 0.06344687

[20] {newspapers} 0.07981698

[21] {butter} 0.05541434

[22] {margarine} 0.05856634

[23] {brown bread} 0.06487036

[24] {bottled beer} 0.08052872

[25] {frankfurter} 0.05897306

[26] {pork} 0.05765125

[27] {napkins} 0.05236401

[28] {curd} 0.05327911

[29] {beef} 0.05246568

[30] {coffee} 0.05805796

[31] {canned beer} 0.07768175'

从结果来看，总共有31个频繁项集，其中有很多只有一个条目的内容,最小支持度可能太大了。

接下来我们选择小一点的支持度，利用Apriori函数建立模型

model<-apriori(Groceries,parameter=list(support=0.01,confidence=0.5))

summary(model)

set of 15 rules

rule length distribution (lhs + rhs):sizes

3

15

Min. 1st Qu. Median Mean 3rd Qu. Max.

3 3 3 3 3 3

summary of quality measures:

support confidence lift

Min. :0.01007 Min. :0.5000 Min. :1.984

1st Qu.:0.01174 1st Qu.:0.5151 1st Qu.:2.036

Median :0.01230 Median :0.5245 Median :2.203

Mean :0.01316 Mean :0.5411 Mean :2.299

3rd Qu.:0.01403 3rd Qu.:0.5718 3rd Qu.:2.432

Max. :0.02227 Max. :0.5862 Max. :3.030

mining info:

data ntransactions support confidence

Groceries 9835 0.01 0.5

接下来查看，具体的规则内容

inspect(model)

< lhs rhs support

[1] {curd,yogurt} => {whole milk} 0.01006609

[2] {other vegetables,butter} => {whole milk} 0.01148958

[3] {other vegetables,domestic eggs} => {whole milk} 0.01230300

[4] {yogurt,whipped/sour cream} => {whole milk} 0.01087951

[5] {other vegetables,whipped/sour cream} => {whole milk} 0.01464159

[6] {pip fruit,other vegetables} => {whole milk} 0.01352313

[7] {citrus fruit,root vegetables} => {other vegetables} 0.01037112

[8] {tropical fruit,root vegetables} => {other vegetables} 0.01230300

[9] {tropical fruit,root vegetables} => {whole milk} 0.01199797

[10] {tropical fruit,yogurt} => {whole milk} 0.01514997

[11] {root vegetables,yogurt} => {other vegetables} 0.01291307

[12] {root vegetables,yogurt} => {whole milk} 0.01453991

[13] {root vegetables,rolls/buns} => {other vegetables} 0.01220132

[14] {root vegetables,rolls/buns} => {whole milk} 0.01270971

[15] {other vegetables,yogurt} => {whole milk} 0.02226741

confidence lift

[1] 0.5823529 2.279125

[2] 0.5736041 2.244885

[3] 0.5525114 2.162336

[4] 0.5245098 2.052747

[5] 0.5070423 1.984385

[6] 0.5175097 2.025351

[7] 0.5862069 3.029608

[8] 0.5845411 3.020999

[9] 0.5700483 2.230969

[10] 0.5173611 2.024770

[11] 0.5000000 2.584078

[12] 0.5629921 2.203354

[13] 0.5020921 2.594890

[14] 0.5230126 2.046888

[15] 0.5128806 2.007235>

我们可以按照支持度对各关联规则进行排名后进行查看

inspect(sort(model,by="support")[1:10])

< lhs rhs support

[1] {other vegetables,yogurt} => {whole milk} 0.02226741

[2] {tropical fruit,yogurt} => {whole milk} 0.01514997

[3] {other vegetables,whipped/sour cream} => {whole milk} 0.01464159

[4] {root vegetables,yogurt} => {whole milk} 0.01453991

[5] {pip fruit,other vegetables} => {whole milk} 0.01352313

[6] {root vegetables,yogurt} => {other vegetables} 0.01291307

[7] {root vegetables,rolls/buns} => {whole milk} 0.01270971

[8] {other vegetables,domestic eggs} => {whole milk} 0.01230300

[9] {tropical fruit,root vegetables} => {other vegetables} 0.01230300

[10] {root vegetables,rolls/buns} => {other vegetables} 0.01220132

confidence lift

[1] 0.5128806 2.007235

[2] 0.5173611 2.024770

[3] 0.5070423 1.984385

[4] 0.5629921 2.203354

[5] 0.5175097 2.025351

[6] 0.5000000 2.584078

[7] 0.5230126 2.046888

[8] 0.5525114 2.162336

[9] 0.5845411 3.020999

[10] 0.5020921 2.594890>

可以看到结果中，当购物篮中有other vegetables和yogurt两个物品时，也有whole milk的支持度最好，达到0.02。

具体的关联规则情况我们还要根据业务的实际情况进行筛选，也可以在建立关联规则模型的过程中去掉那些明显无用的规则。

比如我们要求结果中，被关联项是whole mile 同时lift值要大于2.2

inspect(subset(model,subset=rhs%in%"whole milk"&lift>=2.2))

< lhs rhs support confidence lift

[1] {curd,yogurt} => {whole milk} 0.01006609 0.5823529 2.279125

[2] {other vegetables,butter} => {whole milk} 0.01148958 0.5736041 2.244885

[3] {tropical fruit,root vegetables} => {whole milk} 0.01199797 0.5700483 2.230969

[4] {root vegetables,yogurt} => {whole milk} 0.01453991 0.5629921 2.203354>

再看结果中，只剩下4个lift值较高的关联规则。

lift=P(L,R)/(P(L)P(R)) 是一个类似相关系数的指标。lift=1时表示L和R独立。这个数越大，越表明L和R存在在一个购物篮中不是偶然现象。

R语言关联规则的更多相关文章

R语言︱关联规则+时间因素=序贯关联规则
序贯模型=关联规则+时间因素. 了解这个模型可以参考李明老师的<R语言与网站分析 [李明著][机械工业出版社][2014.04][446页]>,第九章,第二节的"序列模型关联分析 ...
[R语言]关联规则2---考虑items之间严格的时序关系
前面介绍了关联规则1---不考虑用户购买的items之间的时序关系,但在一些情况下用户购买item是有严格的次序关系了,比如在某些休闲游戏中,用户购买了道具A才能购买道具B,且道具A和B只能购买一次, ...
[R语言]关联规则1---不考虑items之间的时序关系
本文介绍的是关联规则,分为两部分:第一部分是---不考虑用户购买的items之间严格的时序关系,每个用户有一个“购物篮”,查找其中的关联规则.第二部分--- 考虑items之间的严格的时序关系来分析用 ...
大数据时代的精准数据挖掘——使用R语言
老师简介: Gino老师,即将步入不惑之年,早年获得名校数学与应用数学专业学士和统计学专业硕士,有海外学习和工作的经历,近二十年来一直进行着数据分析的理论和实践,数学.统计和计算机功底强悍. 曾在某一 ...
关联规则-R语言实现
关联规则code{white-space: pre;} pre:not([class]) { background-color: white; }if (window.hljs && ...
R语言实现关联规则与推荐算法(学习笔记)
R语言实现关联规则笔者前言:以前在网上遇到很多很好的关联规则的案例,最近看到一个更好的,于是便学习一下,写个学习笔记. 1 1 0 0 2 1 1 0 0 3 1 1 0 1 4 0 0 0 0 5 ...
python调用R语言，关联规则可视化
首先当然要配置r语言环境变量什么的 D:\R-3.5.1\bin\x64; D:\R-3.5.1\bin\x64\R.dll;D:\R-3.5.1;D:\ProgramData\Anaconda3\L ...
R语言书籍的学习路线图
现在对R感兴趣的人越来越多,很多人都想快速的掌握R语言,然而,由于目前大部分高校都没有开设R语言课程,这就导致很多人不知道如何着手学习R语言. 对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑 ...
R 语言的优劣势是什么？
R 语言的优劣势是什么? 2015-05-27 程序员大数据小分析 R,不仅仅是一种语言本文原载于<程序员>杂志2010年第8期,因篇幅所限,有所删减,这里刊登的是全文. 工欲善其 ...

随机推荐

读书笔记—CLR via C#字符串及文本
前言这本书这几年零零散散读过两三遍了,作为经典书籍,应该重复读反复读,既然我现在开始写博了,我也准备把以前觉得经典的好书重读细读一遍,并且将笔记整理到博客中,好记性不如烂笔头,同时也在写的过程中也可 ...
Zabbix监控系统功能及基本使用
一.Zabbix基本介绍: zabbix是一个基于WEB界面的提供分布式系统监视以及网络监视功能的企业级的开源解决方案.它能监视各种网络参数,保证服务器系统的安全运营:并提供柔软的通知机制以让系 ...
avalon1.0正式发布
2013年最后的收成:avalon1.0正式发布大半年前我就说过,MVVM是前端究极的解决方案,因此之后我大多数时间都在折腾avalon,成立了专门的QQ群与感兴趣的一起讨论.感谢第一批吃螃蟹的人, ...
linux时间校准设置，解决与本地时间不一致问题
时间安装脚本从NTP上把时间同步到本地 cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime 更新本地时间 ntpdate us.pool.nt ...
Microsoft Push Notification Service（MPNS）的最佳体验
如何获得 Microsoft Push Notification Service(MPNS)的最佳体验有很多同学抱怨MPNS的各种问题,其中包括服务超时.返回各种错误代码不知如何处理等等..今天我用 ...
centos安装svn
原文链接:http://blog.csdn.net/liuyuan_jq/article/details/2110814 1.SVN简介由于前些年在版本的管理上采用的都是CVS系统,总体上而言还是很优 ...
rabbitmq在mac上安装
1.安装brew 打开http://bash.sh 执行 ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/ ...
cooking eggs
1: what is egg? what's the shape of it in details? 2: can egg run like this http://item.taobao.com/i ...
异步队列 Deferred
异步队列 Deferred 背景: 移动web app开发,异步代码是时常的事,比如有常见的异步操作: Ajax(XMLHttpRequest) Image Tag,Script Tag,iframe ...
关于ActiveMQ的一点总结
ActiveMQ入门作者:一路向北摘要:本文主要讲述ActiveMQ的基本知识和使用方法,并简单结合spring使用ActiveMQ. 一.ActiveMQ特性和使用总览企业消息软件从80年代起 ...

R语言 关联规则

R语言 关联规则的更多相关文章

随机推荐

热门专题

R语言关联规则

R语言关联规则的更多相关文章