购物篮算法的理解-基于R的应用

是无监督机器学习方法，用于知识发现，而非预测，无需事先对训练数据进行打标签，因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估，一般都可以通过肉眼观测结果是否合理。

一，概念术语

1，项集itermset

如上每个{ }内的都称为一个项集，LHS,RHS成为左右项集，他们之间不能有重复值交集

2，支持度support

项集的支持度就是该项集出现的次数除以总的记录数（交易数），意义是要统计出频繁项集

3，置信度confidence

关联规则 X -> Y 的置信度计算公式

规则的置信度的意义在于项集{X，Y}同时出现的次数占项集{X}出现次数的比例。发生X的条件下，又发生Y的概率。条件概率

4，提升度 Lift

关联概率准比上原始概率得出，如果提升度很小的值说明关联出来的概率还不如原始概率跟高效，更有说服力，一般的提升度大于3认为会认为挖掘推荐更有意义。

二，生成规则

一般两步：

第一步，找出频繁项集。n个item，可以产生2^n- 1 个项集（itemset）。所以，需要指定最小支持度，用于过滤掉非频繁项集。
第二部，找出第一步的频繁项集中的规则。n个item，总共可以产生3^n - 2^(n+1) + 1条规则。所以，需要指定最小置信度，用于过滤掉弱规则。

第一步的计算量比第二部的计算量大。

三，Apriori算法

需要加载R里面arules，没有的话自行安装下

源数据：groceries 数据集，每一行代表一笔交易所购买的产品（item）

数据转换：创建稀疏矩阵，每个Item一列，每一行代表一个transaction。1表示该transaction购买了该item，0表示没有购买，arules包的函数read.transactions可以读入源数据并创建稀疏矩阵。

groceries <- read.transactions("data.csv", sep = ",")

data.csv的数据类似如下：

在R语言里面查看这个groceries:

生成规则，共463条

查看具体规则：

按照指定排序来查看规则：

（按照lift排序）

（搜索verries)

可以把过滤好的数据存到csv格式

write(groceryrules, file = "groceryrules.csv",sep = ",", quote = TRUE, row.names = FALSE)

购物篮算法的理解-基于R的应用的更多相关文章

机器学习-K-means聚类及算法实现（基于R语言）
K-means聚类将n个观测点,按一定标准(数据点的相似度),划归到k个聚类(用户划分.产品类别划分等)中. 重要概念:质心 K-means聚类要求的变量是数值变量,方便计算距离. 算法实现 R语言 ...
数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）
在各种数据挖掘算法中,关联规则挖掘算是比較重要的一种,尤其是受购物篮分析的影响,关联规则被应用到非常多实际业务中,本文对关联规则挖掘做一个小的总结. 首先,和聚类算法一样,关联规则挖掘属于无监督学习方 ...
R语言和数据分析十大：购物篮分析
提到数据挖掘,我们的第一个反应是之前的啤酒和尿布的故事听说过,这个故事是一个典型的数据挖掘关联规则.篮分析的传统线性回归之间的主要差别的差别,对于离散数据的相关性分析: 常见的关联规则: 关联规则:牛 ...
数据算法 --hadoop/spark数据处理技巧 --（5.移动平均 6. 数据挖掘之购物篮分析MBA）
五.移动平均多个连续周期的时间序列数据平均值(按相同时间间隔得到的观察值,如每小时一次或每天一次)称为移动平均.之所以称之为移动,是因为随着新的时间序列数据的到来,要不断重新计算这个平均值,由于会删 ...
Apriori算法在购物篮分析中的运用
购物篮分析是一个很经典的数据挖掘案例,运用到了Apriori算法.下面从网上下载的一超市某月份的数据库,利用Apriori算法进行管理分析.例子使用Python+MongoDB 处理过程1 数据建模( ...
购物篮模型&Apriori算法
一.频繁项集若I是一个项集,I的支持度指包含I的购物篮数目,若I的支持度>=S,则称I是频繁项集.其中,S是支持度阈值. 1.应用 "尿布和啤酒" 关联概念:寻找多篇文章中 ...
微信小程序——智能小秘“遥知之”源码分享（语义理解基于olami）
微信小程序智能生活小秘书开发详解 >>>>>>>>>>>>>>>>>>>>> ...
统计学习导论：基于R应用——第二章习题
目前在看统计学习导论:基于R应用,觉得这本书非常适合入门,打算把课后习题全部做一遍,记录在此博客中. 第二章习题 1. (a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高 ...
基于R树索引的点面关系判断以及效率优化统计
文章版权由作者李晓晖和博客园共有,若转载请于明显处标明出处:http://www.cnblogs.com/naaoveGIS/ 1.背景在之前的博客中,我分别介绍了基于网格的空间索引(http:// ...

随机推荐

201521123116 《java程序设计》第十二周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结多流与文件相关内容. 2. 书面作业 Q1.字符流与文本文件:使用 PrintWriter(写),BufferedReader(读) ...
Markdown例
一个例子: 例子开始 1. 本章学习总结今天主要学习了三个知识点封装继承多态 2. 书面作业 Q1. java HelloWorld命令中,HelloWorld这个参数是什么含义? 今天学了一 ...
从instr中截取第一个delimiter之前的内容放到outstr中，返回第一个delimiter之后的位置
从instr中截取第一个delimiter之前的内容放到outstr中,返回第一个delimiter之后的位置 char *msstrtok(char *instr, char *outstr, ch ...
Spring第五篇【cglib、手动实现AOP编程】
前言到目前为止,已经简单学习了Spring的Core模块.也会怎么与Struts2框架进行整合了-.于是我们就开启了Spring的AOP模块了-在讲解AOP模块之前,首先我们来讲解一下cglib代理 ...
Oracle-一个中文汉字占几个字节?
Oracle 一个中文汉字占用几个字节 Oracle 一个中文汉字占用几个字节,要根据Oracle中字符集编码决定!!! 1. 如果定义为VARCHAR2(32 CHAR),那么该列最多就可以存储3 ...
Oracle存储过程经典入门
ok基本就这些介绍
去掉 Warning:$HADOOP_HOME is deprecated
修改配置文件/etc/profile,增加环境变量HADOOP_HOME_WARN_SUPPRESS=1, 保存退出,再次启动hadoop,就不会出现警告信息了
使用Spring的隐式注解和装配以及使用SpringTest框架
SpringTestConfiguration 1.加入jar 包spring-test-4.3.9.RELEASE.jar 2.写基本的Component 注意级联状态下需要给需要调用的属性加入 ...
翻译连载 | 第 9 章：递归（下）－《JavaScript轻量级函数式编程》 |《你不知道的JS》姊妹篇
原文地址:Functional-Light-JS 原文作者:Kyle Simpson-<You-Dont-Know-JS>作者关于译者:这是一个流淌着沪江血液的纯粹工程:认真,是 HTM ...
如何用Python脚本从文件读取数据？
最近自学Python的进度比较慢,工作之余断断续续的看着效率比较低,看来还是要狠下心来每天进步一点点. 还记得前段时间陈大猫提了一口"先实现用python读取本地文件",碰巧今天看 ...

购物篮算法的理解-基于R的应用

购物篮算法的理解-基于R的应用的更多相关文章

随机推荐

热门专题