数据挖掘入门系列教程(四点五)之Apriori算法

Apriori(先验)算法关联规则学习的经典算法之一,用来寻找出数据集中频繁出现的数据集合。如果看过以前的博客,是不是想到了这个跟数据挖掘入门系列教程(一)之亲和性分析这篇博客很相似?Yes,的确很相似,只不过在这篇博客中,我们会更加深入的分析如何寻找可靠有效的亲和性。并在下一篇博客中使用Apriori算法去分析电影中的亲和性。这篇主要是介绍Apriori算法的流程。

频繁(项集)数据的评判标准

这个在数据挖掘入门系列教程(一)之亲和性分析这篇博客曾经提过,但在这里再重新详细的说一下。

何如判断一个数据是否是频繁?按照我们的想法,肯定是数据在数据集中出现次数的越多,则代表着这个数据出现的越频繁。

值得注意的是:在这里的数据可以是一个数据,也可以是多个数据 (项集)。

以下面这张图为例子,这张图每一列代表商品是否被购买(1代表被购买,0代表否),每一行代表一次交易记录:

常用的评估标准由支持度置信度、和提升度三个:

支持度(support):

支持度就是数据在数据集中出现的次数(也可以是次数占总数据集的比重),或者说其在数据集中出现的概率:

下面的公式以所占比例来说明:
\[
\begin{split}
& 如果是一个数据X,则其支持度为:\\
& support(X) = P(X) = \frac{num(X)}{num(ALL)} \\
& 如果数据是一个数据项集(X,Y),则支持度为:\\
& support(X,Y) = P(X,Y) = \frac{num(XY)}{num(ALL)}\\
& 如果数据是一个数据项集(X,Y,Z),则支持度为:\\
& support(X,Y,Z) = P(X,Y,Z) = \frac{num(XYZ)}{num(ALL)}\\
& (X,Y,Z代表的是X,Y,Z同时出现的次数)
\end{split}
\]
以上面的交易为例:

我们来求 (黄油,苹果) 的支持度:

(黄油,苹果) 在第0,2,3中通过出现了,一共是5条数据,因此\(support(黄油,苹果) = \frac{3}{5} = 0.6\)

一般来说,支持度高的不一定数据频繁,但是数据频繁的一定支持度高

置信度(confidence):

置信度代表的规则应验的准确性,也就是一个数据出现后,另外一个数据出现的概率,也就是条件概率。(以购买为例,就是已经购买Y的条件下,购买X的概率)公式如下:
\[
\begin{split}
& 设分析的数据是X,Y,则X对Y的置信度为:\\
& confidence(X \Leftarrow Y) = P(X|Y) = \frac{P(XY)}{P(Y)} \\
& 设分析的数据是X,Y,Z,则X对Y和Z的置信度为:\\
& confidence(X \Leftarrow YZ) = P(X|YZ) = \frac{P(XYZ)}{P(YZ)} \\
\end{split}
\]
还是以 (黄油,苹果) 为例子,计算黄油对苹果的置信度:\(confidence(黄油\Leftarrow苹果) = \frac{3}{4} = 0.75\)。

但是置信度有一个缺点,那就是它可能会扭曲关联的重要性。因为它只反应了Y的受欢迎的程度。如果X的受欢迎程度也很高的话,那么confidence也会很大。下面是数据挖掘蒋少华老师的一段为什么我们需要使用提升度的话:

提升度(Lift):

提升度表示在含有Y的条件下,同时含有X的概率,同时考虑到X的概率,公式如下:
\[
\begin{equation}
\begin{aligned}
Lift(X \Leftarrow Y) &= \frac{support(X,Y)}{support(X) \times support(Y)} \
\
&= \frac{P(X,Y)}{P(X) \times P(Y)}\\
& = \frac{P(X|Y)}{P(X)}\\
& = \frac{confidenc(X\Leftarrow Y)}{P(X)}
\end{aligned}
\end{equation}
\]
在提升度中,如果\(Lift(X \Leftarrow Y) = 1\)则表示X,Y之间相互独立,没有关联(因为\(P(X|Y) = P(X)\)),如果\(Lift(X \Leftarrow Y) > 1\)则表示\(X \Leftarrow Y\)则表示\(X \Leftarrow Y\)是有效的强关联(在购买Y的情况下很可能购买X);如果\(Lift(X \Leftarrow Y) < 1\)则表示\(X \Leftarrow Y\)则表示\(X \Leftarrow Y\)是无效的强关联。

一般来说,我们如何判断一个数据集中数据的频繁程度时使用提升度来做的。

Apriori 算法流程

说完评判标准,接下来我们说一下算法的流程(来自参考1)。

Apriori算法的目标是找到最大的K项频繁集。这里有两层意思,首先,我们要找到符合支持度标准(置信度or提升度)的频繁集。但是这样的频繁集可能有很多。第二层意思就是我们要找到最大个数的频繁集。比如我们找到符合支持度的频繁集AB和ABE,那么我们会抛弃AB,只保留ABE,因为AB是2项频繁集,而ABE是3项频繁集。

算法的流程图如下(图来自《Python数据挖掘入门与实践》):

下面是一个具体的例子来介绍(图源不知道来自哪里,很多博客都在用),这个例子是以support作为评判标准,在图中\(C_n\)代表的是备选项集,L代表的是被剪掉后的选项集,\(Min\ support = 50\%\)代表的是最小符合标准的支持度(大于它则表示频繁)。

这个例子的图像还是满生动的,很容易看的懂。下面就简单的解释一下:

首先我们有数据集D,然后生成数据项\(K =1\)的备选项集\(C_1\),然后去除\(support_n < Min\ support\)的数据项,得到\(L_1\),然后又生成数据项\(K =2\)的备选项集\(C_2\),然后又去除\(support_n < Min\ support\)的数据项。进行递归,直到无法发现新的频繁项。

结尾

总的来说,Apriori算法不是很难,算法的流程也很简单,而它的核心在于如何构建一个有效的评判标准,support?confidence?Lift?or others?但是它也有一些缺点:每次递归都需要产生大量的备选项集,如果数据集很大的话,怎么办?重复的扫描数据集……

在下一篇博客中,我将介绍如何使用Apriori算法对电影的数据集进行分析,然后找出之间的相关关系。

参考

  1. Apriori算法原理总结
  2. Association Rules and the Apriori Algorithm: A Tutorial
  3. 《Python数据挖掘入门与实践》
  4. 数据挖掘蒋少华老师

数据挖掘入门系列教程(四点五)之Apriori算法的更多相关文章

  1. 数据挖掘入门系列教程(五)之Apriori算法Python实现

    数据挖掘入门系列教程(五)之Apriori算法Python实现 加载数据集 获得训练集 频繁项的生成 生成规则 获得support 获得confidence 获得Lift 进行验证 总结 参考 数据挖 ...

  2. 数据挖掘入门系列教程(十点五)之DNN介绍及公式推导

    深度神经网络(DNN,Deep Neural Networks)简介 首先让我们先回想起在之前博客(数据挖掘入门系列教程(七点五)之神经网络介绍)中介绍的神经网络:为了解决M-P模型中无法处理XOR等 ...

  3. 数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST

    目录 数据挖掘入门系列教程(八)之使用神经网络(基于pybrain)识别数字手写集MNIST 下载数据集 加载数据集 构建神经网络 反向传播(BP)算法 进行预测 F1验证 总结 参考 数据挖掘入门系 ...

  4. 数据挖掘入门系列教程(九)之基于sklearn的SVM使用

    目录 介绍 基于SVM对MINIST数据集进行分类 使用SVM SVM分析垃圾邮件 加载数据集 分词 构建词云 构建数据集 进行训练 交叉验证 炼丹术 总结 参考 介绍 在上一篇博客:数据挖掘入门系列 ...

  5. 数据挖掘入门系列教程(十一)之keras入门使用以及构建DNN网络识别MNIST

    简介 在上一篇博客:数据挖掘入门系列教程(十点五)之DNN介绍及公式推导中,详细的介绍了DNN,并对其进行了公式推导.本来这篇博客是准备直接介绍CNN的,但是想了一下,觉得还是使用keras构建一个D ...

  6. 数据挖掘入门系列教程(十二)之使用keras构建CNN网络识别CIFAR10

    简介 在上一篇博客:数据挖掘入门系列教程(十一点五)之CNN网络介绍中,介绍了CNN的工作原理和工作流程,在这一篇博客,将具体的使用代码来说明如何使用keras构建一个CNN网络来对CIFAR-10数 ...

  7. 数据挖掘入门系列教程(二)之分类问题OneR算法

    数据挖掘入门系列教程(二)之分类问题OneR算法 数据挖掘入门系列博客:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 项目地址:G ...

  8. 数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例)

    数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 简介 scikit-learn 估计器 加载数据集 进行fit训练 设置参数 预处理 流水线 结尾 数据挖掘入门系 ...

  9. 数据挖掘入门系列教程(四)之基于scikit-lean实现决策树

    目录 数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris 加载数据集 数据特征 训练 随机森林 调参工程师 结尾 数据挖掘入门系列教程(四)之基于scikit-lean决策树处理 ...

随机推荐

  1. async样例

    function iniProcessDetail(isjob) { var cursor = logColl.find({}).sort({ip: 1}); var insertbolk = []; ...

  2. win10安装motionbuilder失败,怎么强力卸载删除注册表并重新安装

    一些搞设计的朋友在win10系统下安装motionbuilder失败或提示已安装,也有时候想重新安装motionbuilder的时候会出现本电脑windows系统已安装motionbuilder,你要 ...

  3. 应对百万访问量的epoll模式

    写在前面 select/poll与epoll select/poll模型工作机理 select/poll模型的局限 epoll模型工作机理 epoll的局限 golang中的epoll golang源 ...

  4. 在中国实现自我价值的英国研究员——微软亚洲研究院英国籍研究员Darren的7年之路

    "我和妻子在这儿已经待了7年了,这里的一切都很棒,无论是微软亚洲研究院还是北京."Darren笑着说,似乎他和中国,和北京,和研究院一直停留在"蜜月期",并未曾 ...

  5. Java Annotation/Scope

    1.在计算机编程语言Java中,什么是注释(Annotation)? 注释是一种可以添加到Java源代码的语法元数据或描述(注释不影响程序执行) 2.注释(Annotation)有什么作用?    ( ...

  6. JDBC连接到数据库查询打印数据

    通过一天的视频学习,认识了jdbc的连接原理前来小结: 游标读取数据库表的行一次读取一个,getXxx()方法读取表的列一个数据 next()方法可以让游标下移 可以把数据库的表看做是一个类,每条记录 ...

  7. Day learn,day up

    前言 忽略我这个中文式英语的标题. 身为一个记性不咋地的前端渣渣,觉得平时看的一些文章太散了,特开此文作为一种记录,可谓好记性不如烂笔头,也算是逼自己要经常学习.文章的日期为最后更新时间,题目顺序不分 ...

  8. 在JavaScript里的“对象字面量”是什么意思?

    字面量表示如何表达这个值,一般除去表达式,给变量赋值时,等号右边都可以认为是字面量.字面量分为字符串字面量(string literal ).数组字面量(array literal)和对象字面量(ob ...

  9. 机器学习算法的基本知识(使用Python和R代码)

    本篇文章是原文的译文,然后自己对其中做了一些修改和添加内容(随机森林和降维算法).文章简洁地介绍了机器学习的主要算法和一些伪代码,对于初学者有很大帮助,是一篇不错的总结文章,后期可以通过文中提到的算法 ...

  10. 【WPF学习】第五十章 故事板

    正如上一章介绍,WPF动画通过一组动画类(Animation类)表示.使用少数几个熟悉设置相关信息,如开始值.结束值以及持续时间.这显然使得它们非常适合于XAML.不是很清晰的时:如何为特定的事件和属 ...