2、关联规则专业术语项集 ItemSet

这是一条关联规则：

括号内的Item集合称为项集。如上例，{News, Finance}是一个项集，{Sports}也是一个项集。

这个例子就是一条关联规则：基于历史记录，同时看过News和Finance版块的人很有可能会看Sports版块。

{News,Finance} 是这条规则的Left-hand-side (LHS or Antecedent)

{Sports}是这条规则的Right-hand-side (RHS or Consequent)

LHS（Left Hand Side)的项集和RHS（Right Hand Side）的项集不能有交集。

二、关联规则强度指标

1、支持度——商品出现频次

项集的支持度就是该项集出现的次数除以总的记录数（交易数）。

Support({News}) = 5/6 = 0.83

Support({News, Finance}) = 4/6 =0.67

Support({Sports}) = 2/6 = 0.33

支持度的意义在于度量项集在整个事务集中出现的频次。我们在发现规则的时候，希望关注频次高的项集。

2、置信度——两商品同时发生概率

关联规则 X -> Y 的置信度计算公式

规则的置信度的意义在于项集{X，Y}同时出现的次数占项集{X}出现次数的比例。发生X的条件下，又发生Y的概率。

表示50%的人访问过{News, Finance}，同时也会访问{Sports}

3、提升度——两商品独立性

当右手边的项集（consequent）的支持度已经很显著时，即时规则的Confidence较高，这条规则也是无效的。

举个例子：

0.83 {Finance} 4 0.67 {Entertainment} 1 0.17 {Sports} 2 0.33 Two-Item Sets Support Count Support {News, Finance} 4 0.67 {News, Sports} 2 0.33 {Finance, Sports} 2 0.33 Three-Item Sets Support Count Support {News, Finance, Sports} 2 0.33
四、R语言实现关联规则

可参考该博客：http://blog.csdn.net/gjwang1983/article/details/45015203

贴一些实现的图：

________________________________________________________________________________________

五、关联规则的推荐案例解读

1、支持度、置信度、提升度用法

本总结来自CDA DSC相关课程三个指标，支持度、置信度、提升度的用法。

本图的解读，

第一幅上图，买了基金的人还买了黄金的占0.35，所有的人中买了黄金的有18%（基准），此时提升度为0.35/0.18=1.94>1，可以作为推荐；

作为客户要冲销量，则选择面向基数大的部分，则选择支持度、置信度大的，比如第一张图的第三方存管，第二图的结构性理财产品。

所以三个指标的基本用法：冲销量、KPI会重点关注置信度大的；随机推荐用提升度。

2、网商时代关联规则背弃长尾效应

在实际案例运用过程中关联规则与协同过滤的区别在于，

关联规则推荐的是本来就很热门的产品，因为代表同时发生频率越高，关联性越强。在网商时代会背弃长尾效应，让差异扩大，2/8定律会一定程度上扩充至1/9，助长马太效应。

一般要推荐冷门产品会使用协同过滤。下图就是京东上使用关联规则的例子。

R语言实现关联规则与推荐算法(学习笔记)的更多相关文章

R语言︱决策树族——随机森林算法
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习 ...

基于FP-Tree的关联规则FP-Growth推荐算法Java实现
基于FP-Tree的关联规则FP-Growth推荐算法Java实现 package edu.test.ch8; import java.util.ArrayList; import java.util ...

某科学的PID算法学习笔记
最近,在某社团的要求下,自学了PID算法.学完后,深切地感受到PID算法之强大.PID算法应用广泛,比如加热器.平衡车.无人机等等,是自动控制理论中比较容易理解但十分重要的算法. 下面是博主学习过程中 ...

Johnson 全源最短路径算法学习笔记
Johnson 全源最短路径算法学习笔记如果你希望得到带互动的极简文字体验,请点这里我们来学习johnson Johnson 算法是一种在边加权有向图中找到所有顶点对之间最短路径的方法.它允许一些 ...

C / C++算法学习笔记（8）－SHELL排序
原始地址:C / C++算法学习笔记(8)-SHELL排序基本思想先取一个小于n的整数d1作为第一个增量(gap),把文件的全部记录分成d1个组.所有距离为dl的倍数的记录放在同一个组中.先在各组 ...

Manacher算法学习笔记 | LeetCode#5
Manacher算法学习笔记 DECLARATION 引用来源:https://www.cnblogs.com/grandyang/p/4475985.html CONTENT 用途:寻找一个字符串的 ...

Johnson算法学习笔记
\(Johnson\)算法学习笔记. 在最短路的学习中,我们曾学习了三种最短路的算法,\(Bellman-Ford\)算法及其队列优化\(SPFA\)算法,\(Dijkstra\)算法.这些算法可以快 ...

R语言︱情感分析—基于监督算法R语言实现（二）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:本文大多内容来自未出版的<数据 ...

python调用R语言，关联规则可视化
首先当然要配置r语言环境变量什么的 D:\R-3.5.1\bin\x64; D:\R-3.5.1\bin\x64\R.dll;D:\R-3.5.1;D:\ProgramData\Anaconda3\L ...

随机推荐

java签名与验签
基本概念: 加密解密加密:发送方利用接收方的公钥对要发送的明文进行加密. 解密:接收方利用自己的私钥进行解密. 公钥和私钥配对的,用公钥加密的文件,只有对应的私钥才能解密.当然也可以反过来,用私钥加 ...

POJ [P3020] Antenna Placement
二分图匹配求最小边覆盖建图方法中的黑白染色法,题目中说信号可以覆盖相邻两个块,那么我们可以将给定的地图染成国际象棋棋盘的样子,一个黑格可以与周围的四个白格共用信号,对于城市,从每一个黑格出发,向其周 ...

常见dos命令总结
常用的内部命令有MD.CD.RD.DIR.PATH.COPY.TYPE.EDIT.REN.DEL.CLS.VER.DATE.TIME.PROMPT. 常用的外部命令有DELTREE.FORMAT.DI ...

多路复用select
多路复用I/O:一个执行体监视多个文件描述符对象的状态是否改变,一旦改变通知其他执行体来实现. 基本思想: 1. 先构造一张有关描述符的表,然后调用一个函数,当这些文件描述符中的一个或者多个已准备好进 ...

jquary 单选，多选，select 获取和设置值 jquary自定义函数
<%@ page contentType="text/html; charset=UTF-8"%> <%@ taglib prefix="c" ...

MySQL select语句直接导出数据
select * into outfile '文件存放路径' from 表名; (先记下来,还未测试)

五分钟了解Hash算法
Hash算法详解想象一下如果高级语言(Java,C++ ,C#)中如果没有实现类似List.Map等数据结构,企业级应用开发将是多么痛苦的事吧? Key-Value这种数据结构对于数据处理非常方便. ...

Java经典编程题50道之三十
有一个已经排好序的数组.现输入一个数,要求按原来的规律将它插入数组中. public class Example30 { public static void main(String[] arg ...

MVC5中使用Log4Net
最早搜到的是这篇: http://www.codeproject.com/Articles/823247/How-to-use-Apache-log-net-library-with-ASP-NET- ...

hql语句中的select字句和from 字句
package com.imooc.model; import java.util.List; import java.util.Map; import org.hibernate.Query; im ...