购物篮分析:

Apriori算法:

参数设置:

1.car 如果设为真,则会挖掘类关联规则而不是全局关联规则。

2. classindex 类属性索引。如果设置为-1,最后的属性被当做类属性。

3. delta 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。

4. lowerBoundMinSupport 最小支持度下界。

5. metricType 度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。

在 Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是:

a) Lift : P(A,B)/(P(A)P(B)) Lift=1时表示A和B独立。这个数越大(>1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度.

b) Leverage :P(A,B)-P(A)P(B)

Leverage=0时A和B独立,Leverage越大A和B的关系越密切

c) Conviction:P(A)P(!B)/P(A,!B) (!B表示B没有发生) Conviction也是用来衡量A和B的独立性。从它和lift的关系(对B取反,代入Lift公式后求倒数)可以看出,这个值越大, A、B越关联。

6. minMtric 度量的最小值。

7. numRules 要发现的规则数。

8. outputItemSets 如果设置为真,会在结果中输出项集。

9. removeAllMissingCols 移除全部为缺省值的列。

10. significanceLevel 重要程度。重要性测试(仅用于置信度)。

11. upperBoundMinSupport 最小支持度上界。 从这个值开始迭代减小最小支持度。

12. verbose 如果设置为真,则算法会以冗余模式运行。

=== Run information ===

Scheme:       weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1
Relation: basket
Instances: 940 // 有940条数据
Attributes: 11 // 有11 个字段
fruitveg
freshmeat
dairy
cannedveg
cannedmeat
frozenmeal
beer
wine
softdrink
fish
confectionery
=== Associator model (full training set) === Apriori
======= Minimum support: 0.1 (94 instances) // 最小支持率是0.1,最小需要94个实例
Minimum metric <confidence>: 0.9 //最小置信度为0.9
Number of cycles performed: 18 // 进行了18轮搜索 Generated sets of large itemsets:  //生成的频繁项集 Size of set of large itemsets L(1): 22 //频繁1项集:22个 Size of set of large itemsets L(2): 171 // 频繁2项集 171 个 Size of set of large itemsets L(3): 633 Size of set of large itemsets L(4): 992 Size of set of large itemsets L(5): 1130 Size of set of large itemsets L(6): 538 Size of set of large itemsets L(7): 143 Best rules found: // 最好的10条规律 1. cannedveg=F beer=F fish=T confectionery=F 118 ==> wine=F 109 conf:(0.92)
2. freshmeat=F cannedveg=F beer=F fish=T confectionery=F 102 ==> wine=F 94 conf:(0.92)
3. fruitveg=F freshmeat=F cannedveg=T softdrink=F 147 ==> dairy=F 135 conf:(0.92)
4. freshmeat=F wine=T confectionery=F 117 ==> dairy=F 107 conf:(0.91)
5. fruitveg=F freshmeat=F cannedveg=T wine=F softdrink=F 105 ==> dairy=F 96 conf:(0.91)
6. fruitveg=F freshmeat=F cannedveg=T softdrink=F confectionery=F 113 ==> dairy=F 103 conf:(0.91)
7. fruitveg=F freshmeat=F cannedveg=T cannedmeat=F softdrink=F 112 ==> dairy=F 102 conf:(0.91)
8. fruitveg=F cannedveg=T softdrink=F confectionery=F 128 ==> dairy=F 116 conf:(0.91)
9. fruitveg=F freshmeat=F cannedveg=T softdrink=F fish=F 117 ==> dairy=F 106 conf:(0.91)
10. fruitveg=F dairy=F cannedveg=T wine=F softdrink=F 106 ==> freshmeat=F 96 conf:(0.91)

结果含义:

cannedveg的值为F、 beer的值F、 fish的值为T 、 confectionery的值为F 118 的时候推出   wine的值为F 109,该关联关系的置信度为0.92
FilteredAssociator
=== Run information ===

Scheme:       weka.associations.FilteredAssociator -F "weka.filters.MultiFilter -F \"weka.filters.unsupervised.attribute.ReplaceMissingValues \"" -c -1 -W weka.associations.Apriori -- -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1
Relation: basket
Instances: 940
Attributes: 11
fruitveg
freshmeat
dairy
cannedveg
cannedmeat
frozenmeal
beer
wine
softdrink
fish
confectionery
=== Associator model (full training set) === FilteredAssociator using weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1 on data filtered through weka.filters.MultiFilter -F "weka.filters.unsupervised.attribute.ReplaceMissingValues " Filtered Header
@relation basket-weka.filters.unsupervised.attribute.ReplaceMissingValues-weka.filters.MultiFilter-Fweka.filters.unsupervised.attribute.ReplaceMissingValues @attribute fruitveg {F,T}
@attribute freshmeat {F,T}
@attribute dairy {F,T}
@attribute cannedveg {F,T}
@attribute cannedmeat {F,T}
@attribute frozenmeal {F,T}
@attribute beer {F,T}
@attribute wine {F,T}
@attribute softdrink {F,T}
@attribute fish {F,T}
@attribute confectionery {F,T} @data Associator Model Apriori
======= Minimum support: 0.1 (94 instances)
Minimum metric <confidence>: 0.9
Number of cycles performed: 18 Generated sets of large itemsets: Size of set of large itemsets L(1): 22 Size of set of large itemsets L(2): 171 Size of set of large itemsets L(3): 633 Size of set of large itemsets L(4): 992 Size of set of large itemsets L(5): 1130 Size of set of large itemsets L(6): 538 Size of set of large itemsets L(7): 143 Best rules found: 1. cannedveg=F beer=F fish=T confectionery=F 118 ==> wine=F 109 conf:(0.92)
2. freshmeat=F cannedveg=F beer=F fish=T confectionery=F 102 ==> wine=F 94 conf:(0.92)
3. fruitveg=F freshmeat=F cannedveg=T softdrink=F 147 ==> dairy=F 135 conf:(0.92)
4. freshmeat=F wine=T confectionery=F 117 ==> dairy=F 107 conf:(0.91)
5. fruitveg=F freshmeat=F cannedveg=T wine=F softdrink=F 105 ==> dairy=F 96 conf:(0.91)
6. fruitveg=F freshmeat=F cannedveg=T softdrink=F confectionery=F 113 ==> dairy=F 103 conf:(0.91)
7. fruitveg=F freshmeat=F cannedveg=T cannedmeat=F softdrink=F 112 ==> dairy=F 102 conf:(0.91)
8. fruitveg=F cannedveg=T softdrink=F confectionery=F 128 ==> dairy=F 116 conf:(0.91)
9. fruitveg=F freshmeat=F cannedveg=T softdrink=F fish=F 117 ==> dairy=F 106 conf:(0.91)
10. fruitveg=F dairy=F cannedveg=T wine=F softdrink=F 106 ==> freshmeat=F 96 conf:(0.91)

这个结论和上面的一样就不写了

Tertius

=== Run information ===

Scheme: weka.associations.Tertius -K 10 -F 0.0 -N 1.0 -L 4 -G 0 -c 0 -I 0 -P 0
Relation: basket
Instances: 940
Attributes: 11
fruitveg
freshmeat
dairy
cannedveg
cannedmeat
frozenmeal
beer
wine
softdrink
fish
confectionery
=== Associator model (full training set) ===

Tertius
=======

1. /* 0.433417 0.022340 */ frozenmeal = F ==> cannedveg = F or beer = F
2. /* 0.427294 0.028723 */ beer = F ==> cannedveg = F or frozenmeal = F
3. /* 0.426433 0.025532 */ cannedveg = F ==> frozenmeal = F or beer = F
4. /* 0.394573 0.015957 */ dairy = F and frozenmeal = T and beer = T ==> cannedveg = T
5. /* 0.388260 0.019149 */ dairy = F and cannedveg = T and beer = T ==> frozenmeal = T
6. /* 0.382993 0.019149 */ beer = F ==> cannedveg = F or frozenmeal = F or softdrink = T
7. /* 0.382471 0.017021 */ frozenmeal = F ==> cannedveg = F or beer = F or softdrink = T
8. /* 0.380465 0.025532 */ dairy = F and cannedveg = T and frozenmeal = T ==> beer = T
9. /* 0.376718 0.017021 */ cannedveg = F ==> frozenmeal = F or beer = F or confectionery = T
10. /* 0.374939 0.018085 */ frozenmeal = F ==> cannedveg = F or beer = F or confectionery = T

Number of hypotheses considered: 43952
Number of hypotheses explored: 22282

结论:

英语版的(英语好的请自己翻译后回复一下):

1. /* 0.433417 0.022340 */ frozenmeal = F ==> cannedveg = F or beer = F

The first number given with the rules is the confirmation value, and the second number is the frequency of counter-instances.
The “number of hypotheses considered” is the number of rules generated with the refinement operator.
The “number of hypotheses explored” is the number of rules that were “potentially interesting” and were considered for adding to the results or refining.

Weka关联规则分析的更多相关文章

  1. (转载)微软数据挖掘算法:Microsoft 关联规则分析算法(7)

    前言 本篇继续我们的微软挖掘算法系列总结,前几篇我们分别介绍了:微软数据挖掘算法:Microsoft 决策树分析算法(1).微软数据挖掘算法:Microsoft 聚类分析算法(2).微软数据挖掘算法: ...

  2. Weka学习之关联规则分析

    步骤: (一) 选择数据源 (二)选择要分析的字段 (三)选择需要的关联规则算法 (四)点击start运行 (五) 分析结果 算法选择: Apriori算法参数含义 1.car:如果设为真,则会挖掘类 ...

  3. 数据挖掘-关联规则分析[ZZ]

    1.什么是关联规则 "尿布与啤酒"的故事大家都有听过,这里就不罗嗦了. 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据 ...

  4. 机器学习理论与实战(十一)关联规则分析Apriori

    <机器学习实战>的最后的两个算法对我来说有点陌生,但学过后感觉蛮好玩,了解了一般的商品数据关联分析和搜索引擎智能提示的工作原理.先来看看关联分析(association analysis) ...

  5. R1(上)—R关联规则分析之Arules包详解

    Arules包详解 包基本信息 发布日期:2014-12-07 题目:挖掘关联规则和频繁项集 描述:提供了一个表达.处理.分析事务数据和模式(频繁项集合关联规则)的基本框架. URL:http://R ...

  6. 【机器学习】关联规则分析(一):Apriori

    一.Apriori原理 Apriori是关联分析中较早的一种方法,主要用来挖掘那些频繁项集合,其思想是: 1.如果一个项目集合不是频繁集合,那么任何包含它的项目(超集)也一定不是频繁集. 2.如果一个 ...

  7. Weka——PrincipalComponents分析

    package weka.filters.unsupervised.attribute; PrincipalComponents 属性: /** The data to transform analy ...

  8. R_Studio(关联)对dvdtrans.csv数据进行关联规则分析

    dvdtrans.csv数据:该原始数据仅仅包含了两个字段(ID, Item) 用户ID,商品名称(共30条) #导入arules包 #install.packages("arules&qu ...

  9. WEKA使用教程(界面工具的用法)

    WEKA使用教程 目录 1. 简介2. 数据格式3.数据准备4. 关联规则(购物篮分析)5. 分类与回归6. 聚类分析 1. 简介 WEKA的全名是怀卡托智能分析环境(Waikato Environm ...

随机推荐

  1. 洛谷——P1469 找筷子

    P1469 找筷子 题目描述 经过一段时间的紧张筹备,电脑小组的“RP餐厅”终于开业了,这天,经理LXC接到了一个定餐大单,可把大家乐坏了!员工们齐心协力按要求准备好了套餐正准备派送时,突然碰到一个棘 ...

  2. 多层代理获取用户真实IP

    1. 几个概念remote_addr:如果中间没有代理,这个就是客户端的真实IP,如果有代理,这就是上层代理的IP.X-Forwarded-For:一个HTTP扩展头,格式为 X-Forwarded- ...

  3. SQL 存储过程入门(事务)

    本篇我们来讲一下事务处理技术. 为什么要使用事务呢,事务有什么用呢,举个例子. 假设我们现在有个业务,当做成功某件事情的时候要向2张表中插入数据,A表,B表,我们插入的顺序是先插入A,再插入B表,如果 ...

  4. mybatis-mysql小优化

    原文:http://blog.csdn.net/jinzhencs/article/details/51656548 1.查询某条记录是否存在 <!-- 查询s是否被创建过:Uuid,name, ...

  5. form的action属性作用

    一.action=""和action="#".没有action属性的作用相同,都是提交到当前页面(也就是document.location.href) 二.ac ...

  6. python调用top命令获得CPU利用率

    1.python调用top命令获得CPU利用率 思路:通过python调用top命令获取cpu使用率 #python2代码 [root@zdops-server script]# cat cpu_lo ...

  7. Python 把u'\xca\xd3\xc6\xb5\xd7\xa5\xc8\xa1' 输出正常中文

    今天碰见从数据库读取出来数据是u'\xca\xd3\xc6\xb5\xd7\xa5\xc8\xa1',输出显示乱码,经常查询处理如下: 两种方式: 1. s = u'\xca\xd3\xc6\xb5\ ...

  8. java 实体序列化的意义

    一.序列化的意义 客户端访问了某个能开启会话功能的资源, web服务器就会创建一个与该客户端对应的HttpSession对象,每个HttpSession对象都要站用一定的内存空间.如果在某一时间段内访 ...

  9. Solidworks如何在装配图中保存单独的一个零件

    如下图所示,我想要保存装配体的一个单独的零部件   选中该零件后点击编辑零部件   然后点击顶部的文件-另存为,弹出"解决模糊情形"对话框,询问你要保存装配体还是零部件   点击确 ...

  10. Location配置与ReWrite语法

    1 Location语法规则 1.1 Location规则 语法规则: location [=|~|~*|^~] /uri/ {… } 首先匹配 =,其次匹配^~,其次是按文件中顺序的正则匹配,最后是 ...