gsp序列模式挖掘
数据挖掘进阶之序列模式挖掘GSP算法
绪
继续数据挖掘方面算法的讲解,前面讲解了数据挖掘中关联规则算法FP-Growth的实现。此篇博文主要讲解基于有趣性度量标准的GSP序列模式挖掘算法。有关论文后期进行补充。实现思路与前面优化的FP-Growth算法一致,首先实现简单的GSP算法,通过认真阅读源码,在理解的基础之上进行优化。优化后的算法将在性能方面与原算法进行对比,以此突出此算法的优良性能。下面进行简要介绍:
原理介绍
GSP算法是一种非常有效的序列模式挖掘算法,该算法使用一种称作为逐层搜索的迭代方法,首先找出频繁1-序列模式的集合F1,F1用于寻找频繁2-序列模式F2,F2用于寻找频繁3-序列模式、F3...,如此下去,直到不能找到频繁序列模式为止。
F1 = the set of frequent 1-sequence
k=2,
do while F(k-1)!= Null;
Generate candidate sets Ck (set of candidate k-sequences);
For all input sequences s in the database D
do
Increment count of all a in Ck if s supports a
Fk = {a ∈ Ck such that its frequency exceeds the threshold}
k= k+1;
Result = Set of all frequent sequences is the union of all Fks
End do
End do
GSP需要多次扫描序列数据库,在第一次扫描中,对所有的单个项目(1—序列模式)进行计数。利用频繁1—序列模式生成候选频繁2—序列模式,进行第二次扫描并求候选频繁2—序列模式的支持数。使用频繁2—序列模式生成候选频繁3—序列模式,重复以上过程,直到找出所有的频繁序列模式。
算法实现
本算法采用Java实现,主要根据序列模式的情况,序列模式挖掘中共涉及到3个对象:序列、元素和项目。算法共有5个类:
GSP类:算法核心类,GSP算法的核心操作:连接和剪枝操作都在这里实现。在使用该算法时,也是需要通过使用该类的方法来实现GSP算法。
Sequence类:序列类,该类封装了序列的基本信息和基本操作,实现了对序列间的比较以及序列中的项目集操作。
Element类:元素类,在序列模式中元素也就是项目集,项目集中包含了项目。在本算法实现中,元素类中含有一个项目集属性,用于表示项目集,在使用时也是使用该属性来表示项目集,另外,在该类中还封装了对项目的操作以及一些其他操作。
SeqDB类:该类用于从数据库中扫描获取序列,本算法主要用于模拟实现,所以在程序中已经初始化了序列。
GSPTest类:测试类,使用JUnit对算法进行单元测试,本文附的代码只含有对于实现GSP算法的方法测试。
序列模式分析算法GSP的实现
一、算法简介
序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式挖掘就是找出所有的频繁子序列,即该子序列在序列集中的出现频率不低于用户指定的最小支持度阈值。
GSP是序列模式挖掘的一种算法。其主要实现步骤描述如下:
1)扫描序列数据库,得到长度为1的序列模式L1,作为初始的种子集
L1 C2 L2 C3 L3 C4 L4 ……
2)根据长度为i 的种子集Li 通过连接操作和剪切操作生成长度为i+1的候选序列模式Ci+1;
3)然后扫描序列数据库,计算每个候选序列模式的支持数,产生长度为i+1的序列模式Li+1,并将Li+1作为新的种子集。
4)重复第三步,直到没有新的序列模式或新的候选序列模式产生为止。
产生候选序列模式主要分两步:
1)连接阶段:如果去掉序列模式s1的第一个项目与去掉序列模式s2的最后一个项目所得到的序列相同,则可以将s1于s2进行连接,即将s2的最后一个项目添加到s1中。其中最后一个项目集是否为合并在原来s1的最后一个项目集,还是自成一个新的项目集,取决于s2的最后一个项目是否原来就是一个单独的项目集。
2)剪切阶段:依据“不频繁子序列的超集也不频繁"。若某候选序列模式的某个子序列不是频繁序列模式,则此候选序列模式不可能是频繁序列模式,将它从候选序列模式中删除。
候选序列模式的支持度计算:对于给定的候选序列模式集合C,扫描序列数据库,对于其中的每一条序列d,找出集合C中被d所包含的所有候选序列模式,并增加其支持度计数。
例子:下表演示了如何从长度为3的序列模式产生长度为4的候选序列模式。
在连接步中,种子序列<(1,2) 3>和种子序列<2 (3,4)>连接可产生候选4序列<(1,2) (3,4)>;种子序列<2 3 5>连接可产生候选4序列<(1,2) 3 5>。其余的序列均不满足连接条件。在剪枝步中,候选4序列<(1,2) 3 5>被剪去,因为其连续子序列<1,3,5>不包含在频繁3序列集合L3中。
二、算法的设计和实现
本算法采用Java实现,主要根据序列模式的情况,序列模式挖掘中共涉及到3个对象:序列、元素和项目。
算法共有5个类:
GSP类:算法核心类,GSP算法的核心操作:连接和剪枝操作都在这里实现,在使用该算法时,也是需要通过使用该类的方法来实现GSP算法。
Sequence类:序列类,该类封装了序列的基本信息和基本操作,实现了对序列间的比较以及序列中的项目集操作。
Element类:元素类,在序列模式中元素也就是项目集,项目集中包含了项目,在本算法实现中,元素类中含有一个项目集属性,用于表示项目集,在使用时也是使用该属性来表示项目集,另外,在该类中还封装了对项目的操作以及一些其他操作。
SeqDB类:该类用于从数据库中扫描获取序列,本算法主要用于模拟实现,所以在程序中已经初始化了序列。
GSPTest类:测试类,使用JUnit对算法进行单元测试,本文附的代码只含有对于实现GSP算法的方法测试。
由于程序中附带了对方法的注释,这里对各个方法的原理和实现就不作介绍。
三、实验结果
(一)实验数据
<{1 5}{2}{3}{4}>
<{1}{3}{4}{3 5}>
<{1}{2}{3}{4}>
<{1}{3}{5}>
<{4}{5}>
(二)程序输出
最小支持度计数为:2
输入的序列集合为:
[<(1,5) 2 3 4>, <1 3 4 (3,5)>, <1 2 3 4>, <1 3 5>, <4 (4,5)>]
序列模式L(1) 为:[<2>, <4>, <1>, <3>, <5>]
.................................................
剪枝前候选集的大小为:40 候选集c为:[<(2,2)>, <2 2>, <(2,4)>, <2 4>, <4 2>, <(1,2)>, <2 1>, <1 2>, <(2,3)>, <2 3>, <3 2>, <(2,5)>, <2 5>, <5 2>, <(4,4)>, <4 4>, <(1,4)>,
<4 1>, <1 4>, <(3,4)>, <4 3>, <3 4>, <(4,5)>, <4 5>, <5 4>, <(1,1)>, <1 1>, <(1,3)>, <1 3>, <3 1>, <(1,5)>, <1 5>, <5 1>, <(3,3)>,
<3 3>, <(3,5)>, <3 5>, <5 3>, <(5,5)>, <5 5>]
剪枝后候选集的大小为:40 候选集c为:[<(2,2)>, <2 2>, <(2,4)>, <2 4>, <4 2>, <(1,2)>, <2 1>, <1 2>, <(2,3)>, <2 3>, <3 2>, <(2,5)>, <2 5>, <5 2>, <(4,4)>, <4 4>, <(1,4)>,
<4 1>, <1 4>, <(3,4)>, <4 3>, <3 4>, <(4,5)>, <4 5>, <5 4>, <(1,1)>, <1 1>, <(1,3)>, <1 3>, <3 1>, <(1,5)>, <1 5>, <5 1>, <(3,3)>,
<3 3>, <(3,5)>, <3 5>, <5 3>, <(5,5)>, <5 5>]
序列模式L(2) 为:[<2 4>, <1 2>, <2 3>, <1 4>, <3 4>, <4 5>, <1 3>, <1 5>, <3 5>]
.................................................
剪枝前候选集的大小为:18 候选集c为:[<1 (2,4)>, <1 2 4>, <2 (4,5)>, <2 4 5>, <1 (2,3)>, <1 2 3>, <2 (3,4)>, <2 3 4>, <2 (3,5)>, <2 3 5>, <1 (4,5)>, <1 4 5>, <3 (4,5)>,
<3 4 5>, <1 (3,4)>, <1 3 4>, <1 (3,5)>, <1 3 5>]
剪枝后候选集的大小为:7 候选集c为:[<1 2 4>, <1 2 3>, <2 3 4>, <1 4 5>, <3 4 5>, <1 3 4>, <1 3 5>]
序列模式L(3) 为:[<1 2 4>, <1 2 3>, <2 3 4>, <1 3 4>, <1 3 5>]
.................................................
剪枝前候选集的大小为:2 候选集c为:[<1 2 (3,4)>, <1 2 3 4>]
剪枝后候选集的大小为:1 候选集c为:[<1 2 3 4>]
序列模式L(4) 为:[<1 2 3 4>]
.................................................
计算花费时间60毫秒!
四、程序源代码
gsp序列模式挖掘的更多相关文章
- 数据挖掘进阶之序列模式挖掘GSP算法
数据挖掘进阶之序列模式挖掘GSP算法 绪 继续数据挖掘方面算法的讲解,前面讲解了数据挖掘中关联规则算法FP-Growth的实现.此篇博文主要讲解基于有趣性度量标准的GSP序列模式挖掘算法.有关论文后期 ...
- 序列模式挖掘--SPADE算法
- 数据挖掘进阶之序列模式分析算法GSP的实现
序列模式分析算法GSP的实现 一.算法简介 序列模式定义:给定一个由不同序列组成的集合,其中,每个序列由不同的元素按顺序有序排列,每个元素由不同项目组成,同时给定一个用户指定的最小支持度阈值,序列模式 ...
- 数据挖掘进阶之关联规则挖掘FP-Growth算法
数据挖掘进阶之关联规则挖掘FP-Growth算法 绪 近期在写论文方面涉及到了数据挖掘,需要通过数据挖掘方法实现软件与用户间交互模式的获取.分析与分类研究.主要涉及到关联规则与序列模式挖掘两块.关联规 ...
- 日志分析方法概述 & Web日志挖掘分析的方法
日志在计算机系统中是一个非常广泛的概念,任何程序都有可能输出日志:操作系统内核.各种应用服务器等等.日志的内容.规模和用途也各不相同,很难一概而论. 本文讨论的日志处理方法中的日志,仅指Web日志.其 ...
- 八、频繁模式挖掘Frequent Pattern Mining
频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题.建议用户参考维基百科的association r ...
- prefixspan是挖掘频繁子序列,子序列不一定是连续的,当心!!!
序列模式挖掘是从序列数据库中发现频繁子序列作为模式. 子序列与频繁序列 了解了序列数据的概念,我们再来看看上面是子序列.子序列和我们数学上的子集的概念很类似,也就是说,如果某个序列A所有的项集在序列B ...
- PrefixSpan算法原理总结
前面我们讲到频繁项集挖掘的关联算法Apriori和FP Tree.这两个算法都是挖掘频繁项集的.而今天我们要介绍的PrefixSpan算法也是关联算法,但是它是挖掘频繁序列模式的,因此要解决的问题目标 ...
- R语言预测实战(游浩麟)笔记1
预测流程 确定主题.指标.主体.精度.周期.用户.成本和数据七要素. 收集数据.内容划分.收集原则. 选择方法.主要方法有自相关分析.偏相关分析.频谱分析.趋势分析.聚类分析.关联分析.相关分析.互相 ...
随机推荐
- 使用JAXP进行sax解析
package cn.liuning.sax; import javax.xml.parsers.SAXParser; import javax.xml.parsers.SAXParserFactor ...
- Codeforces Gym 100342J Problem J. Triatrip 三元环
题目链接: http://codeforces.com/gym/100342 题意: 求三元环的个数 题解: 用bitset分别统计每个点的出度的边和入度的边. 枚举每一条边(a,b),计算以b为出度 ...
- Deep Learning and Shallow Learning
Deep Learning and Shallow Learning 由于 Deep Learning 现在如火如荼的势头,在各种领域逐渐占据 state-of-the-art 的地位,上个学期在一门 ...
- oracle Execute Immediate 用法
包含using into用法. Declare v_sid Integer:=20020101; v_sql Varchar2(100); v_resul ...
- linux系统进程的内存布局
内存管理模块是操作系统的心脏:它对应用程序和系统管理非常重要.今后的几篇文章中,我将着眼于实际的内存问题,但也不避讳其中的技术内幕.由于不少概念是通用的,所以文中大部分例子取自32位x86平台的Lin ...
- 谁会是 Zabbix 和 Nagios 的继任者?
[编者按]本文根据 Dataloop.IO 的创始人兼 CEO David Gildeh 对监控工具市场的现状分析以及对未来发展趋势的展望,展开拓展讨论. 为什么监控还是一塌糊涂? 为了调研市场,从而 ...
- hdu 2717 Catch That Cow(BFS,剪枝)
题目 #include<stdio.h> #include<string.h> #include<queue> #include<algorithm> ...
- JsRender系列demo(3)-自定义容器
<!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <m ...
- 深入浅出ES6(一):ES6是什么
作者 Jason Orendorff github主页 https://github.com/jorendorff ECMAScript发生了什么变化? 编程语言JavaScript是ECMAScri ...
- Git 使用方法
Git 常用命令 git init here -- 创建本地仓库(repository),将会在文件夹下创建一个 .git 文件夹,.git 文件夹里存储了所有的版本信息.标记等内容 git remo ...