论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)

一、论文整体思路：

作者提出了一种基于前缀树的数据结构，NegNodeset，其实是对之前前缀树的一种改进，主要区别在于采用了位图编码，通过这种数据结构产生的算法称为negFIN。

negFIN算法高效有三个原因

二、问题定义

I= {i1,i2,…, init} 表示事务数据库所有项的集合，T表示每个事务，T⊆I ，DB = {T1,T2,…, Tnt} 是所有事务的集合

P称为k-项集，如果P⊆T ，那么事务T包含了项集P，support(P)是DB中包含P的百分比，如果support(P)大于min-support

我们就称P为频繁项集，频繁项集是2的nit 次方，nit = |I| 。

三、之前贡献

主要对前缀树的研究，结构1)Node-list，2)N-list，3)Nodeset，4)DisffNodeset （***先理解下前缀树和哈希树）

1） Node-list和N-list是通过对节点进行先序和后序排列，这两种数据结构产生的算法分别是PPV和PrePost频繁项集挖掘算法，

这两个算法的缺点消耗了大量内存；

2）对于这种情况，数据结构Nodeset将其进行改进，k-项集的获得通过取k-1项集的交集，算法为FIN，确定是对于一些数据集Nodeset基数太大；

3）为了将其进行改进，DiffNodest数据结构提出，k-项集的获得两个不同的k-1项集获得，算法为dFIN，算法的更快了。

4）文中提出了NegNodeset为了实现计算两个不同的DiffNodesets花费时间较长，主要利用的是位图，提出的算法negFIN;

四、相关工作

频繁项集挖掘算法

1）通过产生候选项集

比如Apriori算法，以及一些其他的算法，这种方法的主要缺点是需要多次扫描数据库。

2）模式增长方法

这种方式不会产生候选项集，也避免了多次扫描数据库，包括FP-tree和FP-growth算法，缺点：对于稀疏的数据集效率低，数据结构复杂。

3）前缀树方法

五、基本术语

F1频繁项集的集合，例如F1 = {e, b, a, c, d} ，
L1是根据支持度进行非降序排列的频繁项集L1 = [e, d, c, b, a] ，L1 = [i0,i1,…, inf - 1] ，nf=|F1|
k-项集P，Pk = ik…i2i1 ，ik>...>i2>i1

例如P = {e, b, d} ，P3 = bde ，对Pk进行位图编码BMC(Pk) = bnf - 1…b1b0 ，这里需要注意的是

BMC(node-path)分为两部分，主要部分和无关部分

论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)的更多相关文章

【HEVC帧间预测论文】P1.7 Content Based Hierarchical Fast Coding Unit Decision Algorithm
Content Based Hierarchical Fast Coding Unit Decision Algorithm For HEVC <HEVC标准介绍.HEVC帧间预测论文笔记> ...
论文阅读笔记二十六：Fast R-CNN (ICCV2015)
论文源址:https://arxiv.org/abs/1504.08083 参考博客:https://blog.csdn.net/shenxiaolu1984/article/details/5103 ...
【论文翻译】MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 论文链接:https://arxi ...
论文翻译：2020_TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids
论文地址:TinyLSTMs:助听器的高效神经语音增强音频地址:https://github.com/Bose/efficient-neural-speech-enhancement 引用格式:Fe ...
algorithm@ Matrix fast power
一. 什么是快速幂: 快速幂顾名思义,就是快速算某个数的多少次幂.其时间复杂度为 O(log₂N), 与朴素的O(N)相比效率有了极大的提高.一般一个矩阵的n次方,我们会通过连乘n-1次来得到它的n次 ...
【论文阅读】A practical algorithm for distributed clustering and outlier detection
文章提出了一种分布式聚类的算法,这是第一个有理论保障的考虑离群点的分布式聚类算法(文章里自己说的).与之前的算法对比有以下四个优点: 1.耗时短O(max{k,logn}*n), 2.传递信息规模小: ...
第八周论文学习03 An Efficient Tree-based Power Saving Scheme for Wireless Sensor Networks with Mobile Sink
来源:IEEE Sensors Journal Year: 2016, Volume: 16, Issue: 20 Pages: 7545 - 7557, DOI: 10.1109/JSEN.2016 ...
论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)
一.论文目标:将差分隐私和频繁项集挖掘结合,主要针对大规模数据. 二.论文的整体思路: 1)预处理阶段: 对于大的数据集,进行采样得到采样数据集并计算频繁项集,估计样本数据集最大长度限制,然后再缩小源 ...
Apriori algorithm
本文是个人对spmf中example1. mining frequent itemsets by using the apriori algorithm的学习. What is Apriori? A ...

随机推荐

Java ME之Android开发从入门到精通
1. 搭建Android开发环境方式一:使用ADT插件安装 ADT插件的下载与安装,ADT插件获取网址:http://www.androiddevtools.cn/ 下载好的ADT插件如图所示: 在 ...
Learning to Rank for IR的评价指标—MAP,NDCG,MRR
转自: https://www.cnblogs.com/eyeszjwang/articles/2368087.html MAP(Mean Average Precision):单个主题的平均准确率是 ...
easyui combobox 在datagrid中动态加载数据
场景:datagrid 中用编辑框修改数据,有一个列使用的combobox 在可编辑的时候需要动态绑定数据,这个数据是在根据其他条件可变的思路:在每次开启编辑框的时候动态绑定数据, datagri ...
LODOP中page-break-before:always给div分页
Lodop中超过超文本打印项高度会自动分页:Lodop打印控件超文本自动分页Lodop中还有NewPage和NewPageA,用于手动分页:Lodop强制分页LODOP.NewPage()和LODO ...
C# DataTable 操作
添加引用 using System.Data; 创建表 //创建一个空表 DataTable dt = new DataTable(); //创建一个名为"Table_New"的空 ...
ImportError: No module named google.protobuf.internal
下载: protobuf-3.3.0 设置路径:export PYTHONPATH=/gruntdata/lihaiyang/local/protobuf-3.3.0/python:$PYTHONPA ...
hdu-1176（dp）
解题思路:用dp做的,dp[i][j]表示在i时刻,j点的最大馅饼.a[i][j]表示在i这个时刻j点同时掉落的馅饼: 每个点除了0和10之外,都有三种状态: 1.没有移动,这样值就为dp[i][j] ...
Django的View（视图）
Django的View(视图) 一个视图函数(类),简称视图,是一个简单的Python 函数(类),它接受Web请求并且返回Web响应. 响应可以是一张网页的HTML内容,一个重定向,一个404错误, ...
puppet一个完整的实例
一个具体实例来简单说明puppet的具体结构创建第一个配置 puppet的组成清单这主要包含这几个部分资源,文件,模板,节点,类,定义 puppet中有个模块的定义,这个比较重要,基本是puppe ...
Vuex以及axios
Vuex 简介 vuex是一个专门为Vue.js设计的集中式状态管理架构. 状态? 我们把它理解为在data中需要共享给其他组件使用的部分. Vuex和单纯的全局对象有以下不同: 1.Vuex 的状态 ...

论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)

论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)的更多相关文章

随机推荐

热门专题