论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)

一、论文目标：将差分隐私和频繁项集挖掘结合，主要针对大规模数据。

二、论文的整体思路：

1）预处理阶段：

对于大的数据集，进行采样得到采样数据集并计算频繁项集，估计样本数据集最大长度限制，然后再缩小源数据集；(根据最小的support值，频繁项集之外的项集从源数据集移除)
我们利用字符串匹配去剪切数据集的事务；

2）挖掘阶段：

利用压缩数据集，先构造FP-Tree，隐私预算均匀分配，对真实的结果添加噪声；

3）扰动阶段：

对于候选频繁项集添加拉普拉斯噪声并且输出

通过限制每个事务的长度减少敏感度，使用字符串匹配和最长公共子序列进行事务截断

三、论文的挑战

1）如何设计一个抽样方法去控制抽样误差？

使用中心极限定理计算合理的样本大小，通过数据分析工具包随机抽样数据集。

2）第二个挑战是如何设计一个好的字符串匹配方法来截断事务而不会尽可能地丢失信息？

我们匹配样本数据中的潜在项目集以查找最相似的项目，然后将它们与最频繁的项目合并，直到达到最大长度约束。

四、论文的核心算法

算法1：通过抽样的数据集，发现潜在的频繁项集和最大的事务长度。

这个过程获取频繁项集采用一般的方法：比较support值；而得到长度，采用每个事务长度的数量和除以数据集D的数量>一个不确定的值进行。

算法2：通过潜在的频繁项集和事务长度，得到缩小后的源数据集。

之前的FP-Tree缩减数据集通过将1-项集排序，将小于阈值的项删除；这里我们通过潜在的频繁项集进行获取，而这个过程将大大删减源数据集的数量。

算法3：通过缩减后的数据集，构建FP-Tree和前k频繁项集。

对树的每个节点进行加噪。

五、实验指标

1、F-score

2、RE(相对误差)

六、论文总结

本文其实有两个地方加了差分隐私，一个是在构建FP-Tree树，一个是挖掘出频繁项集后加噪，其实最主要还是在第二个阶段。总的来说，这是一种在中心化差分隐私下进行挖掘频繁项集，

我们希望将其的扰动过程进行提前，实现本地化差分隐私下进行频繁项集挖掘。

论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)的更多相关文章

论文阅读笔记（五）【CVPR2012】:Large Scale Metric Learning from Equivalence Constraints
由于在读文献期间多次遇见KISSME,都引自这篇CVPR,所以详细学习一下. Introduction 度量学习在机器学习领域有很大作用,其中一类是马氏度量学习(Mahalanobis metric ...
八、频繁模式挖掘Frequent Pattern Mining
频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题.建议用户参考维基百科的association r ...
Certified Robustness to Adversarial Examples with Differential Privacy
目录概主要内容 Differential Privacy insensitivity Lemma1 Proposition1 如何令网络为-DP in practice Lecuyer M, At ...
An Introduction to Differential Privacy
原文链接:An Introduction to Differential Privacy 差分隐私算法可以允许分析人员执行良性的聚合分析,同时保证个人隐私得到切实的保护.. 背景数据分析中的隐私保护技 ...
Deep Learning with Differential Privacy
原文链接:Deep Learning with Differential Privacy abstract:新的机器学习算法,差分隐私框架下隐私成本的改良分析,使用非凸目标训练深度神经网络. 数学中最 ...
差分隐私（Differential Privacy）定义及其理解
1 前置知识本部分只对相关概念做服务于差分隐私介绍的简单介绍,并非细致全面的介绍. 1.1 随机化算法随机化算法指,对于特定输入,该算法的输出不是固定值,而是服从某一分布. 单纯形(simplex ...
论文笔记之：Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation
Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google 2016.10.06 官方 ...
论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)
一.论文整体思路: 作者提出了一种基于前缀树的数据结构,NegNodeset,其实是对之前前缀树的一种改进,主要区别在于采用了位图编码,通过这种数据结构产生的算法称为negFIN. negFIN算法高 ...
Spark FPGrowth (Frequent Pattern Mining)
给定交易数据集,FP增长的第一步是计算项目频率并识别频繁项目.与为同样目的设计的类似Apriori的算法不同,FP增长的第二步使用后缀树(FP-tree)结构来编码事务,而不会显式生成候选集,生成的代 ...

随机推荐

使用ultraiso制作启动盘安装windows操作系统
1. 使用ultraiso制作u盘启动盘在电脑上安装ultraiso: 启动ultraiso,文件->打开->选中iso镜像文件菜单栏->启动->写入硬盘映像 a. 便捷启 ...
阿里云ECS服务器，CentOS 7.4配置jdk+tomcat+mysql
参考博客: https://mp.weixin.qq.com/s?__biz=MzIxMzk3Mjg5MQ==&mid=2247484020&idx=1&sn=6e0aa07f ...
Windows上安装 TensorFlow及简单命令
1.官网及帮助文档官网: https://www.tensorflow.org/install/install_windows 中文帮助文档:https://efeiefei.gitbooks.io ...
web跨域请求
第一种情况: 1. sina.com=====>baidu.com/xxx.jsp 也就是前面的域名不相同,(url第三根斜杠之前的内容,也就是主机) 2:localhost =====> ...
react事件绑定，事件传参，input单向数据绑定
import React, { Component } from 'react'; class New extends Component { constructor(props){ super(pr ...
vhdl 边沿
rising_eage falling_eage clock'event and clock='1' 两种方式
Matlab提供了两种除法运算：左除（\）和右除（/）
Matlab提供了两种除法运算:左除(\)和右除(/).一般情况下,x=a\b是方程a*x =b的解,而x=b/a是方程x*a=b的解.例:a=[1 2 3; 4 2 6; 7 4 9]b ...
JavaScript Decorators 的简单理解
Decorators,装饰器的意思, 所谓装饰就是对一个物件进行美化,让它变得更漂亮.最直观的例子就是房屋装修.你买了一套房子,但是毛坯房,你肯定不想住,那就对它装饰一下,床,桌子,电视,冰箱等一通买 ...
Ubuntu下安装tomcat
下面记录了Ubuntu 16.04下安装Tomcat 8.5.9的过程步骤. 1.到官网下载tomcat8.5.9,选择格式为tar.gz.2.通过ftp将下载的tomcat8.5.9压缩包上传到ub ...
python源码编译
PyInstaller是一个基于windows平台,将源码打包成执行文件的第三方库,PyInstaller本身并不属于Python包. 源文件要采用UTF-8编码安装Pyinstaller pip ...

论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)

论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)的更多相关文章

随机推荐

热门专题