论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)
一、论文目标:将差分隐私和频繁项集挖掘结合,主要针对大规模数据。
二、论文的整体思路:
1)预处理阶段:
对于大的数据集,进行采样得到采样数据集并计算频繁项集,估计样本数据集最大长度限制,然后再缩小源数据集;(根据最小的support值,频繁项集之外的项集从源数据集移除)
我们利用字符串匹配去剪切数据集的事务;
2)挖掘阶段:
利用压缩数据集,先构造FP-Tree,隐私预算均匀分配,对真实的结果添加噪声;
3)扰动阶段:
对于候选频繁项集添加拉普拉斯噪声并且输出
通过限制每个事务的长度减少敏感度,使用字符串匹配和最长公共子序列进行事务截断
三、论文的挑战
1)如何设计一个抽样方法去控制抽样误差?
使用中心极限定理计算合理的样本大小,通过数据分析工具包随机抽样数据集。
2)第二个挑战是如何设计一个好的字符串匹配方法来截断事务而不会尽可能地丢失信息?
我们匹配样本数据中的潜在项目集以查找最相似的项目,然后将它们与最频繁的项目合并,直到达到最大长度约束。
四、论文的核心算法
算法1:通过抽样的数据集,发现潜在的频繁项集和最大的事务长度。
这个过程获取频繁项集采用一般的方法:比较support值;而得到长度,采用每个事务长度的数量和除以数据集D的数量>一个不确定的值进行。
算法2:通过潜在的频繁项集和事务长度,得到缩小后的源数据集。
之前的FP-Tree缩减数据集通过将1-项集排序,将小于阈值的项删除;这里我们通过潜在的频繁项集进行获取,而这个过程将大大删减源数据集的数量。
算法3:通过缩减后的数据集,构建FP-Tree和前k频繁项集。
对树的每个节点进行加噪。
五、实验指标
1、F-score
2、RE(相对误差)
六、论文总结
本文其实有两个地方加了差分隐私,一个是在构建FP-Tree树,一个是挖掘出频繁项集后加噪,其实最主要还是在第二个阶段。总的来说,这是一种在中心化差分隐私下进行挖掘频繁项集,
我们希望将其的扰动过程进行提前,实现本地化差分隐私下进行频繁项集挖掘。
论文总结(Frequent Itemsets Mining With Differential Privacy Over Large-Scale Data)的更多相关文章
- 论文阅读笔记(五)【CVPR2012】:Large Scale Metric Learning from Equivalence Constraints
由于在读文献期间多次遇见KISSME,都引自这篇CVPR,所以详细学习一下. Introduction 度量学习在机器学习领域有很大作用,其中一类是马氏度量学习(Mahalanobis metric ...
- 八、频繁模式挖掘Frequent Pattern Mining
频繁模式挖掘(Frequent Pattern Mining): 频繁项集挖掘是通常是大规模数据分析的第一步,多年以来它都是数据挖掘领域的活跃研究主题.建议用户参考维基百科的association r ...
- Certified Robustness to Adversarial Examples with Differential Privacy
目录 概 主要内容 Differential Privacy insensitivity Lemma1 Proposition1 如何令网络为-DP in practice Lecuyer M, At ...
- An Introduction to Differential Privacy
原文链接:An Introduction to Differential Privacy 差分隐私算法可以允许分析人员执行良性的聚合分析,同时保证个人隐私得到切实的保护.. 背景数据分析中的隐私保护技 ...
- Deep Learning with Differential Privacy
原文链接:Deep Learning with Differential Privacy abstract:新的机器学习算法,差分隐私框架下隐私成本的改良分析,使用非凸目标训练深度神经网络. 数学中最 ...
- 差分隐私(Differential Privacy)定义及其理解
1 前置知识 本部分只对相关概念做服务于差分隐私介绍的简单介绍,并非细致全面的介绍. 1.1 随机化算法 随机化算法指,对于特定输入,该算法的输出不是固定值,而是服从某一分布. 单纯形(simplex ...
- 论文笔记之:Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation
Large Scale Distributed Semi-Supervised Learning Using Streaming Approximation Google 2016.10.06 官方 ...
- 论文总结(negFIN: An efficient algorithm for fast mining frequent itemsets)
一.论文整体思路: 作者提出了一种基于前缀树的数据结构,NegNodeset,其实是对之前前缀树的一种改进,主要区别在于采用了位图编码,通过这种数据结构产生的算法称为negFIN. negFIN算法高 ...
- Spark FPGrowth (Frequent Pattern Mining)
给定交易数据集,FP增长的第一步是计算项目频率并识别频繁项目.与为同样目的设计的类似Apriori的算法不同,FP增长的第二步使用后缀树(FP-tree)结构来编码事务,而不会显式生成候选集,生成的代 ...
随机推荐
- Lodop打印设计矩形重合预览线条变粗
LODOP中的打印设计是辅助进行开发的,实际打印效果应以预览为准,很多效果都是在设计界面显示不出来,或设计和预览界面有差异.例如add_print_text文本的字间距.行间距,旋转,还有允许标点溢出 ...
- C# 23种设计模式汇总
创建型模式工厂方法(Factory Method)在工厂方法模式中,工厂方法用来创建客户所需要的产品,同时还向客户隐藏了哪种具体产品类将被实例化这一细节.工厂方法模式的核心是一个抽象工厂类,各种具体工 ...
- 百年老图难倒谷歌AI,兔还是鸭?这是个问题
上面这张图,画的是鸭子还是兔子? 自从1892年首次出现在一本德国杂志上之后,这张图就一直持续引发争议.有些人只能看到一只兔子,有些人只能看到一只鸭子,有些人两个都能看出来. 心理学家用这张图证明了一 ...
- Spring 使用介绍(七)—— Spring事务
一.数据库事务概述 1.基本介绍 事务必需满足ACID(原子性.一致性.隔离性和持久性)特性,缺一不可: 原子性(Atomicity):即事务是不可分割的最小工作单元,事务内的操作要么全做,要么全不做 ...
- .net core Include问题
本文章为原创文章,转载请注明出处 当时不知道为什么这样写,可能是突然间脑子停止了转动,既然犯过这样的错误,就记录下来吧 错误示例 ).Include(a=>a.User).Select(a =& ...
- kubernetes 每个node上只能运行一个副本DaemonSet
每个node上只能运行一个副本: apiVersion: extensions/v1beta1 kind: DaemonSet #使用DaemonSet的方式运行 metadata: name: ku ...
- BZOJ2561最小生成树——最小割
题目描述 给定一个边带正权的连通无向图G=(V,E),其中N=|V|,M=|E|,N个点从1到N依次编号,给定三个正整数u,v,和L (u≠v),假设现在加入一条边权为L的边(u,v),那么需要删掉最 ...
- Android学习第7天
这次大都是广播案例,在笔记中不予展示注: a.做开机启动时,在广播类中用到Intent需要这三行代码 Intent intent1 = new Intent(context, MainActivity ...
- random 随机数模块
import random # 随机数模块 print(random.random()) #0-1 不包括1随机浮点数 print(random.randint(1,10)) # 1-10 包括1和1 ...
- MS-DOS 系统汇编环境之DOSBOX+vim
经过虚拟机的体验,我发现还是dosbox里汇编比较方便..... 一.下载安装 dosbox DOSBOX 准备好 masm.exe.link.exe.debug.exe,放在~/dos下(文件夹名字 ...