L1-Some Attempts at Data Privacy

本随笔基于Gautam Kamath教授的系列课程:CS 860 - Algorithms for Private Data Analysis - Fall 2020

本课的目的在于介绍一些信息加密的失败案例,介绍一些数据隐私安全的基本概念

纽约市出租车数据集泄露问题

案发经过:

  • 纽约市向市民公开了一份出租车大数据集
  • 其中所有数据都没有标出具体的车牌号码,而采用一个唯一标识码(medallion number)去掩盖
  • 但是其中发现了一个人的收入远远高于其他出租车司机
  • 经过查表\(MD5\)发现,这个人的唯一标识码(cfcd208495d565ef66e7dff9f98764da)就是\(0\),也就是缺失值
  • 因为司机的车牌号码都是短短的几个字母,为此可以通过快速的查表\(MD5\)查出结果

问题反思:

  • 有人提出不用原数据生成这项唯一标识码,而是重新生成一组随机的数字作为唯一标识码,是否可行?

    • 显然是依旧存在问题的,假若你乘搭某位司机的出租车之后,记录下具体的位置以及时间及其对应的车牌号码。再重新对发布的数据集进行关联分析,极易就能找出这位司机的敏感隐私信息

网飞奖金赛

案发经过:

  • 网飞举办一个奖金赛:提供训练集以向参赛者募集最为强大的推荐模型
  • 网飞官方的提供的数据集都进行了匿名化处理,这是依据法律必须做的
  • 但是这样的作法并非万无一失,攻击者通过用IMDb得到评论数据集(没有匿名化的),再对网飞发布的匿名数据集进行关联分析
  • 即得到了网飞数据集中每一个数据的作成者

问题反思:

  • 显然通过匿名化处理的数据集弱不禁风,完全不足以保护隐私

神经网络的记忆问题

采用一个模型或者函数来表示是否可以避免隐私泄露的问题?显然不可能。

攻击手段

  • 针对一个基于词袋\(Y\)训练好,特定的自然语言模型\(f_\theta\),给定一个特定的序列\(x_1,\dots,x_n\)

  • 那么给出\(log-perplexity\)的定义

    \[P_\theta(x_q, \dots,x_n)=-\log_2Pr(x_1,\dots,x_n | f_\theta)=\sum^n_{i=1}(-\log_2Pr(x_i|f_\theta(x_1,\dots,x_{i-1})))
    \]
  • 这个指数在对于敏感数据时会呈现出低的分数

\(k\)-匿名化(\(k\)-anonymity)

如果说去掉一些敏感的唯一标识码,即如名字或者别的东西。只保留不敏感的伪标识符如生日、邮政编码以及性别,然后将至少\(k-1\)个拥有相同伪标识符整合在一起,称为\(k\)-匿名化(\(k\)-anonymity),如图两个表分别是\(4\)-匿名化以及\(6\)-匿名化

但是,这种隐私加密方法仍然并非天衣无缝的,假若说我们得知医院一位35岁的病人,那么依据左表即可得知他患有癌症。

数据挖掘 | 数据隐私(1) | 差分隐私 | 挑战数据隐私(Some Attempts at Data Privacy)的更多相关文章

  1. MindArmour差分隐私

    MindArmour差分隐私 总体设计 MindArmour的Differential-Privacy模块,实现了差分隐私训练的能力.模型的训练主要由构建训练数据集.计算损失.计算梯度以及更新模型参数 ...

  2. MindSpore:基于本地差分隐私的 Bandit 算法

    摘要:本文将先简单介绍Bandit 问题和本地差分隐私的相关背景,然后介绍基于本地差分隐私的 Bandit 算法,最后通过一个简单的电影推荐场景来验证 LDP LinUCB 算法. Bandit问题是 ...

  3. 差分隐私(Differential Privacy)定义及其理解

    1 前置知识 本部分只对相关概念做服务于差分隐私介绍的简单介绍,并非细致全面的介绍. 1.1 随机化算法 随机化算法指,对于特定输入,该算法的输出不是固定值,而是服从某一分布. 单纯形(simplex ...

  4. 基于SaaS的企业数据隐私保护平台

    导读 WireWheel成立于2016年,总部位于华盛顿,该公司致力于降低数据隐私保护合规能力建设的难度,帮助企业来应对复杂.严厉的法案.条例规定.2018年10月,公司获得了PSP Growth领投 ...

  5. 腾讯数据安全专家谈联邦学习开源项目FATE:通往隐私保护理想未来的桥梁

    数据孤岛.数据隐私以及数据安全,是目前人工智能和云计算在大规模产业化应用过程中绕不开的“三座大山”. “联邦学习”作为新一代的人工智能算法,能在数据不出本地的情况下,实现共同建模,提升AI模型的效果, ...

  6. 人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载

    人工智能大数据,公开的海量数据集下载,ImageNet数据集下载,数据挖掘机器学习数据集下载 ImageNet挑战赛中超越人类的计算机视觉系统微软亚洲研究院视觉计算组基于深度卷积神经网络(CNN)的计 ...

  7. TVM 高效保护隐私 ML

    TVM 高效保护隐私 ML 这篇文章描述了Myelin,一个在值得信赖的硬件飞地中保护隐私的机器学习框架,以及TVM如何使Myelin快速.关键的想法是,TVM,不像其它流行的ML框架,将模型编译成轻 ...

  8. 一切为了解决隐私问题,绿洲实验室Ekiden协议介绍

    绿洲实验室官网截图 下一代区块链平台的竞争已经悄然展开,每个月我们都能看到新成立的创业公司宣称,他们要采用区块链解决所有问题.大约80-90%的区块链项目,运行在像Ethereum这样的平台上. 创建 ...

  9. Federated Machine Learning: Concept and Applications

    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Qiang Yang, Yang Liu, Tianjian Chen, and Yongxin Tong. 2019. Federate ...

  10. MindSpore联邦学习框架解决行业级难题

    内容来源:华为开发者大会2021 HMS Core 6 AI技术论坛,主题演讲<MindSpore联邦学习框架解决隐私合规下的数据孤岛问题>. 演讲嘉宾:华为MindSpore联邦学习工程 ...

随机推荐

  1. 【CLS数据淘金第四期】网络流日志-云联网日志分析

    导语 云联网(Cloud Connect Network,CCN)云联网覆盖全球 20+ 地域,提供云上私有网络间(VPC).VPC 与本地数据中心间(IDC)内网互联的服务,具备全网多点互联.路由自 ...

  2. PDF 图书

    我找到的深入介绍 PDF 结构的图书主要有 2 本: PDF Explained,这本书比较早,首发于 2011 年11 月 30 日 Developing with PDF,首发于 2013年10月 ...

  3. zz 失血模型与充血模型等

    失血模型与充血模型 | 三秋 (贫血模型)优点是系统的层次结构清楚,各层之间单向依赖,Client->(BusinessFacade)->BusinessLogic->Data Ac ...

  4. Nginx+ModSecurity(WAF) 加强 Web 应用程序安全性

    Nginx 和 ModSecurity 加强 Web 应用程序的安全性 在当今互联网时代,Web 应用程序的安全性变得尤为重要.为了保护应用程序和用户的数据免受恶意攻击和漏洞利用,使用合适的工具和技术 ...

  5. 转载 Python 存储与读取HDF5文件

    HDF5 简介 HDF(Hierarchical Data Format)指一种为存储和处理大容量科学数据设计的文件格式及相应库文件.HDF 最早由美国国家超级计算应用中心 NCSA 开发,目前在非盈 ...

  6. Macos 安装md5sum、sha1sum、md5deep、sha1deep

    一.安装md5sum和sha1sum 方法一:brew 安装 # brew install md5sha1sum 方法二:编译安装 源码下载地址:http://www.microbrew.org/to ...

  7. Qt开发经验小技巧246-250

    在编写类中有时候需要对变量进行赋值和取值,这时候一般用 setxxx.getxxx 之类的函数进行处理,而且往往里面就一行代码,这时候你可能会思考为何不直接将变量改成public暴露出来使用,还可以省 ...

  8. Qt编写的项目作品14-智能安防集中管理平台

    一.功能特点 同时集成了楼宇对讲.住户报警.门禁控制.公共报警.视频监控等模块. 系统管理部分包括系统配置.对讲配置.住户配置.公共配置.监控配置.地图管理.视频联动.用户管理.区域管理. 图形化的实 ...

  9. 主打一个“小巧灵动”:Vite + Svelte

    作者:来自 vivo 互联网大前端团队-  Wei Xing 在研发小型项目时,传统的 Vue.React 显得太"笨重".本文主要针对开发小型项目的场景,谈谈 Vite+Svel ...

  10. 大型IM稳定性监测实践:手Q客户端性能防劣化系统的建设之路

    本文来自腾讯手Q基础架构团队杨萧玉.邱少雄.张自蹊.王褚重天.姚伟斌的分享,原题"QQ 客户端性能稳定性防劣化系统 Hodor 技术方案",下文进行了排版和内容优化. 1.引言 接 ...