HR算法具体过程
首先研究HR算法在概率分布估计中的实现,我们再考虑如何将其应用于频繁项挖掘中。
一、确定输入数据类型
def generate_uniform_distribution(k):
raw_distribution = [1] * k
sum_raw = sum(raw_distribution)
prob = [float(y)/float(sum_raw) for y in raw_distribution]
return prob
prob1 = generate_uniform_distribution(k)
in_list = np.random.choice(10, 10, p=prob)
比如我们假设k=10,我们得到均匀分布概率为p= [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]
我们从[0,10)以概率p选取10个数作为输入的样本,也就是输入的值,比如in_list=[6 6 2 9 7 4 0 5 2 8]
in_list是一个在均匀分布下随机样本,类似于一个列表,只不过存储的相同数据类型。
二、编码和扰动输入
1)一些初始化值:
InputSize=AphbetSize
OutSize=int(math.pow(2,math.ceil(math.log(AphbetSize+1,2))))
OutBit=int(math.ceil(math.log(AphbetSize+1,2))) PrivacyParameters=1/(1+math.exp(PrivacyParameters))
当AphbetSize=10,输出的结果OutSize=16,输出值的大小比输入的可能值要大;
当AphbetSize=10,输出结果OutBit=4,输入阈值较大时,输出位仍然会很小。
2)进行编码
bitin=bin(int(in_symbol)+1)[2:].zfill(outbit)
当输入in_symbol=6,outBit=4,得到bitin=0111;我们将输入的第一位6编码成了0111,将其放入矩阵的第一列;
out1=random.randint(0,math.pow(2,self.outbit)-1)
bitout1=bin(out1)[2:].zfill(self.outbit)
在可能的输出大小OutSize中随机选择一位,并转化成和输出位相等的二进制字符串,比如随机选择了out1=5,bitout1=0101
3)扰动过程:
for i in range(0,self.outbit):
if int(bitin[i]) == 1:
out2 = out1 ^ (pow(2,self.outbit - i -1))
break
当输入的二进制串(0111)的从左边第一个为1时,对out1进行扰动 得到潜在的输出out2。
选择输出out1还是out2:
ra = random.random()
if ra >PrivacyParameters:
return out2
else:
return out1
ra=random.random()从0-1中随机选择一个小数
将其和隐私参数比较,如果ra大于隐私参数,则不进行扰动输出out1,否则进行扰动输出out2
4)扰动结果
我们最后对[6 6 2 9 7 4 0 5 2 8]进行迭代得到编码和扰动后的输出:[0, 2, 5, 7, 9, 1, 7, 15, 9, 12]
三、解码字符串
l = len(out_list)
count, edges = np.histogram(out_list, range(self.outsz + 1))
dist = count / float(l)
得到的字符串仅仅是一个和outbit相等的概率分布 p=[0.5 0.25 0. 0.25]
HR算法具体过程的更多相关文章
- Java基础-使用JAVA代码剖析MD5算法实现过程
Java基础-使用JAVA代码剖析MD5算法实现过程 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任.
- Spark Mllib里的协调过滤的概念和实现步骤、LS、ALS的原理、ALS算法优化过程的推导、隐式反馈和ALS-WR算法
不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐 (广泛采用) 协调过滤的概念 在现今的推荐技术和算法中,最被大家广泛认可和 ...
- 算法笔试过程中的几个输入输出python语句
title: python在线笔试学习笔记 localimage: image1 urlname: writenexam categories: summary tags: [writen, exam ...
- Rxjs入门实践-各种排序算法排序过程的可视化展示
Rxjs入门实践-各种排序算法排序过程的可视化展示 这几天学习下<算法>的排序章节,具体见对排序的总结,想着做点东西,能将各种排序算法的排序过程使用Rxjs通过可视化的方式展示出来,正好练 ...
- [dev][ipsec][dpdk] strongswan/dpdk源码分析之ipsec算法配置过程
1 简述 storngswan的配置里用一种固定格式的字符串设置了用于协商的预定义算法.在包协商过程中strongswan将字符串转换为固定的枚举值封在数据包里用于传输. 协商成功之后,这组被协商选中 ...
- 算法导论(第三版) Exercises4.2(求最大和子数组的算法优化过程)
4.1-1 如所有元素都为负,则返回所有元素中最大的负数. 4.1-2(暴力法求最大和子数组) struct subarray { int start, end, sum; }; void brute ...
- 推荐系统 BPR 算法求解过程
数据假设: 每个用户之间的偏好行为相互独立 同一用户对不同物品的偏序相互独立 则优化问题为极大化如下目标: [Reference] 1.论文翻译:BPR:面向隐偏好数据的贝叶斯个性化排序学习模型 2. ...
- FP-Tree算法详细过程(Java实现)
我就不说FP-Tree的作用.优点什么的了,直接用例子来解释构建FP-Tree和找出所有频繁项集,第一次写博客,不对之处还请指出. 输入文件: testInput.txt T1 T2 T3 T4 T5 ...
- bp算法推导过程
参考:张玉宏<深度学习之美:AI时代的数据处理与最佳实践>265-271页
随机推荐
- python易混易乱(1)
字典 基础操作 <1>keys my_dict = {"name":"zhangsan","age":18} res = my_ ...
- Mvc校验用户没有登录就跳转的实现
看字面意思很简单,就是判断用户是否登录了,如果没有登录就跳转到登陆页面. 没错,主要代码如下(这里就不写判断登录了,直接跳转) 首先在控制器中新建一个BaseController public cla ...
- hdu-4825(01字典树)
题意:中文题意 解题思路:01字典树板子题 代码: #include<iostream> #include<algorithm> #include<cstdio> ...
- 搭建YUM仓库
概述 YUM 主要用于自动安装.升级 rpm 软件包,它能自动查找并解决 rpm 包之间的依赖关系.要功的使用 YUM 工具安装更新软件或系统,就需要有一个包含各种 rpm 软件包的 reposito ...
- Codeforces1037G A Game on Strings 【SG函数】【区间DP】
题目分析: 一开始没想到SG函数,其它想到了就开始敲,后来发现不对才发现了需要SG函数. 把每个字母单独提出来,可以发现有用的区间只有两个字母之间的区间和一个位置到另一个字母的不跨越另一个相同字母的位 ...
- Codeforces Round #505 Div. 1 + Div. 2
传送门:>Here< 从来没打过\(CF\)(由于太晚了)-- 不知道开学了以后有没有机会能够熬夜打几场,毕竟到现在为止都是\(unrated\)好尴尬啊~ 今天早上打了几题前几天的比赛题 ...
- 【BZOJ3771】Triple 生成函数 FFT 容斥原理
题目大意 有\(n\)把斧头,不同斧头的价值都不同且都是\([0,m]\)的整数.你可以选\(1\)~\(3\)把斧头,总价值为这三把斧头的价值之和.请你对于每种可能的总价值,求出有多少种选择方案. ...
- Ajax传递List对象到前台展示问题遇到的坑
后台Json转换 后台传递的List对象,如果对象是实体类,实体类和另一个表关联,就可能会出现以下错误 org.hibernate.LazyInitializationException: faile ...
- 爬虫_拉勾网(selenium)
使用selenium进行翻页获取职位链接,再对链接进行解析 会爬取到部分空列表,感觉是网速太慢了,加了time.sleep()还是会有空列表 from selenium import webdrive ...
- ansible 开源批量管理服务器工具
Ansible 是一款基于 Python 开发的自动化运维工具,可以进行配置管理.批量部署等功能.对于机器较多的场景,可以使用 Ansible 来免去重复敲命令的烦恼. 安装ansibleyum -y ...