HR算法具体过程

首先研究HR算法在概率分布估计中的实现，我们再考虑如何将其应用于频繁项挖掘中。

一、确定输入数据类型

def generate_uniform_distribution(k):

    raw_distribution = [1] * k

    sum_raw = sum(raw_distribution)

    prob = [float(y)/float(sum_raw) for y in raw_distribution]

    return prob

prob1 = generate_uniform_distribution(k)

in_list = np.random.choice(10, 10, p=prob)

比如我们假设k=10，我们得到均匀分布概率为p= [0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1]

我们从[0,10)以概率p选取10个数作为输入的样本，也就是输入的值，比如in_list=[6 6 2 9 7 4 0 5 2 8]

in_list是一个在均匀分布下随机样本，类似于一个列表，只不过存储的相同数据类型。

二、编码和扰动输入

1）一些初始化值：

InputSize=AphbetSize

OutSize=int(math.pow(2,math.ceil(math.log(AphbetSize+1,2))))

OutBit=int(math.ceil(math.log(AphbetSize+1,2)))

PrivacyParameters=1/(1+math.exp(PrivacyParameters))

当AphbetSize=10，输出的结果OutSize=16，输出值的大小比输入的可能值要大；

当AphbetSize=10，输出结果OutBit=4，输入阈值较大时，输出位仍然会很小。

2）进行编码

bitin=bin(int(in_symbol)+1)[2:].zfill(outbit)

当输入in_symbol=6，outBit=4，得到bitin=0111；我们将输入的第一位6编码成了0111，将其放入矩阵的第一列；

out1=random.randint(0,math.pow(2,self.outbit)-1)

bitout1=bin(out1)[2:].zfill(self.outbit)

在可能的输出大小OutSize中随机选择一位，并转化成和输出位相等的二进制字符串，比如随机选择了out1=5，bitout1=0101

3）扰动过程：

for i in range(0,self.outbit):

            if int(bitin[i]) == 1:

                out2 = out1 ^ (pow(2,self.outbit - i -1))

                break

当输入的二进制串(0111)的从左边第一个为1时，对out1进行扰动得到潜在的输出out2。

选择输出out1还是out2：

ra = random.random()

       if ra >PrivacyParameters:
          return out2 
       else: 
         return out1

ra=random.random()从0-1中随机选择一个小数

将其和隐私参数比较，如果ra大于隐私参数，则不进行扰动输出out1，否则进行扰动输出out2

4）扰动结果

我们最后对[6 6 2 9 7 4 0 5 2 8]进行迭代得到编码和扰动后的输出：[0, 2, 5, 7, 9, 1, 7, 15, 9, 12]

三、解码字符串

        l = len(out_list)

        count, edges = np.histogram(out_list, range(self.outsz + 1))

        dist = count / float(l)

得到的字符串仅仅是一个和outbit相等的概率分布 p=[0.5 0.25 0. 0.25]

HR算法具体过程的更多相关文章

Java基础-使用JAVA代码剖析MD5算法实现过程
Java基础-使用JAVA代码剖析MD5算法实现过程作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Spark Mllib里的协调过滤的概念和实现步骤、LS、ALS的原理、ALS算法优化过程的推导、隐式反馈和ALS-WR算法
不多说,直接上干货! 常见的推荐算法 1.基于关系规则的推荐 2.基于内容的推荐 3.人口统计式的推荐 4.协调过滤式的推荐 (广泛采用) 协调过滤的概念在现今的推荐技术和算法中,最被大家广泛认可和 ...
算法笔试过程中的几个输入输出python语句
title: python在线笔试学习笔记 localimage: image1 urlname: writenexam categories: summary tags: [writen, exam ...
Rxjs入门实践-各种排序算法排序过程的可视化展示
Rxjs入门实践-各种排序算法排序过程的可视化展示这几天学习下<算法>的排序章节,具体见对排序的总结,想着做点东西,能将各种排序算法的排序过程使用Rxjs通过可视化的方式展示出来,正好练 ...
[dev][ipsec][dpdk] strongswan/dpdk源码分析之ipsec算法配置过程
1 简述 storngswan的配置里用一种固定格式的字符串设置了用于协商的预定义算法.在包协商过程中strongswan将字符串转换为固定的枚举值封在数据包里用于传输. 协商成功之后,这组被协商选中 ...
算法导论（第三版） Exercises4.2（求最大和子数组的算法优化过程）
4.1-1 如所有元素都为负,则返回所有元素中最大的负数. 4.1-2(暴力法求最大和子数组) struct subarray { int start, end, sum; }; void brute ...
推荐系统 BPR 算法求解过程
数据假设: 每个用户之间的偏好行为相互独立同一用户对不同物品的偏序相互独立则优化问题为极大化如下目标: [Reference] 1.论文翻译:BPR:面向隐偏好数据的贝叶斯个性化排序学习模型 2. ...
FP-Tree算法详细过程(Java实现)
我就不说FP-Tree的作用.优点什么的了,直接用例子来解释构建FP-Tree和找出所有频繁项集,第一次写博客,不对之处还请指出. 输入文件: testInput.txt T1 T2 T3 T4 T5 ...
bp算法推导过程
参考:张玉宏<深度学习之美:AI时代的数据处理与最佳实践>265-271页

随机推荐

Navicat软件安装
Navicat_10.1.7永久注册码 NAVH-WK6A-DMVK-DKW3
javascript中 json数据的解析与序列化
首先明确一下概念: json格式数据本质上就是字符串: js对象:JavaScript 中的几乎所有事务都是对象:字符串.数字.数组.日期.函数,等等. json数据的解析: 就是把后端传来的json ...
Python——Message控件
一.messagebox的方法: showerror : 错误提示对话框 showinfo : 信息提示对话框 showwarning : 警告对话框 askokcansel :确认或 ...
动态sql and在前逗号在后
19JDBC初体验
一.JDBC常用类和接口 JDBC(Java DataBase Connectivity,java数据库连接)是一种用于执行SQL语句的Java API.JDBC是Java访问数据库的标准规范,可以为 ...
BZOJ3133[ballmachine]——倍增+优先队列
题目描述有一个装球机器,构造可以看作是一棵树.有下面两种操作: 从根放入一个球,只要下方有空位,球会沿着树滚下.如果同时有多个点可以走,那么会选择编号最小的节点所在路径的方向.比如依次在树根4放2个 ...
云服务器ECS
云服务器Elastic Compute Service(ECS)是阿里云提供的一种基础云计算服务.使用云服务器ECS就像使用水.电.煤气等资源一样便捷.高效.您无需提前采购硬件设备,而是根据业务需要, ...
一个服务器创建两个MySQL
转载:http://www.2cto.com/database/201412/357863.html 将已安装的数据库文件夹复制到另一个目录下打开复制目录下的my.ini文件修改 [client] ...
☆ [NOIp2016] 天天爱跑步「树上差分」
题目类型:LCA+思维传送门:>Here< 题意:给出一棵树,有$M$个人在这棵树上跑步.每个人都从自己的起点$s[i]$跑到终点$t[i]$,跑过一条边的时间为1秒.现在每 ...
robotframework测试用例加入注释
*** Variables ***${HOST} 192.168.132.135${USER} username*** Test Cases ***Simple [Documentation] Sim ...

HR算法具体过程

HR算法具体过程的更多相关文章

随机推荐

热门专题