变分贝叶斯学习（variational bayesian learning）及重参数技巧（reparameterization trick）

zcsh 2024-09-05 18:23:01 原文

摘要：常规的神经网络权重是一个确定的值，贝叶斯神经网络（BNN）中，将权重视为一个概率分布。BNN的优化常常依赖于重参数技巧（reparameterization trick），本文对该优化方法进行概要介绍。

论文地址：http://proceedings.mlr.press/v37/blundell15.pdf

网络权重的点估计

常规神经网络可以基于MLE或MAP对权重作点估计。

基于MLE（maximum likelihood estimation）：

基于MAP（maximum a posteriori）：

对权重施加先验，等价于进行正则化。如果施加的是高斯先验，相当于进行L2正则，如果是一个laplace先验，相当于L1正则。

贝叶斯方法

贝叶斯推断在给定训练数据的情况下，计算网络参数的后验概率，理论上可以通过以下方式对样本标签所服从的分布进行预测：

Hinton等人提出对网络权重的贝叶斯后验分布进行变分估计，变分学习寻找参数θ，来最小化分布q(w|θ）和权重真实后验分布之间的KL距离，这里的参数θ可理解为w所服从分布的参数，比如高斯的μ和σ：

这个loss函数就是变分自由能（variational free energy），也称为期望下界（expected lower bound， ELBO）。

可以将loss函数简记为：

损失函数的后半部分代表与数据相关，称之为似然损失，前半部分与先验有关，称为先验损失。该损失也被称为最小描述长度（minimum description length, MDL）

无偏蒙特卡洛梯度

我们使用梯度下降的方式对上述损失进行优化。

在特定的条件下，期望的微分等于微分的期望。

命题1：假设ε服从分布q(ε)，令w = t(θ, ε)，其中t(θ, ε)是一个确定性函数，假如w的边缘密度q(w|θ)满足q(ε) dε = q(w|θ) dw，那么：

证明：

确定性函数 t(θ, ε)将一个随机噪声和变分后验参数转换为一个变分后验。

令，我们可以将命题1用于优化。通过蒙特卡洛采样，可以通过反向传播算法对网络进行优化。

命题1就是所谓的重参数技巧（reparameterization trick）。

变分高斯后验

基于高斯后验的变分学习训练过程如下：

这里就是常规反向传播算法得到的梯度。

基于tensorflow probability的贝叶斯全连接网络示例

import tensorflow as tf

import tensorflow_probability as tfp

model = tf.keras.Sequential([

    tfp.layers.DenseReparameterization(512, activation=tf.nn.relu),

    tfp.layers.DenseReparameterization(10),

])

logits = model(features)

neg_log_likelihood = tf.nn.softmax_cross_entropy_with_logits(

    labels=labels, logits=logits)

kl = sum(model.losses)

# loss由两部分构成：（1）负对数似然（2）参数分布与其先验分布（regularizer）之间的KL距离

loss = neg_log_likelihood + kl

train_op = tf.train.AdamOptimizer().minimize(loss)

变分贝叶斯学习（variational bayesian learning）及重参数技巧（reparameterization trick）的更多相关文章

PGM学习之六从有向无环图（DAG）到贝叶斯网络（Bayesian Networks）
本文的目的是记录一些在学习贝叶斯网络(Bayesian Networks)过程中遇到的基本问题.主要包括有向无环图(DAG),I-Maps,分解(Factorization),有向分割(d-Separ ...
变分贝叶斯VBEM 由浅入深
变分贝叶斯EM指的是变分贝叶斯期望最大化(VBEM, variational Bayes expectation maximization),这种算法基于变分推理,通过迭代寻找最小化KL(Kullba ...
贝叶斯线性回归（Bayesian Linear Regression）
贝叶斯线性回归(Bayesian Linear Regression) 2016年06月21日 09:50:40 Duanxx 阅读数 54254更多分类专栏: 监督学习版权声明:本文为博主原 ...
lecture10-模型的结合与全贝叶斯学习
这是Hinton的第10课这节课有两篇论文可以作为背景或者课外读物<Adaptive mixtures of local experts>和<Improving neural ne ...
【原】对频率论（Frequentist）方法和贝叶斯方法（Bayesian Methods）的一个总结
注: 本文是对<IPython Interactive Computing and Visualization Cookbook>一书中第七章[Introduction to statis ...
概率图模型（PGM）：贝叶斯网（Bayesian network）初探
1. 从贝叶斯方法(思想)说起 - 我对世界的看法随世界变化而随时变化用一句话概括贝叶斯方法创始人Thomas Bayes的观点就是:任何时候,我对世界总有一个主观的先验判断,但是这个判断会随着世界 ...
概率图模型（PGM） —— 贝叶斯网络（Bayesian Network）
概率图模型是图论与概率方法的结合产物.Probabilistic graphical models are a joint probability distribution defined over ...
机器学习---用python实现朴素贝叶斯算法（Machine Learning Naive Bayes Algorithm Application）
在<机器学习---朴素贝叶斯分类器(Machine Learning Naive Bayes Classifier)>一文中,我们介绍了朴素贝叶斯分类器的原理.现在,让我们来实践一下. 在 ...
贝叶斯方法（Bayesian approach） —— 一种概率解释（probabilistic interpretation）
1. Bayesian approach 对于多项式拟合问题,我们可通过最小二乘(least squares)的方式计算得到模型的参数,最小二乘法又可视为最大似然(maximum likelihood ...

随机推荐

react+lib-flexible适配浏览器宽度配置
p.p1 { margin: 0; font: 12px "Helvetica Neue" } p.p2 { margin: 0; font: 12px "Helveti ...
关于Python编写时候的一些数据格式调用问题
utf-8 可变长度字符串,互联网通用,目的是减少内存占用Unicode 万国码, 对于英文多占用一个字节ASCII码美国编码1个字节Gb2313 中国编码编码 encode解码 decodepy ...
Nodejs学习笔记（4）文件操作 fs 及 express 上传
目录参考资料 1. fs 模块 1.1 读取文件fs.readFile 1.2 写入文件fs.writeFile 1.3 获取文件信息fs.stat 1.4 删除文件fs.unlink 1.5 读取 ...
menuStrip鼠标滑过自动弹出
public partial class FrmMain : Form { public FrmMain() { InitializeComponent(); } private void 退出系统T ...
IPFS是什么？IPFS与Filecoin有什么关系？
Filecoin 基于 IPFS 的去中心化存储网络,是 IPFS 上唯一的激励层,是一个基于区块链技术发行的通证.Filecoin 翻译过来就是文件币,简称为 FIL. 在 FIlecoin 网络中 ...
P1328_生活大爆炸版石头剪刀布(JAVA语言)
题目描述石头剪刀布是常见的猜拳游戏:石头胜剪刀,剪刀胜布,布胜石头.如果两个人出拳一样,则不分胜负.在<生活大爆炸>第二季第8集中出现了一种石头剪刀布的升级版游戏. 升级版游戏在传统的 ...
python3 int() 各数据类型转int
print(int('0b1010',0))#二进制数print(int('0xa',0))#十六进制数print(int('0xa',16))print(int('a',16))print(int( ...
Redis 6.1 redis-cluster-proxy 实践说明
背景 Redis3.0版本之后开始支持了Redis Cluster,Redis也开始有了分布式缓存的概念.关于Redis Cluster的相关说明,可以看之前的几篇文章:Redis Cluster ...
C++并发与多线程学习笔记--多线程数据共享问题
创建和等待多个线程数据和共享问题分析只读的数据有读有写其他案例共享数据的保护案例代码创建和等待多个线程服务端后台开发就需要多个线程执行不同的任务.不同的线程执行不同任务,并返回执行结果. ...
gRPC在 ASP.NET Core 中应用学习（二）
前言: 上一篇文章中简单的对gRPC进行了简单了解,并实现了gRPC在ASP.NET Core中服务实现.客户端调用:那么本篇继续对gRPC的4中服务方法定义.其他使用注意点进一步了解学习一.gRP ...