从MAP角度理解神经网络训练过程中的正则化

在前面的文章中,已经介绍了从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化,本次我们从最大后验概率点估计(MAP,maximum a posteriori point estimate)的角度来理解神经网络中十分重要的weight decay正则化方法.

前面的文章中讲到了梯度下降法可以从最大似然概率估计(ML)的角度来理解,最大似然是一种典型的频率统计方法,还有一种非常不同的贝叶斯统计方法(具体的区别请参考花书).由于贝叶斯统计方法很多时候是复杂不易于处理的,因此我们更想要一种类似与ML的点估计方法.而MAP正是一种点估计的近似贝叶斯估计方法.MAP选择使得后验概率最大的点作为最优估计,定义如下:\[ \boldsymbol{\theta}_{MAP} = \underset{\boldsymbol{\theta}}{argmax}p(\boldsymbol{\theta}|x) = \underset{\boldsymbol{\theta}}{argmax}log(x|\boldsymbol{\theta})+logp(\boldsymbol{\theta})\]
上式右边\(log(x|\boldsymbol{\theta})\)项正是对数最大似然部分,而\(logp(\boldsymbol{\theta})\)项是先验概率部分.

相较于最大似然估计,MAP多了先验概率部分,而这部分是无法从训练样本中得到的,利用先验概率部分可以起到减小泛化误差的作用.

例如,将先验概率设为权重\(\boldsymbol{w}\)符合均值为0,方差为\(\frac{1}{\lambda}I^{2}\)的高斯分布,则上式中的先验概率项,就可化为形如\(\lambda w^{T}w\)的L2正则化项.
MAP方法提供了一种设计复杂的可解释的正则化方法的直接途径.

从MAP角度理解神经网络训练过程中的正则化的更多相关文章

从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化
从有约束条件下的凸优化角度思考神经网络训练过程中的L2正则化神经网络在训练过程中,为应对过拟合问题,可以采用正则化方法(regularization),一种常用的正则化方法是L2正则化. 神经网络中 ...
（转）理解YOLOv2训练过程中输出参数含义
最近有人问起在YOLOv2训练过程中输出在终端的不同的参数分别代表什么含义,如何去理解这些参数?本篇文章中我将尝试着去回答这个有趣的问题. 刚好现在我正在训练一个YOLOv2模型,拿这个真实的例子来讨 ...
理解YOLOv2训练过程中输出参数含义
原英文地址: https://timebutt.github.io/static/understanding-yolov2-training-output/ 最近有人问起在YOLOv2训练过程中输出在 ...
练习推导一个最简单的BP神经网络训练过程【个人作业/数学推导】
写在前面各式资料中关于BP神经网络的讲解已经足够全面详尽,故不在此过多赘述.本文重点在于由一个"最简单"的神经网络练习推导其训练过程,和大家一起在练习中一起更好理解神经网络训 ...
TensorFlow之tf.nn.dropout()：防止模型训练过程中的过拟合问题
一:适用范围: tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数,它一般用在全连接层二:原理: dropout就是在不同的训练过程中随机扔掉一部分神经元.也就是让 ...
tensorflow训练过程中内存溢出
罪魁祸首是训练过程中给模型传值时的如下语句:
深度学习训练过程中的学习率衰减策略及pytorch实现
学习率是深度学习中的一个重要超参数,选择合适的学习率能够帮助模型更好地收敛. 本文主要介绍深度学习训练过程中的6种学习率衰减策略以及相应的Pytorch实现. 1. StepLR 按固定的训练epoc ...
map在遍历数据的过程中删除数据不出错
// Iterator<Map.Entry<String,Long>> entries = Map.entrySet().iterator(); ...
使用tensorflow下的GPU加速神经网络训练过程
下载CUDA8.0,安装下载cuDNN v5.1安装.放置环境变量等. 其他版本就不装了.不用找其他版本的关系. 使用tensorflow-gpu1.0版本. 使用keras2.0版本. 有提示的. ...

随机推荐

Android Studio 创建项目后“Cannot resolve symbol” 解决办法
报错位置显示 “Cannot resolve symbol XXX”, 解决方法如下: 点击菜单中的 “File” -> “Invalidate Caches / Restart”,然后点击对话 ...
MongoDB学习笔记之文档
#向集合中插入文档有两种方式(insert.save) db.col.insert({title: 'MongoDB 教程', description: 'MongoDB 是一个 Nosql 数据库' ...
WebKitBrowser
WebKit.net是对WebKit的.Net封装, 使用它.net程序可以非常方便的集成和使用webkit作为加载网页的容器. 首先下载WebKit.net 的bin文件. 然后新建一个Wind ...
浮点数的存储、类型转换知识点（面宝P34）
以float a=1.0f为例: (int)a实际上是以浮点数a为参数构造了一个整型数,该整数的值是1: (int&)a则是告诉编译器将a当作整数看(并没有做任何实质上的转换),即读a的内存时 ...
如何让一个sprite绕一个点旋转，同时又可以实现指定旋转角度并慢慢停下的效果
如何让一个sprite绕一个点旋转,同时又可以实现指定旋转角度并慢慢停下的效果首先列出sprite围绕一个点旋转的公式,这个可以自己推导,假设sprite的起始位置为(x1,y1),围绕旋转的中心点 ...
关于Environment类的使用
import org.springframework.core.env.Environment; EnvironmentAware 如何引用这个类1.可以通过 @Autowired织入Environm ...
Java多线程和并发（二），Thread中的start和run的区别
目录 1.调用run方法 2.调用start方法 3.start和run的区别二.Thread中的start和run的区别 1.调用run方法 public class ThreadTest { p ...
CF D. Number Of Permutations 排列
挺水的一道题~ 拿全排列随便乘一下就好了. #include <cstdio> #include <algorithm> #define N 300004 #define ll ...
【Vue】input textarea自动滚动到输入处
由于我这里要把接口返回的日志不断地新增到textarea里,想实现自动滚动日志的效果. 1.首先定一个textarea类型的input组件 <el-input id="textarea ...
Spring Boot教程（三十二）多数据源配置与使用
之前在介绍使用JdbcTemplate和Spring-data-jpa时,都使用了单数据源.在单数据源的情况下,Spring Boot的配置非常简单,只需要在application.propertie ...

从MAP角度理解神经网络训练过程中的正则化

从MAP角度理解神经网络训练过程中的正则化的更多相关文章

随机推荐

热门专题