深度模型的优化

回顾概念：
代价函数时训练集上损失函数的平均：
\[J(\theta)=E_{(x,y)\sim \hat{p}_{data}}L(f(x;\theta),y) \tag{1}\]

引入概念：

概念	描述
批量梯度算法	使用整个训练集的优化算法，可计算更精确的梯度估计，但回报小于线性
批量batch	整个数据集中的一组样本构成的子集
随机算法(在线算法)	每次只使用一个样本的优化算法，难以充分利用多核结构
小批量随机方法	介于批量梯度算法和在线梯度算法之间的方法

小批量

随机抽取；通常做法是：将数据集的顺序打乱一次，然后按这个乱序进行顺序抽取；
通常多次遍历整个数据集。(第一次遍历是无偏估计，后面的遍历就是有偏估计了)；

随机梯度下降(SGD)

从原始数据集中抽取m个样本的小批量。共进行\(\tau\)次迭代，其中第k次迭代的参数\(\theta\)更新算法如下：

设置学习率\(\epsilon_k\)和初始参数\(\theta\)

\(while\ 停止准则未满足\ do\)

\(\quad\)从数据集中拿到m个样本的小批量；

\(\quad\)计算梯度估计：\(\hat{g}\leftarrow +\frac{1}{m}\nabla_{\theta}\sum_iL(f(x_i;\theta),y_i)\)

\(\quad\)更新参数\(\theta\leftarrow\theta-\epsilon_k\hat{g}\)

\(end\ while\)

一般实践中，第k次迭代的学习率为：
\[\begin{aligned}
\epsilon_k=\lbrace
\begin{matrix}
(1-\alpha)\epsilon_0+\alpha\epsilon_{\tau},\ &k<\tau\\
\epsilon_{\tau},\ &k\geq\tau
\end{matrix}
\end{aligned}
\]
其中

\(\alpha =\frac{k}{\tau}\)
\(\tau\)常设置为反复遍历整个训练集几百次的迭代次数；
\(\epsilon_{\tau}\)设置为\(\epsilon_0\)的1%。
\(\epsilon_0\)的选择：检测最早的几轮迭代，选择一个比在效果上表现最佳的学习率更大的学习率。但不能太大引起振荡。

使用动量的随机梯度下降

设置学习率\(\epsilon\)，动量参数\(\alpha\)和初始参数\(\theta\)，速度\(v\)

\(while\ 停止准则未满足\ do\)

\(\quad\)从数据集中拿到m个样本的小批量；

\(\quad\)计算梯度估计：\(g\leftarrow +\frac{1}{m}\nabla_{\theta}\sum_iL(f(x_i;\theta),y_i)\)

\(\quad\)计算速度更新：\(v\leftarrow\alpha v-\epsilon g\)

\(\quad\)更新参数\(\theta\leftarrow\theta+v\)

\(end\ while\)

这样随机梯度下降的速度更快，加快了训练速度。

另一种算法：

设置学习率\(\epsilon\)，动量参数\(\alpha\)和初始参数\(\theta\)，速度\(v\)

\(while\ 停止准则未满足\ do\)

\(\quad\)从数据集中拿到m个样本的小批量；

\(\quad\)计算梯度估计：\(g\leftarrow +\frac{1}{m}\nabla_{\theta}\sum_iL(f(x_i;\theta+\alpha v),y_i)\)

\(\quad\)计算速度更新：\(v\leftarrow\alpha v-\epsilon g\)

\(\quad\)更新参数\(\theta\leftarrow\theta+v\)

\(end\ while\)

参数初始化策略

偏置：默认初始化为启发式挑选的小常数。
权重：高斯或均匀分布中随机抽取的小值。
8.3-8.7看不下去了。后面补上吧。

TensorFlow学习笔记9-深度模型的优化的更多相关文章

Tensorflow学习笔记No.11
图像定位图像定位是指在图像中将我们需要识别的部分使用定位框进行定位标记,本次主要讲述如何使用tensorflow2.0实现简单的图像定位任务. 我所使用的定位方法是训练神经网络使它输出定位框的四个顶 ...
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识在tf第一个例子的时候需要很多预备知识. tf基本知识香农熵交叉熵代价函数cross-entropy 卷积神经网络 s ...
深度学习-tensorflow学习笔记(2)-MNIST手写字体识别
深度学习-tensorflow学习笔记(2)-MNIST手写字体识别超级详细版这是tf入门的第一个例子.minst应该是内置的数据集. 前置知识在学习笔记(1)里面讲过了这里直接上代码 # -*- ...
tensorflow学习笔记——使用TensorFlow操作MNIST数据（2）
tensorflow学习笔记——使用TensorFlow操作MNIST数据(1) 一:神经网络知识点整理 1.1,多层:使用多层权重,例如多层全连接方式以下定义了三个隐藏层的全连接方式的神经网络样例 ...
tensorflow学习笔记——自编码器及多层感知器
1,自编码器简介传统机器学习任务很大程度上依赖于好的特征工程,比如对数值型,日期时间型,种类型等特征的提取.特征工程往往是非常耗时耗力的,在图像,语音和视频中提取到有效的特征就更难了,工程师必须在这 ...
TensorFlow学习笔记——LeNet-5（训练自己的数据集）
在之前的TensorFlow学习笔记——图像识别与卷积神经网络(链接:请点击我)中了解了一下经典的卷积神经网络模型LeNet模型.那其实之前学习了别人的代码实现了LeNet网络对MNIST数据集的训练 ...
tensorflow学习笔记——VGGNet
2014年,牛津大学计算机视觉组(Visual Geometry Group)和 Google DeepMind 公司的研究员一起研发了新的深度卷积神经网络:VGGNet ,并取得了ILSVRC201 ...
tensorflow学习笔记——使用TensorFlow操作MNIST数据（1）
续集请点击我:tensorflow学习笔记——使用TensorFlow操作MNIST数据(2) 本节开始学习使用tensorflow教程,当然从最简单的MNIST开始.这怎么说呢,就好比编程入门有He ...
TensorFlow学习笔记10-卷积网络
卷积网络卷积神经网络(Convolutional Neural Network,CNN)专门处理具有类似网格结构的数据的神经网络.如: 时间序列数据(在时间轴上有规律地采样形成的一维网格): 图像数 ...

随机推荐

Nginx1.3.15导致Wordpress,Drupal等框架无限重定向的解决方案
Wordpress建立的站点出现无限循环重定向问题.很多人遇到这个问题,并不是单纯Wordpress,Drupal, PHPCake等框架也都遇到同样的问题. 新版本的Nginx在收到 http:// ...
Docker学习笔记--传送门(持续更新)
1.ubuntu下安装docker: https://www.cnblogs.com/salmonLeeson/p/11609699.html 2.为docker配置国内镜像加速器:https:// ...
Effective C++条款05：了解C++默默编写并调用哪些函数
class Empty{}; class Empty{ Empty(){}; Empty(const Empty& rhs){}; ~Empty(){}; Empty& operato ...
六、ARM 寻址方式
寻址方式是针对源操作数来说的 6.1 立即数寻址源操作数是立即数立即数:操作码以 # 号开头的数字为立即数立即数寻址: MOV R0, #0x300 伪指令: LDR R0 ...
ubuntu(linux)如何安装nginx？
之前要在linux下面安装nginx,弄了半天,终于搞定了,下面给大家详细一下安装流程及安装报错解决方案: 安装共分为5步搞定: 1.进入src目录(下载存放目录) cd /usr/loca ...
4.Pod控制器
Controller-manager: Kube-controller-manager Cloud-controller-manager:在K8S上启用CloudProvider的时候才需要,用来配合 ...
文本检错——中文拼写检查工具FASPell
最近因为相关项目需要考虑中文文本检错,然后就发现了爱奇艺发布的号称SOTA的FASPell已经开源代码,所以开始着手实现. 检错思想两步:一,掩码语言模型(MLM)产生候选字符:二,CSD过滤候选字符 ...
js中的与和或 , && ,||
|| 1.只要"||"前面为false,不管"||"后面是true还是false,都返回"||"后面的值. 2.只要"||&quo ...
echart--如何在折线图上添加矩形背景（可以借用bar柱状图的实现效果）
当鼠标滑过,如何在折线图上添加矩形背景图呢? 具体如下: 上面的dataShadow的来源
spting-security入门
spting-security入门 11-

TensorFlow学习笔记9-深度模型的优化