之前在tensorflow上和caffe上都折腾过CNN用来做视频处理,在学习tensorflow例子的时候代码里面给的优化方案默认很多情况下都是直接用的AdamOptimizer优化算法,如下: optimizer = tf.train.AdamOptimizer(learning_rate=lr).minimize(cost) 1 但是在使用caffe时solver里面一般都用的SGD+momentum,如下: base_lr: 0.0001 momentum: 0.9 weight_dec…
最近回顾神经网络的知识,简单做一些整理,归档一下神经网络优化算法的知识.关于神经网络的优化,吴恩达的深度学习课程讲解得非常通俗易懂,有需要的可以去学习一下,本人只是对课程知识点做一个总结.吴恩达的深度学习课程放在了网易云课堂上,链接如下(免费): https://mooc.study.163.com/smartSpec/detail/1001319001.htm 神经网络最基本的优化算法是反向传播算法加上梯度下降法.通过梯度下降法,使得网络参数不断收敛到全局(或者局部)最小值,但是由于神经网络层…
1. 训练误差和泛化误差 机器学习模型在训练数据集和测试数据集上的表现.如果你改变过实验中的模型结构或者超参数,你也许发现了:当模型在训练数据集上更准确时,它在测试数据集上却不⼀定更准确.这是为什么呢? 因为存在着训练误差和泛化误差: 训练误差:模型在训练数据集上表现出的误差. 泛化误差:模型在任意⼀个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似. 训练误差的期望小于或等于泛化误差.也就是说,⼀般情况下,由训练数据集学到的模型参数会使模型在训练数据集上的表现优于或等于在测…
在神经网络中,广泛的使用反向传播和梯度下降算法调整神经网络中参数的取值. 梯度下降和学习率: 假设用 θ 来表示神经网络中的参数, J(θ) 表示在给定参数下训练数据集上损失函数的大小. 那么整个优化过程就是寻找一个参数θ, 使得J(θ) 的值最小, 也就是求J(θ) 的最小值 损失函数J(θ)的梯度 = ∂ J(θ) / ∂ θ 此时定义一个学习率 η 梯度下降法更新参数的公式为: θn+1 = θn - η ( ∂ J(θn) / ∂ θn ) 将这个公式循环的重复下去,θ的值就从高处逐渐向…
在前面两篇文章中,我们用一个框架梳理了各大优化算法,并且指出了以Adam为代表的自适应学习率优化算法可能存在的问题.那么,在实践中我们应该如何选择呢? 本文介绍Adam+SGD的组合策略,以及一些比较有用的tricks. 回顾前文: Adam那么棒,为什么还对SGD念念不忘 (1) Adam那么棒,为什么还对SGD念念不忘 (2) 不同优化算法的核心差异:下降方向 从第一篇的框架中我们看到,不同优化算法最核心的区别,就是第三步所执行的下降方向: 这个式子中,前半部分是实际的学习率(也即下降步长)…
一.序言 Adam是神经网络优化的另一种方法,有点类似上一篇中的“动量梯度下降”,实际上是先提出了RMSprop(类似动量梯度下降的优化算法),而后结合RMSprop和动量梯度下降整出了Adam,所以这里我们先由动量梯度下降引申出RMSprop,最后再介绍Adam.不过,由于RMSprop.Adam什么的,真的太难理解了,我就只说实现不说原理了. 二.RMSprop 先回顾一下动量梯度下降中的“指数加权平均”公式: vDW1 = beta*vDW0 + (1-beta)*dw1 vDb1 = b…
一.完善常用概念和细节 1.神经元模型: 之前的神经元结构都采用线上的权重w直接乘以输入数据x,用数学表达式即,但这样的结构不够完善. 完善的结构需要加上偏置,并加上激励函数.用数学公式表示为:.其中f为激励函数. 神经网络就是由以这样的神经元为基本单位构成的. 2.激活函数 引入非线性激活因素,提高模型的表达力. 常用的激活函数有: (1)relu函数,用 tf.nn.relu()表示 (2)sigmoid函数,用 tf.nn.sigmoid()表示 (3)tanh函数,用 tf.nn.tan…
动图示例实在太好 图像.神经网络优化利器:了解Halide  Oldpan  2019年4月17日  0条评论  1,327次阅读  3人点赞 前言 Halide是用C++作为宿主语言的一个图像处理相关的DSL(Domain Specified Language)语言,全称领域专用语言.主要的作用为在软硬层面上(与算法本身的设计无关)实现对算法的底层加速,我们有必要对其有一定的了解.因为不论是传统的图像处理方法亦或是深度学习应用都使用到了halide的思想. 其中,在OpenCV(传统图像处理库…
前言 有段时间没有进行我们的微软数据挖掘算法系列了,最近手头有点忙,鉴于上一篇的神经网络分析算法原理篇后,本篇将是一个实操篇,当然前面我们总结了其它的微软一系列算法,为了方便大家阅读,我特地整理了一篇目录提纲篇:大数据时代:深入浅出微软数据挖掘算法总结连载,我打算将微软商业智能中在DM这块所用到的算法全部集中在这个系列中,每篇包含简要算法原理.算法特点.应用场景以及具体的操作详细步骤,基本能涵盖大部分的商业数据挖掘的应用场景,有兴趣的童鞋可以点击查阅.本篇我们将要总结的算法为:Microsoft…
Halide视觉神经网络优化 概述 Halide是用C++作为宿主语言的一个图像处理相关的DSL(Domain Specified Language)语言,全称领域专用语言.主要的作用为在软硬层面上(与算法本身的设计无关)实现对算法的底层加速,有必要对其有一定的了解.因为不论是传统的图像处理方法亦或是深度学习应用都使用到了halide的思想. 其中,在OpenCV(传统图像处理库)中部分算法使用了Halide后端,而TVM(神经网络编译器)也是用了Halide的思想去优化神经网络算子. Hali…