机器学习之路: 深度学习 tensorflow 神经网络优化算法 学习率的设置
在神经网络中,广泛的使用反向传播和梯度下降算法调整神经网络中参数的取值。

梯度下降和学习率:
假设用 θ 来表示神经网络中的参数, J(θ) 表示在给定参数下训练数据集上损失函数的大小。
那么整个优化过程就是寻找一个参数θ, 使得J(θ) 的值最小, 也就是求J(θ) 的最小值
损失函数J(θ)的梯度 = ∂ J(θ) / ∂ θ
此时定义一个学习率 η
梯度下降法更新参数的公式为: θn+1 = θn - η ( ∂ J(θn) / ∂ θn )
将这个公式循环的重复下去,θ的值就从高处逐渐向最低处一小步一小步的移动
举个例子:
使用梯度下降 使得损失函数函数 J(x) = x2 的值尽量小, 由二次函数图像开口向上可以知道,二次函数最小值为0,
梯度 ▽ = ∂ J(x) / ∂ x = 2x
假设初始值为 x= 5, 设置学习率为0.3
使用梯度下降更新x的值 步骤如下:
轮数 当前参数x 梯度 * 学习率 更新后参数
1 5 2*5*0.3 = 3 5-3=2
2 2 2*2*0.3 = 1.2 2-1.2 = 0.8
3 0.8 2*0.8*0.3 = 0.48 0.8-0.48 = 0.32
4 0.32 2*0.32*0.3 = 0.192 0.32-0.192=0.128
5 0.128 2*0.128*0.3=0.0768 0.128-0.0768=0.0512
经过五次迭代x从5变成了0.0512, 已经和0非常接近了。
但是梯度下降并不能每次都能获得全局最优解。
如果学习率过小,可能会导致陷入局部最优解的情况。如图:

如果学习率过大,很可能在最优解两侧来回回荡,永远也到不了最低点。
举个例子:
使用梯度下降 使得损失函数函数 J(x) = x2 的值尽量小, 由二次函数图像开口向上可以知道,二次函数最小值为0,
梯度 ▽ = ∂ J(x) / ∂ x = 2x
假设初始值为 x= 5, 设置学习率为 1
使用梯度下降更新x的值 步骤如下:
轮数 当前参数x 梯度 * 学习率 更新后参数
1 5 2*5*1= 10 5-10 = -5
2 -5 2*-5*1 =-10 -5+10 = 5
继续下去他仍会来回摆荡,永远无法收敛
可见, 学习率过大或者过小都不好。
tensorflow为我们提供了一种灵活的学习率设置方式----指数衰减: tf.train.exponential_decy函数
每一轮的学习率 = 学习率 * 衰减系数^(global_steps/decay_steps)
随着步数的增加,学习率在变小,并且步数越多,变小的速度越慢
learning_rate = tf.train.exponential_decay(学习率, global_step, decay_step, 衰减系数,staircase=True)
global_step 是当前已经执行多少步了
decay_step 是下降速度,指的是 每隔多少步,学习率指数增长一个
例如:
tf.train.exponential_decay(0.1, global_step, 100, 0.96,staircase=True)
初始学习率0.1 每隔100步 学习率乘以0.96
stairecase 为true的时候,以阶梯方式下降, 为False时候 以平滑曲线下降
机器学习之路: 深度学习 tensorflow 神经网络优化算法 学习率的设置的更多相关文章
- 机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)
##机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)---#####注:机器学习资料[篇目一](https://github.co ...
- 深度学习---tensorflow简介
个core可以有不同的代码路径.对于反向传播算法来说,基本计算就是矩阵向量乘法,对一个向量应用激活函数这样的向量化指令,而不像在传统的代码里会有很多if-else这样的逻辑判断,所以使用GPU加速非常 ...
- 吴裕雄--天生自然 神经网络人工智能项目:基于深度学习TENSORFLOW框架的图像分类与目标跟踪报告(续四)
2. 神经网络的搭建以及迁移学习的测试 7.项目总结 通过本次水果图片卷积池化全连接试验分类项目的实践,我对卷积.池化.全连接等相关的理论的理解更加全面和清晰了.试验主要采用python高级编程语言的 ...
- 机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】
转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...
- AI学习---深度学习&TensorFlow安装
深度学习 深度学习学习目标: 1. TensorFlow框架的使用 2. 数据读取(解决大数据下的IO操作) + 神经网络基础 3. 卷积神经网络的学习 + 验证码识别的案例 机器学习与深度学 ...
- 深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识
深度学习-tensorflow学习笔记(1)-MNIST手写字体识别预备知识 在tf第一个例子的时候需要很多预备知识. tf基本知识 香农熵 交叉熵代价函数cross-entropy 卷积神经网络 s ...
- 深度学习Tensorflow相关书籍推荐和PDF下载
深度学习Tensorflow相关书籍推荐和PDF下载 baihualinxin关注 32018.03.28 10:46:16字数 481阅读 22,673 1.机器学习入门经典<统计学习方法&g ...
- 深度学习-tensorflow学习笔记(2)-MNIST手写字体识别
深度学习-tensorflow学习笔记(2)-MNIST手写字体识别超级详细版 这是tf入门的第一个例子.minst应该是内置的数据集. 前置知识在学习笔记(1)里面讲过了 这里直接上代码 # -*- ...
- 神经网络优化算法:梯度下降法、Momentum、RMSprop和Adam
最近回顾神经网络的知识,简单做一些整理,归档一下神经网络优化算法的知识.关于神经网络的优化,吴恩达的深度学习课程讲解得非常通俗易懂,有需要的可以去学习一下,本人只是对课程知识点做一个总结.吴恩达的深度 ...
随机推荐
- 【leetcode 简单】 第一百一十二题 重复的子字符串
给定一个非空的字符串,判断它是否可以由它的一个子串重复多次构成.给定的字符串只含有小写英文字母,并且长度不超过10000. 示例 1: 输入: "abab" 输出: True 解释 ...
- Linux基础-编译安装Python
终于涉及一点儿专业的了,说实话,对于目前的我难度还是挺大的,这句话送给未来的自己 挑战开始: 首先了解一下Python3.6,底层是由c++开发的,所以在linux下需要C++的支持,必然少不了gcc ...
- cmake设置默认静态链接库
在使用cmake来编写CMakeLists.txt时,如果不特别指明,那么cmake是默认动态链接库的,最终生成的二进制文件只能在与本地相同环境下的机器运行,如果想把生成的二进制拷贝到其他机器上执行, ...
- Java中关于变量的几种情况
Java中关于变量的几种情况 1.继承时变量的引用关系 class Animals { int age = 10; void enjoy() { System.out.println("An ...
- Java基础break、continue语句的用法
break适用范围:只能用于switch或者是循环语句中.当然可以用于增强for循环. break作用: 1. break用于switch语句的作用是结束一个switch语句. 2. break用于循 ...
- 64位linux安装32位校园网客户端
下面的是ubuntu下和arch下的安装方法,ubuntu的转自网络, ubuntu: 下载客户端并解压 安装开发包 1 sudo -i 2 dpkg --add-architecture i386 ...
- select()函数用法一
select()函数用法以及FD_ZERO.FD_SET.FD_CLR.FD_ISSET select函数用于在非阻塞中,当一个套接字或一组套接字有信号时通知你,系统提供select函数来实现多路复用 ...
- Team Foundation Server 2010服务器安装
本安装指南使用Windows Server 2008企业版为基础,安装Windows Server 2008 SP2(必须),在此操作系统环境上进行TFS2010的安装与配置. 三.系统用户设置 1. ...
- scala可变长度参数(转)
可变长度参数 Scala 允许你指明函数的最后一个参数可以是重复的.这可以允许客户向函数传入可变长度参数列表.想要标注一个重复参数,在参数的类型之后放一个星号.例如: scala> def ec ...
- DOS命令基础,包涵DOS库说明书
20种常用的DOS命令小结 作者: 字体:[增加 减小] 类型:转载 DOS命令总共大约有一百个(包括文本编辑.查杀病毒.配置文件.批处理等),我们这里详细介绍二十个常用的DOS命令 先介 ...