『cs231n』作业2选讲_通过代码理解优化器

1)、Adagrad
一种自适应学习率算法，实现代码如下：

cache += dx**2

x += - learning_rate * dx / (np.sqrt(cache) + eps)

这种方法的好处是，对于高梯度的权重，它们的有效学习率被降低了；而小梯度的权重迭代过程中学习率提升了。要注意的是，这里开根号很重要。平滑参数eps是为了避免除以0的情况，eps一般取值1e-4 到1e-8。

2)、RMSprop
RMSProp方法对Adagrad算法做了一个简单的优化，以减缓它的迭代强度：

cache = decay_rate * cache + (1 - decay_rate) * dx**2

x += - learning_rate * dx / (np.sqrt(cache) + eps)

其中，decay_rate是一个超参数，其值可以在 [0.9, 0.99, 0.999]中选择。

3)、Adam
Adam有点像RMSProp+momentum，效果比RMSProp稍好，其简化版的代码如下：

m = beta1*m + (1-beta1)*dx

v = beta2*v + (1-beta2)*(dx**2)

x += - learning_rate * m / (np.sqrt(v) + eps)

论文中推荐eps = 1e-8，beta1 = 0.9，beta2 = 0.999。

import numpy as np

"""

输入:

  - w:

  - dw:

  - config: 包含各种超参数

返回:

  - next_w:

  - config: 

"""

def sgd(w, dw, config=None):

  if config is None: config = {}

  config.setdefault('learning_rate', 1e-2)

  w -= config['learning_rate'] * dw

  return w, config

def sgd_momentum(w, dw, config=None):

  """

 结合动量的SGD（最常用）

  - learning_rate:

  - momentum: 动量值

  - velocity: A numpy array of the same shape as w and dw used to store a moving

    average of the gradients.

  """

  if config is None: config = {}

  config.setdefault('learning_rate', 1e-2)

  config.setdefault('momentum', 0.9)

  v = config.get('velocity', np.zeros_like(w))

  next_w = None

  next_w = w

  v = config['momentum']* v - config['learning_rate']*dw

  next_w +=v

  config['velocity'] = v

  return next_w, config

def rmsprop(x, dx, config=None):

  """

  - learning_rate:

  - decay_rate:

  - epsilon: 小数值 避免分母为零

  - cache:

  """

  if config is None: config = {}

  config.setdefault('learning_rate', 1e-2)

  config.setdefault('decay_rate', 0.99)

  config.setdefault('epsilon', 1e-8)

  config.setdefault('cache', np.zeros_like(x))

  next_x = None

  next_x = x

  config['cache'] = config['decay_rate']*config['cache']+(1-config['decay_rate'])*(dx*dx)

  x += -config['learning_rate']* dx / (np.sqrt(config['cache'])+config['epsilon'])

  return next_x, config

def adam(x, dx, config=None):

  """

  - learning_rate

  - beta1: m的衰减率

  - beta2: v的衰减率

  - epsilon

  - m: Moving average of gradient.

  - v: Moving average of squared gradient.

  - t: Iteration number.

  """

  if config is None: config = {}

  config.setdefault('learning_rate', 1e-3)

  config.setdefault('beta1', 0.9)

  config.setdefault('beta2', 0.999)

  config.setdefault('epsilon', 1e-8)

  config.setdefault('m', np.zeros_like(x))

  config.setdefault('v', np.zeros_like(x))

  config.setdefault('t', 0)

  next_x = None

  config['t']+=1

  config['m'] = config['beta1']*config['m'] + (1- config['beta1'])*dx

  config['v'] = config['beta2']*config['v'] + (1- config['beta2'])*(dx**2)

  mb = config['m']/(1-config['beta1']**config['t'])

  vb = config['v']/(1-config['beta2']**config['t'])

  next_x = x -config['learning_rate']* mb / (np.sqrt(vb) + config['epsilon'])

  return next_x, config

『cs231n』作业2选讲_通过代码理解优化器的更多相关文章

『cs231n』作业2选讲_通过代码理解Dropout
Dropout def dropout_forward(x, dropout_param): p, mode = dropout_param['p'], dropout_param['mode'] i ...
『cs231n』作业1选讲_通过代码理解KNN&交叉验证&SVM
通过K近邻算法探究numpy向量运算提速茴香豆的“茴”字有... ... 使用三种计算图片距离的方式实现K近邻算法: 1.最为基础的双循环 2.利用numpy的broadca机制实现单循环 3.利用 ...
『cs231n』作业3问题1选讲_通过代码理解RNN&图像标注训练
一份不错的作业3资料(含答案) RNN神经元理解单个RNN神经元行为括号中表示的是维度向前传播 def rnn_step_forward(x, prev_h, Wx, Wh, b): " ...
『cs231n』作业3问题3选讲_通过代码理解图像梯度
Saliency Maps 这部分想探究一下 CNN 内部的原理,参考论文 Deep Inside Convolutional Networks: Visualising Image Classifi ...
『cs231n』作业3问题2选讲_通过代码理解LSTM网络
LSTM神经元行为分析 LSTM 公式可以描述如下: itftotgtctht=sigmoid(Wixxt+Wihht−1+bi)=sigmoid(Wfxxt+Wfhht−1+bf)=sigmoid( ...
『cs231n』作业3问题4选讲_图像梯度应用强化
[注],本节(上节也是)的model是一个已经训练完成的CNN分类网络. 随机数图片向前传播后对目标类优化,反向优化图片本体 def create_class_visualization(target ...
『cs231n』计算机视觉基础
线性分类器损失函数明细: 『cs231n』线性分类器损失函数最优化Optimiz部分代码: 1.随机搜索 bestloss = float('inf') # 无穷大 for num in range ...
『cs231n』通过代码理解风格迁移
『cs231n』卷积神经网络的可视化应用文件目录 vgg16.py import os import numpy as np import tensorflow as tf from downloa ...
『TensorFlow』SSD源码学习_其一：论文及开源项目文档介绍
一.论文介绍读论文系列:Object Detection ECCV2016 SSD 一句话概括:SSD就是关于类别的多尺度RPN网络基本思路: 基础网络后接多层feature map 多层feat ...

随机推荐

MYSQL的存储过程和函数简单写法
存储过程 MySQL中,创建存储过程的基本形式如下: CREATE PROCEDURE sp_name ([proc_parameter[,...]]) [characteristic ...] ro ...
在uboot中加入cmd_run命令，运行环境变量
在学习uboot的过程中会经常烧录程序,每次都要敲一些下载指令.这样是不是很麻烦,有什么办法能快速的烧写呢.很简单,将需要敲击的指令编译到uboot中,以环境变量的形式存在.但是环境变量很好加,如何运 ...
如何解析读取excel数据
简介前段时间完成了一个输出excel的任务,感觉挺开心的,用的就是Apache POI的jar包,Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Mic ...
Python3基础 dict keys+values 循环打印字典中的所有键和值
Python : 3.7.0 OS : Ubuntu 18.04.1 LTS IDE : PyCharm 2018.2.4 Conda ...
Windows下卸载软件时提示等待先前的卸载完成？终止 dllhost.exe 进程
只要结束进程中的 "dllhost" 进程就好了. 估计原因是, 当卸载某些 "所谓的"较大型的软件的时候, 要去更新, 更改系统对dll链接库的注册, 更新. ...
BZOJ5142: [Usaco2017 Dec]Haybale Feast 线段树或二分答案
Description Farmer John is preparing a delicious meal for his cows! In his barn, he has NN haybales ...
json获取元素数量
var keleyijson={"plug1":"myslider","plug2":"zonemenu"} funct ...
如何加速tomcat启动速度
在tomcat启动的时候,我们可以做一些优化设置来使得tomcat的启动更快速,下面是一些常见的优化加速启动的方法建议(以tomcat-7.+为例说明). 1. Jars包 1.1.将一些不必要的j ...
NetMagic Simple Overview
参考: NetMagic Startup: How to develop NetMagic rapidly NetMagic Simple Overview NetMagic 是什么? NetMagi ...
使用caffe训练自己的图像数据（未完）
参考博客:blog.csdn.net/drrlalala/article/details/47274549 1,首先在网上下载图片,猫和狗.直接保存下载该网页,会生成一个有图片的文件夹.caffe-m ...

『cs231n』作业2选讲_通过代码理解优化器

『cs231n』作业2选讲_通过代码理解优化器的更多相关文章

随机推荐

热门专题