原文链接：https://developers.google.com/machine-learning/crash-course/training-neural-networks/

反向传播算法是最常见的一种神经网络训练算法。
借助这种算法，梯度下降法在多层神经网络中将成为可行方法。
TensorFlow 可自动处理反向传播算法，因此不需要对该算法作深入研究。

1- 最佳做法

1.1 失败案例

很多常见情况都会导致反向传播算法出错。

梯度消失

较低层（更接近输入）的梯度可能会变得非常小。
在深度网络中，计算这些梯度时，可能涉及许多小项的乘积。
当较低层的梯度逐渐消失到 0 时，这些层的训练速度会非常缓慢，甚至不再训练。
ReLU 激活函数有助于防止梯度消失。

梯度爆炸

如果网络中的权重过大，则较低层的梯度会涉及许多大项的乘积。
在这种情况下，梯度就会爆炸：梯度过大导致难以收敛。
批标准化可以降低学习速率，因而有助于防止梯度爆炸。

ReLU 单元消失

一旦 ReLU 单元的加权和低于 0，ReLU 单元就可能会停滞。
它会输出对网络输出没有任何贡献的 0 激活，而梯度在反向传播算法期间将无法再从中流过。
由于梯度的来源被切断，ReLU 的输入可能无法作出足够的改变来使加权和恢复到 0 以上。
降低学习速率有助于防止 ReLU 单元消失。

1.2 丢弃正则化

这是称为丢弃的另一种形式的正则化，可用于神经网络。
其工作原理是，在梯度下降法的每一步中随机丢弃一些网络单元。丢弃得越多，正则化效果就越强：

0.0 = 无丢弃正则化。
1.0 = 丢弃所有内容。模型学不到任何规律。
0.0 和 1.0 之间的值更有用。

2- 练习

xxx

3- 关键词

激活函数 (activation function)
一种函数（例如 ReLU 或 S 型函数），用于对上一层的所有输入求加权和，然后生成一个输出值（通常为非线性值），并将其传递给下一层。

反向传播算法 (backpropagation)
在神经网络上执行梯度下降法的主要算法。
该算法会先按前向传播方式计算（并缓存）每个节点的输出值，然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

丢弃正则化 (dropout regularization)
正则化的一种形式，在训练神经网络方面非常有用。
丢弃正则化的运作机制是，在一个梯度步长中移除从神经网络层中随机选择的固定数量的单元。
丢弃的单元越多，正则化效果就越强。这类似于训练神经网络以模拟较小网络的指数级规模集成学习。

梯度下降法 (gradient descent)
一种通过计算并且减小梯度将损失降至最低的技术，它以训练数据为条件，来计算损失相对于模型参数的梯度。
通俗来说，梯度下降法以迭代方式调整参数，逐渐找到权重和偏差的最佳组合，从而将损失降至最低。

修正线性单元 (ReLU, Rectified Linear Unit)
一种激活函数，其规则如下：

如果输入为负数或 0，则输出 0。
如果输入为正数，则输出等于输入。

4- 其他

反向传播算法
反向传播算法是最常见的一种神经网络训练算法。
借助这种算法，梯度下降法在多层神经网络中将成为可行方法。
TensorFlow 可自动处理反向传播算法，因此不需要对该算法作深入研究。
反向传播工作原理演示：https://google-developers.appspot.com/machine-learning/crash-course/backprop-scroll/
注意：

数据如何流经图表。
可以如何借助动态规划避免计算图表中数量达指数级别的路径。这里的“动态规划”仅仅是指记录正向传播和反向传播的中间结果。

机器学习入门15 - 训练神经网络 (Training Neural Networks)的更多相关文章

实现径向变换用于样本增强《Training Neural Networks with Very Little Data-A Draft》
背景: 做大规模机器学习算法,特别是神经网络最怕什么--没有数据!!没有数据意味着,机器学不会,人工不智能!通常使用样本增强来扩充数据一直都是解决这个问题的一个好方法. 最近的一篇论文<Trai ...
A Recipe for Training Neural Networks [中文翻译, part 1]
最近拜读大神Karpathy的经验之谈 A Recipe for Training Neural Networks https://karpathy.github.io/2019/04/25/rec ...
吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第三周：浅层神经网络(Shallow neural networks) -课程笔记
第三周:浅层神经网络(Shallow neural networks) 3.1 神经网络概述(Neural Network Overview) 使用符号$ ^{[
1506.01186-Cyclical Learning Rates for Training Neural Networks
1506.01186-Cyclical Learning Rates for Training Neural Networks 论文中提出了一种循环调整学习率来训练模型的方式. 如下图: 通过循环的线 ...
循环神经网络(Recurrent Neural Networks, RNN)介绍
目录 1 什么是RNNs 2 RNNs能干什么 2.1 语言模型与文本生成Language Modeling and Generating Text 2.2 机器翻译Machine Translati ...
（转）A Recipe for Training Neural Networks
A Recipe for Training Neural Networks Andrej Karpathy blog 2019-04-27 09:37:05 This blog is copied ...
Training Neural Networks: Q&A with Ian Goodfellow, Google
Training Neural Networks: Q&A with Ian Goodfellow, Google Neural networks require considerable t ...
吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第四周：深层神经网络(Deep Neural Networks)-课程笔记
第四周:深层神经网络(Deep Neural Networks) 4.1 深层神经网络(Deep L-layer neural network) 有一些函数,只有非常深的神经网络能学会,而更浅的模型则 ...
机器学习入门06 - 训练集和测试集 (Training and Test Sets)
原文链接:https://developers.google.com/machine-learning/crash-course/training-and-test-sets 测试集是用于评估根据训练 ...

随机推荐

chrome 全屏的两种方式
新建脚本start.bat 自动全屏模式 "C:\Program Files\Google\Chrome\Application\chrome.exe" --kiosk http: ...
C#实现视频监控客户端onvif协议一
前言最近做的项目是监控方面的,需要对接各种摄像头,之前的方案是把各个厂家的SDK都集成到系统中,然后让用户进行切换,后来知道了Onvif (自行百度具体概念)这个东西.原来早就有人一统江湖了. on ...
UOJ#374. 【ZJOI2018】历史贪心,LCT
原文链接https://www.cnblogs.com/zhouzhendong/p/UOJ374.html 题解想出正解有点小激动. 不过因为傻逼错误调到自闭.不如贺题首先我们考虑如何 $O(n ...
Codeforces 938D. Buy a Ticket (最短路+建图)
<题目链接> 题目大意: 有n座城市,每一个城市都有一个听演唱会的价格,这n座城市由m条无向边连接,每天变都有其对应的边权.现在要求出每个城市的人,看一场演唱会的最小价值(总共花费的价值= ...
ELK:logstash和filebeat6.0及以上版本的配置
filebeat6.0版本以上没有document_type字段,因此需要另外标记下或者代替document_type字段的功能案例如下: fielbeat5.5的配置 logstash5.5的配置 ...
Tomcat 配置文件server.xml详解
前言 Tomcat隶属于Apache基金会,是开源的轻量级Web应用服务器,使用非常广泛.server.xml是Tomcat中最重要的配置文件,server.xml的每一个元素都对应了Tomcat中的 ...
Python3系列__01Python安装
Python和Java一样是跨平台的,它可以运行在Windows.Mac和各种Linux/Unix系统上.所以你在一个平台上面上写的代码在另一个平台仍能正常运行. 要学习Python编程,你需要做的就 ...
Java Concurrency in Practice——读书笔记
Thread Safety线程安全线程安全编码的核心,就是管理对状态(state)的访问,尤其是对(共享shared.可变mutable)状态的访问. shared:指可以被多个线程访问的变量 mu ...
[HEOI/TJOI2016]序列
Description: 给你一个序列,每个数可能变化为另一个数,每次最多有一个数变化求最长的子序列,无论如何变化,这个子序列都不下降 Hint: $n \le 10^5$ Solution: ...
第一次冲刺意见汇总&团队第一阶段总结
大家对我们小组的意见基本是: 1.设计界面简单 2.功能较少 3.没有实现切换歌曲的功能谢谢HT小组的走心评价接下来我们组内准备:1.先调节用户界面,插入一些图片,美化界面,给用户直观的体验上升. ...

机器学习入门15 - 训练神经网络 (Training Neural Networks)