第三周：浅层神经网络(Shallow neural networks)

1、激活函数（Activation functions）

sigmoid函数和tanh函数两者共同的缺点是，在z特别大或者特别小的情况下，导数的梯度或者函数的斜率会变得特别小，最后就会接近于0，导致降低梯度下降的速度。

Relu和Leaky ReLu相对于Sigmoid和tanh函数的优点如下：

第一，在的区间变动很大的情况下，激活函数的导数或者激活函数的斜率都会远大于0，在程序实现就是一个if-else语句，而sigmoid函数需要进行浮点四则运算，在实践中，使用ReLu激活函数神经网络通常会比使用sigmoid或者tanh激活函数学习的更快。

第二，sigmoid和tanh函数的导数在正负饱和区的梯度都会接近于0，这会造成梯度弥散，而Relu和Leaky ReLu函数大于0部分都为常熟，不会产生梯度弥散现象。(同时应该注意到的是，Relu进入负半区的时候，梯度为0，神经元此时不会训练，产生所谓的稀疏性，而Leaky ReLu不会有这问题)

不同激活函数的过程和结论：

sigmoid激活函数：除了输出层是一个二分类问题基本不会用它。

tanh激活函数：tanh是非常优秀的，几乎适合所有场合。

ReLu激活函数：最常用的默认函数，如果不确定用哪个激活函数，就使用ReLu或者Leaky ReLu。

总结：如果不确定哪一个激活函数效果更好，可以把它们都试试，然后在验证集或者发展集上进行评价。

2、为什么需要非线性激活函数？（why need a nonlinear activation function?）

如果使用线性激活函数或者没有使用一个激活函数，那么无论你的神经网络有多少层一直在做的只是计算线性函数，所以不如直接去掉全部隐藏层。

3、随机初始化（Random+Initialization）

对于逻辑回归，把权重初始化为0当然也是可以的。但是对于一个神经网络，如果把权重或者参数都初始化为0，那么梯度下降将不会起作用。

如上图，假设有两个输入特征n⁰，两个隐藏单元n¹,初始化权重矩阵W¹为0,b¹=0。

前向传播时，a₁¹和a₁²总是会相等，两个激活单元就会相同。

因为两个隐含单元计算同样的函数，当你做反向传播计算时，这会导致d_z¹和d_z²，使得W²也将为0

deeplearning.ai课程学习（3）的更多相关文章

deeplearning.ai课程学习（1）
本系列主要是我对吴恩达的deeplearning.ai课程的理解和记录,完整的课程笔记已经有很多了,因此只记录我认为重要的东西和自己的一些理解. 第一门课神经网络和深度学习(Neural Netwo ...
deeplearning.ai课程学习（2）
第二周:神经网络的编程基础(Basics of Neural Network programming) 1.逻辑回归的代价函数(Logistic Regression Cost Function) 逻 ...
deeplearning.ai课程学习（4）
第四周:深层神经网络(Deep Neural Networks) 1.深层神经网络(Deep L-layer neural network) 在打算使用深层神经网络之前,先去尝试逻辑回归,尝试一层然后 ...
Deeplearning.ai课程笔记--汇总
从接触机器学习就了解到Andrew Ng的机器学习课程,后来发现又出来深度学习课程,就开始在网易云课堂上学习deeplearning.ai的课程,Andrew 的课真是的把深入浅出.当然学习这些课程还 ...
Deeplearning.ai课程笔记-神经网络和深度学习
神经网络和深度学习这一块内容与机器学习课程里Week4+5内容差不多. 这篇笔记记录了Week4+5中没有的内容. 参考笔记:深度学习笔记神经网络和深度学习结构化数据:如数据库里的数据非结构化数 ...
Deeplearning.ai课程笔记-改善深层神经网络
目录一. 改善过拟合问题 Bias/Variance 正则化Regularization 1. L2 regularization 2. Dropout正则化其他方法 1. 数据变形 2. Ear ...
机器学习策略——DeepLearning.AI课程总结
一.什么是ML策略假设你正在训练一个分类器,你的系统已经达到了90%准确率,但是对于你的应用程序来说还不够好,此时你有很多的想法去继续改善你的系统: 收集更多训练数据训练集的多样性不够,收集更多的 ...
Deeplearning.ai课程笔记-结构化机器学习项目
目录一. 正交化二. 指标 1. 单一数字评估指标 2. 优化指标.满足指标三. 训练集.验证集.测试集 1. 数据集划分 2. 验证集.测试集分布 3. 验证集.测试集大小四. 比较人类表现 ...
Coursera深度学习(DeepLearning.ai)编程题&笔记
因为是Jupyter Notebook的形式,所以不方便在博客中展示,具体可在我的github上查看. 第一章 Neural Network & DeepLearning week2 Logi ...

随机推荐

python序列化_json,pickle,shelve模块
序列化序列化是指把内存里的数据类型转变成字符串,以使其能存储到硬盘或通过网络传输到远程,因为硬盘或网络传输时只能接受bytes 把内存数据转成字符,叫序列化把字符转成内存数据,叫反序列化模块 ...
[Linux]文件浏览
1.使用file命令查看文件中数据的类型 [oracle@linuxforlijiaman Desktop]$ ls linux oracle.txt test.png [oracle@linuxfo ...
requirements.txt 快速备份与安装项目所需安装包
在查看项目时,通常会有一个requirements.txt 文件, requirements.txt 文件是用于记录所有依赖包及其精确的版本号,便于项目在其它电脑时新环境部署构建项目所需要的运行环境. ...
iOS：GCD理解1（串行-并行、同步-异步）
1.获取并行.创建串行队列 1-1).获取并行(全局) 队列 ,DISPATCH_QUEUE_PRIORITY_DEFAULT 为默认优先级. dispatch_queue_t global_qu ...
IOS中使用百度地图定位后获取城市坐标,城市名称,城市编号信息
IOS中使用百度地图定位后获取城市坐标,城市名称,城市编号信息 /**当获取到定位的坐标后,回调函数*/ - (void)didUpdateBMKUserLocation:(BMKUserLocati ...
对TCP三次握手四次分手还不清楚，超简单解析
关于TCP三次握手四次分手,之前看资料解释的都很笼统,很多地方都不是很明白,所以很难记,前几天看的一个博客豁然开朗,可惜现在找不到了.现在把之前的疑惑总结起来,方便一下大家. 先上个TCP三次握手 ...
jquery获取父级元素、子级元素、兄弟元素
1:$(this).parent(expr) 找父亲节点,可以传入expr进行过滤,比如$("span").parent()或者$("span").parent ...
只包含因子2 3 5的数(51NOD 1010)
K的因子中只包含2 3 5.满足条件的前10个数是:2,3,4,5,6,8,9,10,12,15. 所有这样的K组成了一个序列S,现在给出一个数n,求S中 >= 给定数的最小的数. 例如:n = ...
05 shell编程之正则表达式
正则表达式&&文本处理利器学习目标: l 掌握正则表达式的运用 l 掌握sed.awk文本处理工具的使用目录结构: 正则表达式正则表达式概述 l 正则表达式:使用单个字 ...
转：前端安全之XSS攻击
前端安全原文链接:https://www.freebuf.com/articles/web/185654.html 随着互联网的高速发展,信息安全问题已经成为企业最为关注的焦点之一,而前端又是引发企 ...