deeplearning.ai 神经网络和深度学习 week4 深层神经网络

1. 计算深度神经网络的时候，尽量向量化数据，不要用for循环。唯一用for循环的地方是依次在每一层做计算。

2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度。

正向传播：

对于单个样本，第i层网络 z^[i] = W^[i]a^[i-1] + b^[i]，

a^[i] = f^[i](z^[i])。

其中，z^[i]是n^[i]*1，W^[i]是n^[i]*n^[i-1]，a^[i-1]是n^[i-1]*1，b^[i]是n^[i]*1。

对于向量化后的所有样本，第i层网络 Z^[i] = W^[i]A^[i-1] + b^[i]，

A^[i] = f^[i](Z^[i])。

其中，Z^[i]是n^[i]*m，W^[i]是n^[i]*n^[i-1]，A^[i-1]是n^[i-1]*m，b^[i]是n^[i]*1，python运算过程中会把b^[i]broadcasting成n^[i]*m，m是训练集样本数量。

反向传播：

对于单个样本，第i层网络 dz^[i] = da^[i]*f^[i]'(z^[i])，*是对应元素相乘。

dw^[i]=dz^[i]a^[i-1]

db^[i]=dz^[i]

da^[i-1]=W^[i]Tdz^[i]

对于向量化后的所有样本，第i层网络 dZ^[i] = dA^[i]*f^[i]'(Z^[i])，*是对应元素相乘。

dW^[i]=1/m*dZ^[i]A^[i-1]T

db[i]=1/m*np.sum(dZ^[i], axis=1, keepdims=True)

dA^[i-1]=W^[i]TdZ^[i]

3. 深度神经网络的直观解释：比如做人脸检测的时候，可以把浅层的神经网络当成是边缘检测器，不同的神经元检测不同方向的边缘在图片的位置。中层的神经网络是把第一层提取出的不同位置的不同方向的边缘特征组合成面部的不同部分，比如有的是眼睛，有的是鼻子。深层的神经网络把这些部分放在一起组合成不同的人脸。对于语音识别，也是类似，浅层的神经网络检测低层次的波形特征，比如音调高低，白噪声还是咝咝的声音，中层的神经网络可以把波形特征组合成音位（phoneme），识别基本的声音单元，深层的神经网络可以把识别单词，再深层次的神经网络可以识别句子。

另外一种深度神经网络有效性的解释来源于电路理论，如果使用树形一层层堆叠简单的操作，那么最终实现复杂功能需要的元器件数量是O(logn)，而如果只允许使用浅层网络，则需要O(2ⁿ)的元器件。

NG说还有一个原因让深度神经网络很迷人是名字取得好。。。。。。“深度”！一听就很酷炫。但带来的问题是人会很按照字面意思钻牛角尖非要用很深的网络，但实际上，NG自己在思考问题的时候，还是从最简单的模型比如Logistic回归入手，然后试试一两个隐藏层，把隐藏层的层数当成超参数一样去调试。

4. NG说即使他做机器学习很多年了，但是依旧经常搞不明白为什么算法就可以工作，会很惊讶结果这么好。实际算法的复杂性来源于数据，而不是写的代码。

5. 超参数：学习率，梯度下降循环的次数，隐藏层数量，每一层隐藏神经元的数量，激活函数的类型。其他超参数包括：momentum，mini batch的大小，正则化参数的形式，等等。

深度学习领域非常基于经验，基于经验的意思就是不断试参数直到合适。。。针对不同的模型最优的超参数值是不同的，所以必须针对具体问题多试，甚至针对相同的问题，超参数的最优值也会变化，比如广告点击率，所以即使模型建好了跑通了，也要隔一段时间尝试一下新的超参数。

6. NG觉得深度学习和人类大脑相关性不大，因为大脑神经元的机制比神经网络算法复杂的多的多的多。深度学习的确是一种很好的方法来找到输入和输出之间复杂映射关系。

7. 总结一下神经网络算法实现的流程，和week3的总结差不多：

　　1）定义结构，包括输入的大小，隐藏层层数，每层神经元的数量，等等。对于L层(1~L)的神经网络，第0层是输入层，第1~L-1层是隐含层，激活函数是ReLU，第L层是输出层，激活函数是sigmoid。输入层不计入层数。

　　2）初始化参数，W初始化为小随机数，b初始化为0。

　　3）优化迭代求最优参数：

　　　　a）前向传播。从1到L依次计算每一层。对于第[i]层网络，已知前一层传进来的输入A^[i-1]，和这一层的参数W^[i]、b^[i]，以及激活函数，计算出Z^[i]和A^[i]，并且把Z^[i]、A^[i]、W^[i]、b^[i]保存起来为反向传播的计算做准备，作业的程序里，把Z^[i]放在activation_cache里，把A^[i]、W^[i]、b^[i]放在linear_cache里。

　　　　b）计算loss，用最后一层的输出A^[L]带入损失函数求出loss。

　　　　c）反向传播。根据前向传播算出的A^[L]和Y计算出dA^[L]。然后从L到1依次计算每一层。对于第[i]层网络，已知后一层传来的输入dA^[i]，先从activation_cache里取出Z^[i]，求出dZ^[i]。然后从linear_cache中取出A^[i]、W^[i]、b^[i]，借助dZ^[i] 计算出dW^[i]、db^[i]、dA^[i-1]。

　　　　d）更新参数。

　　4）用计算出的参数做预测。

deeplearning.ai 神经网络和深度学习 week4 深层神经网络的更多相关文章

deeplearning.ai 神经网络和深度学习 week4 深层神经网络听课笔记
1. 计算深度神经网络的时候,尽量向量化数据,不要用for循环.唯一用for循环的地方是依次在每一层做计算. 2. 最常用的检查代码是否有错的方法是检查算法中矩阵的维度. 正向传播: 对于单个样本,第 ...
DeepLearning.ai学习笔记（一）神经网络和深度学习--Week4深层神经网络
一.深层神经网络深层神经网络的符号与浅层的不同,记录如下: 用\(L\)表示层数,该神经网络\(L=4\) \(n^{[l]}\)表示第\(l\)层的神经元的数量,例如\(n^{[1]}=n^{[2 ...
【神经网络与深度学习】卷积神经网络（CNN）
[神经网络与深度学习]卷积神经网络(CNN) 标签:[神经网络与深度学习] 实际上前面已经发布过一次,但是这次重新复习了一下,决定再发博一次. 说明:以后的总结,还应该以我的认识进行总结,这样比较符合 ...
【神经网络与深度学习】卷积神经网络-进化史：从LeNet到AlexNet
[卷积神经网络-进化史]从LeNet到AlexNet 本博客是[卷积神经网络-进化史]的第一部分<从LeNet到AlexNet> 如需转载,请附上本文链接:http://blog.csdn ...
《深度学习-改善深层神经网络》-第二周-优化算法-Andrew Ng
目录 1. Mini-batch gradient descent 1.1 算法原理 1.2 进一步理解Mini-batch gradient descent 1.3 TensorFlow中的梯度下降 ...
吴裕雄--天生自然python Google深度学习框架：深度学习与深层神经网络
Deeplearning.ai课程笔记-神经网络和深度学习
神经网络和深度学习这一块内容与机器学习课程里Week4+5内容差不多. 这篇笔记记录了Week4+5中没有的内容. 参考笔记:深度学习笔记神经网络和深度学习结构化数据:如数据库里的数据非结构化数 ...
Deep Learning.ai学习笔记_第一门课_神经网络和深度学习
目录前言第一周(深度学习引言) 第二周(神经网络的编程基础) 第三周(浅层神经网络) 第四周(深层神经网络) 前言目标: 掌握神经网络的基本概念, 学习如何建立神经网络(包含一个深度神经网络), ...
[DeeplearningAI笔记]神经网络与深度学习人工智能行业大师访谈
觉得有用的话,欢迎一起讨论相互学习~Follow Me 吴恩达采访Geoffrey Hinton NG:前几十年,你就已经发明了这么多神经网络和深度学习相关的概念,我其实很好奇,在这么多你发明的东西中 ...

随机推荐

Django2.0——请求与响应（上）
客户端与服务段通过http协议进行数据的传输,而http协议是一种双向单工的,且主动发起连接的只有客户端.故数据的传送就离不开请求和响应,客户端每发起一个请求,服务端就是返回一个响应.在django的 ...
饭卡（DP）
电子科大本部食堂的饭卡有一种很诡异的设计,即在购买之前判断余额. 如果购买一个商品之前,卡上的剩余金额大于或等于5元,就一定可以购买成功(即使购买后卡上余额为负),否则无法购买(即使金额足够).所以大 ...
PAT Advanced 1041 Be Unique (20) [Hash散列]
题目 Being unique is so important to people on Mars that even their lottery is designed in a unique wa ...
求素数的一个快速算法 Python 快速输出素数算法
思想以100以内为例. 生成一个全是True的101大小的数组 2开始,遇到2的倍数(4,6,8,10...)都赋值为False 因为这些数字都有因子 2 3开始,遇到3的倍数(6,9,12...) ...
神奇的Python代码
一 def f(arg=i): print(arg) i = 6 f() i = 7 f(i) 输出结果是: 7 7
node/静态路由/express框架中的express.static()和app.use()
此篇文章转载于 express框架中的express.static()和app.use() Express框架在使用app.use中传入express.static设置静态路由时,这个文件夹下的所有文 ...
一个理解基本RCNN的简单例子
对于一个最简单的RNN网络https://github.com/Teaonly/beginlearning/ """Minimal character-level Van ...
第2章 Innodb 存储引擎
一.InnoDB 体系架构 1.1后台线程 master thread:刷新内存中的数据到磁盘 io thread:处理 IO 请求,AIO purge thread:清理undo 页的回收 page ...
VMware Horizon view 7安装视频教程
1.教程介绍1.1::通过本教程起到抛砖引玉效果,希望各位喜爱VMware产品的朋友受益良多. 1.2::以下提供的任何软件仅供学习交流使用. 2.视频教程2.1::ESXI安装视频链接:https ...
19）PHP，数组知识
(1)数组的基础在PHP中,数组的下标可以是数字,也可以是字符串在PHP中,数组元素的顺序不是由下标决定的,而是由其加入的的顺序决定 (2)数组定义: array(1,5,11,'abs',tru ...

deeplearning.ai 神经网络和深度学习 week4 深层神经网络

deeplearning.ai 神经网络和深度学习 week4 深层神经网络的更多相关文章

随机推荐

热门专题