Neural Networks: Learning

内容较多，故分成上下两篇文章。

一、内容概要

Cost Function and Backpropagation
- Cost Function
- Backpropagation Algorithm
- Backpropagation Intuition
Backpropagation in Practice
- Implementation Note：Unroll Parameters
- Gradient Checking
- Random Initialization
- Putting it Together
Application of Neural Networks
- Autonomous Driving

二、重点&难点

1.Cost Function and Backpropagation

1） Cost Function

首先定义一下后面会提到的变量

L: 神经网络总层数

S_l：l层单元个数（不包括bias unit）

k:输出层个数

回顾正则化逻辑回归中的损失函数：

\[J(\theta) = - \frac{1}{m} \sum_{i=1}^m [ y^{(i)}\ \log (h_\theta (x^{(i)})) + (1 - y^{(i)})\ \log (1 - h_\theta(x^{(i)}))] + \frac{\lambda}{2m}\sum_{j=1}^n \theta_j^2\]

在神经网络中损失函数略微复杂了些,但是也比较好理解，就是把所有层都算进去了。

\[
\begin{gather*} J(\Theta) = - \frac{1}{m} \sum_{i=1}^m \sum_{k=1}^K \left[y^{(i)}_k \log ((h_\Theta (x^{(i)}))_k) + (1 - y^{(i)}_k)\log (1 - (h_\Theta(x^{(i)}))_k)\right] + \frac{\lambda}{2m}\sum_{l=1}^{L-1} \sum_{i=1}^{s_l} \sum_{j=1}^{s_{l+1}} ( \Theta_{j,i}^{(l)})^2\end{gather*}
\]

2）BackPropagation反向传播

更详细的公式推导可以参考http://ufldl.stanford.edu--反向传导算法

下面给出我自己对BP算法的理解以及ufldl上的推导：

假设神经网络结构如下

- 1. FP

利用前向传导公式(FP)计算$2,3……$ 直到 ${n_l}$层（输出层）的激活值。

计算过程如下：

- 2. BP

权值更新

首先需要知道的是BP算法是干嘛的？它是用来让神经网络自动更新权重$W$的。

这里权重$W$与之前线性回归权值更新形式上是一样：

那现在要做的工作就是求出后面的偏导，在求之前进一步变形：

注意$J(W,b;x^{(i)},y^{(i)})$表示的是单个样例的代价函数，而$J(W,b)$表示的是整体的代价函数。

所以接下来的工作就是求出$\frac{∂J(W,b;x,y)}{∂W_{ij^{(l)}}}$，求解这个需要用到微积分中的链式法则，即

\[
\begin{align*}
\frac{∂J(W,b;x,y)}{∂W_{ij^{(l)}}} = \frac{∂J(W,b;x,y)}{∂a_{i^{(l)}}} \frac{∂a_{i^{(l)}}}{∂z_{i^{(l)}}} \frac{∂z_{i^{(l)}}}{∂w_{ij^{(l)}}} = a_j^{(l)}δ_i^{(l+1)}
\end{align*}
\]

更加详细运算过程可以参考[一文弄懂神经网络中的反向传播法——BackPropagation],这篇文章详细的介绍了BP算法的每一步骤。

上面的公式中出现了$δ$（误差error），所以后续的目的就是求出每层每个node的$δ$，具体过程如下：

计算δ

对于第 $n_l$层（输出层）的每个输出单元$i$，我们根据以下公式计算残差：

对 $l = n_l-1, n_l-2, ……,3,2$的各个层，第 $l$ 层的第 $i$ 个节点的残差计算方法如下：

将上面的结果带入权值更新的表达式中便可顺利的执行BackPropagation啦~~~

但是！！！需要注意的是上面式子中反复出现的 $f '(z_i^{(l)})$ ，表示激活函数的导数。这个在刚开始的确困惑到我了，因为视频里老师在演示计算$δ$的时候根本就乘以这一项，难道老师错了？其实不是的，解释如下：

常用的激活函数有好几种，但使用是分情况的：

在线性情况下：f(z) = z
在非线性情况下：(只举一些我知道的例子)
- sigmoid
- tanh
- relu

所以这就是为什么老师在视频中没有乘以 $f '(z_i^{(l)})$ 的原因了，就是因为是线性的，求导后为1，直接省略了。

另外sigmoid函数表达式为$f(z)=\frac{1}{1+e^{-z}}$,很容易知道$f'(z)=\frac{-e^{-z}}{ (1+e^{-z}) ^2 } = f(z)·(1-f(z))$这也就解释了Coursera网站上讲义的公式是这样的了：

所以现在总结一下BP算法步骤：

进行前馈传导计算，利用前向传导公式，得到$L_2, L_3, \ldots$直到输出层 $\textstyle L_{n_l}$的激活值。

对输出层（第 $\textstyle n_l$层），计算：

$\delta^{(n_l)}= - (y - a^{(n_l)}) \bullet f'(z^{(n_l)})$

对于 $\textstyle l = n_l-1, n_l-2, n_l-3, \ldots, 2$ 的各层，计算：

$\delta^{(l)} = \left((W^{(l)})^T \delta^{(l+1)}\right) \bullet f'(z^{(l)})$

计算最终需要的偏导数值：

\[
\begin{align}
\nabla_{W^{(l)}} J(W,b;x,y) &= \delta^{(l+1)} (a^{(l)})^T, \\
\nabla_{b^{(l)}} J(W,b;x,y) &= \delta^{(l+1)}.
\end{align}
\]

使用批量梯度下降一次迭代过程：

对于所有$\textstyle l$，令 $\textstyle \Delta W^{(l)} := 0 , \textstyle \Delta b^{(l)} := 0$ （设置为全零矩阵或全零向量）

对于$\textstyle i = 1$ 到$\textstyle m$ ，

使用反向传播算法计算$\textstyle \nabla_{W^{(l)}} J(W,b;x,y)$ 和$\textstyle \nabla_{b^{(l)}} J(W,b;x,y)$ 。

计算$\textstyle \Delta W^{(l)} := \Delta W^{(l)} + \nabla_{W^{(l)}} J(W,b;x,y)$ 。

计算$\textstyle \Delta b^{(l)} := \Delta b^{(l)} + \nabla_{b^{(l)}} J(W,b;x,y)$ 。

更新权重参数：

\[
\begin{align}
W^{(l)} &= W^{(l)} - \alpha \left[ \left(\frac{1}{m} \Delta W^{(l)} \right) + \lambda W^{(l)}\right] \\
b^{(l)} &= b^{(l)} - \alpha \left[\frac{1}{m} \Delta b^{(l)}\right]
\end{align}
\]

3) Backpropagation Intuition

本小节演示了具体如何操作BP，不再赘述。

具体可参考Coursera讲义。

Andrew Ng机器学习课程笔记--week5(上)的更多相关文章

Andrew Ng机器学习课程笔记--week5(下)
Neural Networks: Learning 内容较多,故分成上下两篇文章. 一.内容概要 Cost Function and Backpropagation Cost Function Bac ...
Andrew Ng机器学习课程笔记--week9(上)(异常检测&推荐系统)
本周内容较多,故分为上下两篇文章. 一.内容概要 1. Anomaly Detection Density Estimation Problem Motivation Gaussian Distrib ...
Andrew Ng机器学习课程笔记--汇总
笔记总结,各章节主要内容已总结在标题之中 Andrew Ng机器学习课程笔记–week1(机器学习简介&线性回归模型) Andrew Ng机器学习课程笔记--week2(多元线性回归& ...
Andrew Ng机器学习课程笔记（五）之应用机器学习的建议
Andrew Ng机器学习课程笔记(五)之应用机器学习的建议版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7368472.h ...
Andrew Ng机器学习课程笔记（六）之机器学习系统的设计
Andrew Ng机器学习课程笔记(六)之机器学习系统的设计版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7392408.h ...
Andrew Ng机器学习课程笔记（四）之神经网络
Andrew Ng机器学习课程笔记(四)之神经网络版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365730.html 前言 ...
Andrew Ng机器学习课程笔记（三）之正则化
Andrew Ng机器学习课程笔记(三)之正则化版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7365475.html 前言 ...
Andrew Ng机器学习课程笔记（二）之逻辑回归
Andrew Ng机器学习课程笔记(二)之逻辑回归版权声明:本文为博主原创文章,转载请指明转载地址 http://www.cnblogs.com/fydeblog/p/7364636.html 前言 ...
Andrew Ng机器学习课程笔记--week1（机器学习介绍及线性回归）
title: Andrew Ng机器学习课程笔记--week1(机器学习介绍及线性回归) tags: 机器学习, 学习笔记 grammar_cjkRuby: true --- 之前看过一遍,但是总是模 ...

随机推荐

nyoj_253:LK的旅行（旋转卡壳入门）
题目链接求平面最大点对. 找凸包 -> 根据凸包运用旋转卡壳算法求最大点对(套用kuang巨模板) 关于旋转卡壳算法 #include<bits/stdc++.h> using n ...
form表单提交图片禁止跳转
问题: 最近在做项目时,遇到上传图片需求,且在不跳转的情况下获取到返回信息思路: 1. 使用ajax发送异步请求,经多次测试,最终以失败告终 2. iframe 禁止跳转(未尝试) 3. 修改fo ...
（转）Linux端口nmap和netstat命令
场景:弄不清楚端口和服务的关系,总觉得这个命令很有用但是还不清楚如何使用 1 linux端口与服务 1.1 安全概述网络传输安全.操作系统安全.应用软件安全构成了整个网络应用的安全:其中应用软件安全 ...
Objectiv-C UIKit基础 NSLayoutConstraint的使用(VFL实现)
利用VFL可视化语言 (简单的抛砖引玉) 构建3个View 橙色和绿色左中右间隔20 上间隔40 高为200 蓝色在橙色内(0,0)处宽高为橙色的一半实现效果如下由于atutosize和auto ...
python3之微信文章爬虫
前提: python3.4 windows 作用:通过搜狗的微信搜索接口http://weixin.sogou.com/来搜索相关微信文章,并将标题及相关链接导入Excel表格中说明:需xlsxwr ...
【PHP】this,self,parent的区别（转）
一. 定义&区别 self: 指向当前类的指针,self是不指向任何已经实例化的对象,一般self使用来指向类中的静态变量. this: 指向当前对象的指针,使用parent来调用父类的构造函 ...
angularjs 动态显示内容适用于$modal
1.创建指令 angular.module('app').directive('dynamicElement', ["$compile", function ($compile) ...
java核心技术面试整理
[前方高能,是这半年BAT,京东,远景,华为,中兴以及苏研发中心被问到的Java公共问题的一个整理] ------------------------------------------------- ...
easyAR图钉功能实现相关
图钉功能总算做出来了,发现真的是因为没认真看手册导致的=.=[跪最后的代码很简单,但是过程中看了不少camera/tracker相关的东西,感觉需要整理记录一下图钉功能记录: 目标:实现用ARCa ...
Vue学习记录第一篇——Vue入门基础
前面的话 Vue中文文档写得很好,界面清爽,内容翔实.但文档毕竟不是教程,文档一上来出现了大量的新概念,对于新手而言,并不友好.个人还是比较喜欢类似于<JS高级程序设计>的风格,从浅入深, ...

Andrew Ng机器学习课程笔记--week5(上)