第二周：神经网络的编程基础 (Basics of Neural Network programming)

2.1、二分类(Binary Classification)

二分类问题的目标就是习得一个分类器，它以图片的特征向量（RGB值的矩阵，最后延展成一维矩阵x，如下）作为输入，然后预测输出结果为 1 还是 0：

主要需要注意的是一些符号定义：

：表示一个维数据，为输入数据，维度为(, 1)；

：表示输出结果，取值为(0,1)；

( () , () )：表示第组数据，可能是训练数据，也可能是测试数据，此处默认为训练数据；

= [ (1) , (2) , . . . , () ]：表示所有的训练数据集的输入值，放在一个 × 的矩阵中，其中表示样本数目，输入神经网络时数据形状为 $ nx∗m:([x(1),x(2)⋯ x(m)]) $ 而非 $m * nx:\left(\begin{matrix} x_{(1)}^T \\ x_{(2)}^T \\ \vdots\\ x_{(m)}^T \\ \end{matrix}\right)$

= [ (1) , (2) , . . . , () ]：对应表示所有训练数据集的输出值，维度为1 × 。

python实现的时候：.shape 等于(, )，Y.shape 等于(1, )

2.2、逻辑回归(Logistic Regression)

让$\hat{y}$表示实际值等于 1 的机率的话， $\hat{y}$应该在 0 到 1 之间。因为$w^Tx +b$可能比 1 要大得多，或者甚至为一个负值。因此在逻辑回归中，输出应该是$\hat{y}$等于由上面得到的线性函数式子$w^Tx +b$作为自变量的 sigmoid 函数中，将线性函数转换为非线性函数。

介绍一种符号惯例，可以让参数和参数分开 :

定义一个额外的特征称之为$x_0$，并且使它等于 1，那么现在就是一个+1 维的变量

这样$\theta_0$就充当了，这是一个实数，而剩下的$\theta_1$ 直到$\theta_{nx}$ 充当了$w$

2.3 逻辑回归的代价函数（Logistic Regression Cost Function）

训练代价函数来得到参数和参数b：

损失函数又叫做误差函数，Loss function：$L(\hat{y},y)$.

逻辑回归中用到的损失函数是： $L(\hat{y},y)=-(ylog(\hat{y}+(1-y)log(1-\hat{y}))$

使用该Loss function 的理由：

当 = 1时损失函数$ = −log(\hat{y})$，如果想要损失函数尽可能得小，那么 $\hat{y}$ 就要尽可能大，因为 sigmoid 函数取值[0,1]，所以 $\hat{y}$ 会无限接近于 1。

当 = 0时损失函数 = −log(1 − $\hat{y}$ )，如果想要损失函数尽可能得小，那么$\hat{y}$ 就要尽可能小，因为 sigmoid 函数取值[0,1]，所以$\hat{y}$ 会无限接近于 0。

有很多的函数效果和现在这个类似，就是如果等于 1，我们就尽可能让 $\hat{y}$ 变大，如果等于 0，我们就尽可能让 $\hat{y}$ 变小。

损失函数是在单个训练样本中定义，它衡量的是算法在单个训练样本中表现。

衡量算法在全部训练样本上的表现，需要定义一个算法的代价函数（Cost function）：对个样本的损失函数求和然后除以：

在训练逻辑回归模型时候，需要找到合适的和，来让代价函数的总代价降到最低。

逻辑回归可以看做是一个非常小的神经网络。

2.4 梯度下降法（Gradient Descent）

梯度下降法（仅有一个参数）

: =表示更新参数.

表示学习率（learning rate），用来控制步长（step）.

$\frac{()}{}$就是函数()对求导（derivative）对于导数更加形象化的理解就是斜率（slope）.

逻辑回归的代价函数（成本函数）(, )是含有两个参数的：

\[w := w - a\frac{\partial J(w,b)}{\partial w} \qquad b := b - a\frac{\partial J(w,b)}{\partial b} \]

在代码中使用表示 $\frac{\partial J(w,b)}{\partial w}$，使用 $db$ 表示$\frac{\partial J(w,b)}{\partial b}$

2.5 导数（Derivatives）

超简单导数讲解，没什么笔记。

2.6 更多的导数例子（More Derivative Examples）

一些基础函数的导数讲解。

2.7 计算图（Computation Graph）

神经网络的计算，都是按照前向或反向传播过程组织的：

首先我们计算出一个新的网络的输出（前向过程），紧接着进行一个反向传输操作。后者我们用来计算出对应的梯度或导数。

计算图解释了为什么我们用这种方式组织这些计算过程，计算图组织计算的形式是用蓝色箭头从左到右的计算。

2.8 使用计算图求导数（Derivatives with a Computation Graph）

主要使用的是求导中的链式法则：

\[\frac{dJ}{du} = \frac{dJ}{dv} \frac{dv}{du} \quad , \quad\frac{dJ}{db}=\frac{dJ}{du}\frac{du}{db} \quad , \quad\frac{dJ}{da}=\frac{dJ}{du}\frac{du}{da} \]

这是一个计算流程图，就是正向或者说从左到右的计算来计算成本函数，然后反向从右到左计算导数。

2.9 逻辑回归中的梯度下降（Logistic Regression Gradient Descent）

和的修正量,$a$为学习率:

\[w:=w-a\frac{\partial J(w,b)}{\partial w}\quad,\quad b:=b-a\frac{\partial J(w,b)}{\partial b} \]

微积分得到：

\[\frac{dL(a,y)}{da}=-(y/a+(1-y)/(1-a)) \]

\[\frac{da}{dz}=f'(z)=\left( \frac{1}{1+e^{-z}}\right)'=\frac{e^{-z}}{(1+e^{-z})^2}=\frac{1+e^{-z}-1}{(1+e^{-z})^2}=\frac{1}{(1+e^{-z})}\left(1-\frac{1}{1+e^{-z}}\right)=a(1-a) \]

\[\frac{dL(a,y)}{dz}=\frac{dL}{dz}=(\frac{dL}{da})\cdot(\frac{da}{dz})=(-\frac{y}{a}+\frac{(1-y)}{(1-a)})\cdot a(1-a)=a-y \]

现在进行最后一步反向推导：

$dw_1$表示$\frac{\partial L}{\partial w_1}$，$dw_2$表示$\frac{\partial L}{\partial w_2}$，$db=dz$。

然后: 更新$_1 = _1 − _1$，更新$_2 = _2 − _2$，更新$ = − $。

2.10 m 个样本的梯度下降(Gradient Descent on m Examples)

损失函数(, )的定义：

\[J(w,b)=\frac{1}{m}\sum_{i=1}^mL(a^{(i)},y^{(i)}) \]

现在带有求和的全局代价函数，实际上是 1 到项各个损失的平均。它表明全局代价函数对1的微分，对1的微分也同样是各项损失对1微分的平均。

代码流程：

初始化：J=0;dw1=0;dw2=0;db=0;

 for i = 1 to m

    z(i) = wx(i)+b;

    a(i) = sigmoid(z(i));

    J += -[y(i)log(a(i))+(1-y(i)）log(1-a(i));

    dz(i) = a(i)-y(i);

    dw1 += x1(i)dz(i);

    dw2 += x2(i)dz(i);

    db += dz(i); J/= m;

    dw1/= m;

    dw2/= m;

    db/= m;

J/= m;

dw1/= m;

dw2/= m;

db/= m;

w=w-alpha*dw

b=b-alpha*db

这种计算中有两个缺点：

需要编写两个 for 循环。第一个 for 循环是一个小循环遍历个训练样本，第二个 for 循环是一个遍历所有特征的 for 循环。这个例子中只有 2 个特征，所以等于 2 并且等于 2。但如果有更多特征，需要一个 for 循环遍历所有个特征。

向量化技术：可以允许代码摆脱这些显式的 for 循环。

2.11 向量化(Vectorization)

矩阵向量的加减，主要突出：采用numpy库函数进行向量的运算速度比使用for循环快超级多！

import numpy as np #导入 numpy 库

a = np.random.rand(1000000)

b = np.random.rand(1000000) #通过 round 随机得到两个一百万维度的数组

c = np.dot(a,b)#向量相加

for i in range(1000000):#采用for循环

 c += a[i]*b[i]

运行时间对比：

2.12 向量化的更多例子（More Examples of Vectorization）

矩阵乘法$ u=Av $:

向量化方式就可以用 = . (, )，消除了两层循环使得代码运行速度更快。

主要就是用numpy进行矩阵的运算。

2.13 向量化逻辑回归(Vectorizing Logistic Regression)

用numpy库的计算表示logistic regression。

2.14 向量化 logistic 回归的梯度输出（Vectorizing Logistic Regression's Gradient）

2.13中虽然去掉了一个for循环：针对w、d等参数的，但仍有一个遍历训练集的循环：

\[ = 0\\ += ^{(1)}∗ ^{(1)}\\ += ^{(2)}∗ ^{(2)}\\ ………….\\ \\ += ^{()}∗ ()\\ = \frac{}{}\\ = 0\\ += ^{(1)}\\ += ^{(2)}\\ ………….\\ += ^{()}\\ = \frac{}{}\\ \]

但计算仍然需要一个循环遍历训练集，所以就用一个np.sum函数来快速替代就好了。

2.15 Python 中的广播（Broadcasting in Python）

broadcasting可以这样理解：如果你有一个mn的矩阵，让它加减乘除一个1n的矩阵，它会被复制m次，成为一个mn的矩阵，然后再逐元素地进行加减乘除操作。同样地对m1的矩阵成立：

2.16 关于 python _ numpy 向量的说明（A note on python or numpy vectors）

Python 语言巨大的灵活性也是缺点，由于广播巨大的灵活性，有时候可能会产生很细微或者看起来很奇怪的 bug。例如，将一个列向量添加到一个行向量中，会以为它报出维度不匹配或类型错误之类的错误，但是实际上会得到一个行向量和列向量的求和。

是如果对 Python 不熟悉的话，就可能会非常生硬、非常艰难地去寻找 bug。

置 = . . (5)此时的 shape（形状）是一个(5, )的结构。这在 Python 中被称作一个一维数组。相反，如果你设置为(5,1)，那么这就将置于 5 行 1 列向量中。

要去简化你的代码，而且不要使用一维数组。总是使用 × 1 维矩阵（基本上是列向量），或者 1 × 维矩阵（基本上是行向量）

2.17 Jupyter/iPython Notebooks 快速入门（Quick tour of Jupyter/iPython Notebooks）

jupyter介绍，没什么好说的。

2.18 （选修）logistic 损失函数的解释（Explanation of logistic regression cost function）

约定 $\hat{} = ( = 1|)$ ，即算法的输出$\hat{}$是给定训练样本条件下等于 1 的概率。换句话说，如果 = 1，在给定训练样本条件下y = $\hat{}$；反过来说，如果 = 0，在给定训练样本条件下 ( = 1 − $\hat{}$)，因此，如果 $\hat{}$ 代表 = 1 的概率，那么1 − $\hat{}$就是 = 0的概率。接下来，我们就来分析这两个条件概率公式。

\[If \qquad y=1:\qquad p(y|x)=\hat{y}\\ If \qquad y=0:\qquad p(y|x)=1-\hat{y} \]

可以将这两个公式合并成一个公式。需要指出的是我们讨论的是二分类问题的损失函数，因此，的取值只能是 0 或者 1:

\[p(y|x)=\hat{y}^y(1-\hat{y})^{(1-y)} \]

第一种情况:$y=1 \quad (|) = \hat{y}$

第二种情况:$y=0\quad p(y|x)=1\times(1-\hat{y})^{1-y} $

由于 log 函数是严格单调递增的函数，最大化 ((|)) 等价于最大化 (|) 通过对数函数化简为：

\[ylog(\hat{y})+(1-y)log(1-\hat{y}) \]

吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第二周：(Basics of Neural Network programming)-课程笔记的更多相关文章

吴恩达深度学习第2课第2周编程作业的坑(Optimization Methods)
我python2.7, 做吴恩达深度学习第2课第2周编程作业 Optimization Methods 时有2个坑: 第一坑需将辅助文件 opt_utils.py 的 nitialize_param ...
吴恩达深度学习第4课第3周编程作业 + PIL + Python3 + Anaconda环境 + Ubuntu + 导入PIL报错的解决
问题描述: 做吴恩达深度学习第4课第3周编程作业时导入PIL包报错．我的环境: 已经安装了Tensorflow GPU 版本 Python3 Anaconda 解决办法: 安装pillow模块,而不 ...
吴恩达深度学习第1课第4周-任意层人工神经网络(Artificial Neural Network，即ANN)（向量化）手写推导过程（我觉得已经很详细了）
学习了吴恩达老师深度学习工程师第一门课,受益匪浅,尤其是吴老师所用的符号系统,准确且易区分．遵循吴老师的符号系统,我对任意层神经网络模型进行了详细的推导,形成笔记．有人说推导任意层MLP很容易,我 ...
cousera 吴恩达深度学习第一课第二周作业过拟合的表现
上图是课上的编程作业运行10000次迭代后,输出每一百次迭代训练准确度和测试准确度的走势图,可以看到在600代左右测试准确度为最大的,74%左右, 然后掉到70%左右,再掉到68%左右,然后升到70 ...
吴恩达深度学习第2课第3周编程作业的坑(Tensorflow+Tutorial)
可能因为Andrew Ng用的是python3,而我是python2.7的缘故,我发现了坑．如下: 在辅助文件tf_utils.py中的random_mini_batches(X, Y, mini_b ...
吴恩达深度学习第1课第3周编程作业记录(2分类1隐层nn)
2分类1隐层nn, 作业默认设置: 1个输出单元, sigmoid激活函数. (因为二分类); 4个隐层单元, tanh激活函数. (除作为输出单元且为二分类任务外, 几乎不选用 sigmoid 做激 ...
【Deeplearning.ai 】吴恩达深度学习笔记及课后作业目录
吴恩达深度学习课程的课堂笔记以及课后作业代码下载:https://github.com/douzujun/Deep-Learning-Coursera 吴恩达推荐笔记:https://mp.weix ...
吴恩达深度学习反向传播（Back Propagation）公式推导技巧
由于之前看的深度学习的知识都比较零散,补一下吴老师的课程希望能对这块有一个比较完整的认识.课程分为5个部分(粗体部分为已经看过的): 神经网络和深度学习改善深层神经网络:超参数调试.正则化以及优化 ...
深度学习吴恩达深度学习课程2第三周 tensorflow实践参数初始化的影响
博主撸的该节代码地址 :https://github.com/LemonTree1994/machine-learning/blob/master/%E5%90%B4%E6%81%A9%E8 ...

随机推荐

golang 的 string包
前言不做文字搬运工,多做思路整理就是为了能速览标准库,只整理我自己看过的...... 注意!!!!!!!!!! 单词都是连着的,我是为了看着方便.理解方便才分开的 1.string 中文文档 [英 ...
JVM的方法执行引擎-模板表
Java的模板解析执行需要模板表与转发表的支持,而这2个表中的数据在HotSpot虚拟机启动时就会初始化.这一篇首先介绍模板表. 在启动虚拟机阶段会调用init_globals()方法初始化全局模块, ...
C#实践设计模式原则SOLID
理论跟实践的关系,说远不远,说近不近.能不能把理论用到实践上,还真不好说. 通常讲到设计模式,一个最通用的原则是SOLID: S - Single Responsibility Principle ...
java中Math的常用方法整理
public class Demo{ public static void main(String args[]){ /** *Math.sqrt()//计算平方根 *Math.cbrt()//计算立 ...
Reinforcement Learning Using a Continuous Time Actor-Critic Framework with Spiking Neurons
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 动物会重复奖励的行为,但基于奖励的学习的生理基础仅得到了部分阐明.一方面,实验证据表明神经调节剂多巴胺携带有关奖励的信息 ...
Trapdoors for Hard Lattices and New Cryptographic Constructions
郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! 以下是对本文关键部分的摘抄翻译,详情请参见原文. Abstract 我们展示了如何构造各种“trapdoor”密码工具,假设标准格问题的最 ...
Java并发编程(08)：Executor线程池框架
本文源码:GitHub·点这里 || GitEE·点这里一.Executor框架简介 1.基础简介 Executor系统中,将线程任务提交和任务执行进行了解耦的设计,Executor有各种功能强大的 ...
Linux离线安装mysql 5.6详细步骤
一.安装MySQL 1.下载安装包 mysql-5.6.40-linux-glibc2.12-x86_64.tar.gz 2.卸载系统自带的Mariadb rpm -qa|grep mariadb / ...
seo成功案例的背后秘密
http://www.wocaoseo.com/thread-319-1-1.html 刚刚在seo群内一个企业主告诉我,他在淘宝找了做seo排名的,在交了首付后,对方却跑路了.对方刚刚在淘宝开店,然 ...
soso官方：基于相关排序的判断
http://www.wocaoseo.com/thread-186-1-1.html 议程概述检索词用户的信息需求网页的自有信息网页的附属信息相关性的计算框架概述相关性的表象检索词 ...

吴恩达《深度学习》-第一门课 (Neural Networks and Deep Learning)-第二周：(Basics of Neural Network programming)-课程笔记