核对矩阵的维数

当实现深度神经网络的时候，其中一个常用的检查代码是否有错的方法就是拿出一张纸过一遍算法中矩阵的维数。

\(w\)的维度是（下一层的维数，前一层的维数），即\({{w}^{[l]}}\): (\({{n}^{[l]}}\),\({{n}^{[l-1]}}\))；

\(b\)的维度是（下一层的维数，1），即:

\({{b}^{[l]}}\) : (\({{n}^{[l]}},1)\)；

\({{z}^{[l]}}\),\({{a}^{[l]}}\): \(({{n}^{[l]}},1)\);

\({{dw}^{[l]}}\)和\({{w}^{[l]}}\)维度相同，\({{db}^{[l]}}\)和\({{b}^{[l]}}\)维度相同，且\(w\)和\(b\)向量化维度不变，但\(z\),\(a\)以及\(x\)的维度会向量化后发生变化。

向量化后：

\({Z}^{[l]}\)可以看成由每一个单独的\({Z}^{[l]}\)叠加而得到，\({Z}^{[l]}=({{z}^{[l][1]}}，{{z}^{[l][2]}}，{{z}^{[l][3]}}，…，{{z}^{[l][m]}})\)，

\(m\)为训练集大小，所以\({Z}^{[l]}\)的维度不再是\(({{n}^{[l]}},1)\)，而是\(({{n}^{[l]}},m)\)。

\({A}^{[l]}\)：\(({n}^{[l]},m)\)，\({A}^{[0]} = X =({n}^{[l]},m)\)

在做深度神经网络的反向传播时，一定要确认所有的矩阵维数是前后一致的，可以大大提高代码通过率。那么为什么深层的网络在很多问题上比浅层的好？

为什么使用深层表示？（Why deep representations?）

都知道深度神经网络能解决好多问题，其实并不需要很大的神经网络，但是得有深度，得有比较多的隐藏层，这是为什么呢？一起来看几个例子来帮助理解，为什么深度神经网络会很好用。

首先，深度网络在计算什么？

首先，深度网络究竟在计算什么？如果在建一个人脸识别或是人脸检测系统，深度神经网络所做的事就是，当输入一张脸部的照片，然后可以把深度神经网络的第一层，当成一个特征探测器或者边缘探测器。在这个例子里，会建一个大概有20个隐藏单元的深度神经网络，是怎么针对这张图计算的。隐藏单元就是这些图里这些小方块（第一张大图），举个例子，这个小方块（第一行第一列）就是一个隐藏单元，它会去找这张照片里“|”边缘的方向。那么这个隐藏单元（第四行第四列），可能是在找（“—”）水平向的边缘在哪里。之后的课程里，会讲专门做这种识别的卷积神经网络，到时候会细讲，为什么小单元是这么表示的。可以先把神经网络的第一层当作看图，然后去找这张照片的各个边缘。可以把照片里组成边缘的像素们放在一起看，然后它可以把被探测到的边缘组合成面部的不同部分（第二张大图）。比如说，可能有一个神经元会去找眼睛的部分，另外还有别的在找鼻子的部分，然后把这许多的边缘结合在一起，就可以开始检测人脸的不同部分。最后再把这些部分放在一起，比如鼻子眼睛下巴，就可以识别或是探测不同的人脸（第三张大图）。

可以直觉上把这种神经网络的前几层当作探测简单的函数，比如边缘，之后把它们跟后几层结合在一起，那么总体上就能学习更多复杂的函数。这些图的意义，在学习卷积神经网络的时候再深入了解。还有一个技术性的细节需要理解的是，边缘探测器其实相对来说都是针对照片中非常小块的面积。就像这块（第一行第一列），都是很小的区域。面部探测器就会针对于大一些的区域，但是主要的概念是，一般会从比较小的细节入手，比如边缘，然后再一步步到更大更复杂的区域，比如一只眼睛或是一个鼻子，再把眼睛鼻子装一块组成更复杂的部分。

这种从简单到复杂的金字塔状表示方法或者组成方法，也可以应用在图像或者人脸识别以外的其他数据上。比如当想要建一个语音识别系统的时候，需要解决的就是如何可视化语音，比如输入一个音频片段，那么神经网络的第一层可能就会去先开始试着探测比较低层次的音频波形的一些特征，比如音调是变高了还是低了，分辨白噪音，咝咝咝的声音，或者音调，可以选择这些相对程度比较低的波形特征，然后把这些波形组合在一起就能去探测声音的基本单元。在语言学中有个概念叫做音位，比如说单词ca，c的发音，“嗑”就是一个音位，a的发音“啊”是个音位，t的发音“特”也是个音位，有了基本的声音单元以后，组合起来，就能识别音频当中的单词，单词再组合起来就能识别词组，再到完整的句子。

所以深度神经网络的这许多隐藏层中，较早的前几层能学习一些低层次的简单特征，等到后几层，就能把简单的特征结合起来，去探测更加复杂的东西。比如录在音频里的单词、词组或是句子，然后就能运行语音识别了。同时所计算的之前的几层，也就是相对简单的输入函数，比如图像单元的边缘什么的。到网络中的深层时，实际上就能做很多复杂的事，比如探测面部或是探测单词、短语或是句子。

有些人喜欢把深度神经网络和人类大脑做类比，这些神经科学家觉得人的大脑也是先探测简单的东西，比如眼睛看得到的边缘，然后组合起来才能探测复杂的物体，比如脸。这种深度学习和人类大脑的比较，有时候比较危险。但是不可否认的是，对大脑运作机制的认识很有价值，有可能大脑就是先从简单的东西，比如边缘着手，再组合成一个完整的复杂物体，这类简单到复杂的过程，同样也是其他一些深度学习的灵感来源。

Small：隐藏单元的数量相对较少

Deep：隐藏层数目比较多

深层的网络隐藏单元数量相对较少，隐藏层数目较多，如果浅层的网络想要达到同样的计算结果则需要指数级增长的单元数量才能达到。

另外一个，关于神经网络为何有效的理论，来源于电路理论，它和能够用电路元件计算哪些函数有着分不开的联系。根据不同的基本逻辑门，譬如与门、或门、非门。在非正式的情况下，这些函数都可以用相对较小，但很深的神经网络来计算，小在这里的意思是隐藏单元的数量相对比较小，但是如果用浅一些的神经网络计算同样的函数，也就是说在不能用很多隐藏层时，会需要成指数增长的单元数量才能达到同样的计算结果。

再来举个例子，用没那么正式的语言介绍这个概念。假设想要对输入特征计算异或或是奇偶性，可以算\(x_{1}XOR x_{2} XOR x_{3} XOR ……x_{n}\)，假设有\(n\)或者\(n_{x}\)个特征，如果画一个异或的树图，先要计算\(x_{1}\)，\(x_{2}\)的异或，然后是\(x_{3}\)和\(x_{4}\)。技术上来说如果只用或门，还有非门的话，可能会需要几层才能计算异或函数，但是用相对小的电路，应该就可以计算异或了。然后可以继续建这样的一个异或树图（上图左），那么最后会得到这样的电路来输出结果\(y\)，\(\hat{y}=y\)，也就是输入特征的异或，或是奇偶性，要计算异或关系。这种树图对应网络的深度应该是\(O(log(n))\)，那么节点的数量和电路部件，或是门的数量并不会很大，也不需要太多门去计算异或。

但是如果不能使用多隐层的神经网络的话，在这个例子中隐层数为\(O(log(n))\)，比如被迫只能用单隐藏层来计算的话，这里全部都指向从这些隐藏单元到后面这里，再输出\(y\)，那么要计算奇偶性，或者异或关系函数就需要这一隐层（上图右方框部分）的单元数呈指数增长才行，因为本质上来说需要列举耗尽\(2^{n}\)种可能的配置，或是\(2^{n}\)种输入比特的配置。异或运算的最终结果是1或0，那么最终就会需要一个隐藏层，其中单元数目随输入比特指数上升。精确的说应该是\(2^{n-1}\)个隐藏单元数，也就是\(O(2^{n})\)。

希望这能让有点概念，意识到有很多数学函数用深度网络计算比浅网络要容易得多，个人倒是认为这种电路理论，对训练直觉思维没那么有用，但这个结果人们还是经常提到的，用来解释为什么需要更深层的网络。

除了这些原因，说实话，认为“深度学习”这个名字挺唬人的，这些概念以前都统称为有很多隐藏层的神经网络，但是深度学习听起来多高大上，太深奥了，对么？这个词流传出去以后，这是神经网络的重新包装或是多隐藏层神经网络的重新包装，激发了大众的想象力。抛开这些公关概念重新包装不谈，深度网络确实效果不错，有时候人们还是会按照字面意思钻牛角尖，非要用很多隐层。但是当开始解决一个新问题时，通常会从logistic回归开始，再试试一到两个隐层，把隐藏层数量当作参数、超参数一样去调试，这样去找比较合适的深度。但是近几年以来，有一些人会趋向于使用非常非常深邃的神经网络，比如好几打的层数，某些问题中只有这种网络才是最佳模型。

这就是我想讲的，为什么深度学习效果拔群的直觉解释。

神经网络入门篇：详解核对矩阵的维数（Getting your matrix dimensions right）的更多相关文章

PHP函数篇详解十进制、二进制、八进制和十六进制转换函数说明
PHP函数篇详解十进制.二进制.八进制和十六进制转换函数说明作者: 字体:[增加减小] 类型:转载中文字符编码研究系列第一期,PHP函数篇详解十进制.二进制.八进制和十六进制互相转换函数说明 ...
走向DBA[MSSQL篇] 详解游标
原文:走向DBA[MSSQL篇] 详解游标前篇回顾:上一篇虫子介绍了一些不常用的数据过滤方式,本篇详细介绍下游标. 概念简单点说游标的作用就是存储一个结果集,并根据语法将这个结果集的数据逐条处理. ...
java 日志体系（三）log4j从入门到详解
java 日志体系(三)log4j从入门到详解一.Log4j 简介在应用程序中添加日志记录总的来说基于三个目的: 监视代码中变量的变化情况,周期性的记录到文件中供其他应用进行统计分析工作: 跟踪代 ...
Scala进阶之路-Scala函数篇详解
Scala进阶之路-Scala函数篇详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.传值调用和传名调用 /* @author :yinzhengjie Blog:http: ...
（十八）整合Nacos组件，环境搭建和入门案例详解
整合Nacos组件,环境搭建和入门案例详解 1.Nacos基础简介 1.1 关键特性 1.2 专业术语解释 1.3 Nacos生态圈 2.SpringBoot整合Nacos 2.1 新建配置 2.2 ...
es6入门4--promise详解
可以说每个前端开发者都无法避免解决异步问题,尤其是当处理了某个异步调用A后,又要紧接着处理其它逻辑,而最直观的做法就是通过回调函数(当然事件派发也可以)处理,比如: 请求A(function (请求响 ...
Django入门基础详解
本次使用django版本2.1.2 安装django 安装最新版本 pip install django 安装指定版本 pip install django==1.10.1 查看本机django版本 ...
日志处理(一) log4j 入门和详解(转)
log4j 入门. 详解转自雪飘寒的文章 1. Log4j 简介在应用程序中添加日志记录总的来说基于三个目的: 监视代码中变量的变化情况,周期性的记录到文件中供其他应用进行统计分析工作 ...
JPA入门案例详解（附源码）
1.新建JavaEE Persistence项目
从零开始入门 K8s| 详解 Pod 及容器设计模式
作者|张磊阿里云容器平台高级技术专家,CNCF 官方大使一.为什么需要 Pod 容器的基本概念我们知道 Pod 是 Kubernetes 项目里面一个非常重要的概念,也是非常重要的一个原子调度单 ...

随机推荐

[python]爬取手机号码前缀和地区信息
概述使用python爬取手机号码前缀7位.区号和地区. 小网站不容易,对爬虫也挺友好,就不放链接了. 代码 import requests from lxml import etree from f ...
CentOS7升级python3到最新版
前言最近在学习sanic,需要python3.7以上的版本,而centos7默认的python版本是3.6.8,所以升级了一下版本,在此笔录. 步骤首先,从python官网下载最新版的python ...
KVM下windows由IDE模式改为virtio模式蓝屏开不开机
KVM安装Windows默认使用的是qemu虚拟化IDE硬盘模式,在这种情况下,IO性能比较低,如果使用virtio的方式可以提高虚拟机IO性能. 于是我想将这台虚拟机迁移到openstack中管理 ...
【python技巧】替换文件中的某几行
[python技巧]替换文件中的某几行 1. 背景描述最近在写一个后端项目,主要的操作就是根据用户的前端数据,在后端打开项目中的代码文件,修改对应位置的参数,因为在目前的后端项目中经常使用这个操作, ...
shell、python时间函数小结
有时需要写一些定时任务脚本,简单总结一下,备忘. 1. 获取当前时间 python 在windows下精确到0.001秒,linux下时间精度为0.000001秒 >>> impor ...
WPF中的DesignerProperties
在WPF开发过程中,最容易遇到的一个问题:就是在自定义控件的过程中写好业务逻辑后,在调用的地方,打开.xmal文件设计器时出现异常,经过排查发现是由于自定义控件初始化过程中需要进行赋值操作.为了能够让 ...
JVM面试题、关键原理、JMM
boolean:占用1个字节,取值为true或false. byte:占用1个字节,范围为-128到127. short:占用2个字节,范围为-32,768到32,767. int:占用4个字节,范围 ...
nacos2.X版本无法注册的几个原因以及解决方案（踩坑避雷！）
在使用nacos+dubbo 注册服务的时候遇到了无法注册的问题记录一下踩的坑以及解决方案 com.alibaba.nacos.api.exception.NacosException: Requ ...
⭐volatile⭐ 用volatile关键字则会从内存中直接读取变量的值
Python基础——变量、常量、数字类型、四列表list、五字典dict、六布尔bool、垃圾回收机制、用户交互、运算符、流程控制
文章目录变量一引入一.什么是变量? 二.为什么要有变量? 三.怎么使用变量(先定义.后使用) 3.1.变量的定义与使用 3.2.变量名的命名规范 3.3.变量名的命名风格 3.4.变量值的三大 ...

神经网络入门篇：详解核对矩阵的维数（Getting your matrix dimensions right）

核对矩阵的维数

为什么使用深层表示？（Why deep representations?）

神经网络入门篇：详解核对矩阵的维数（Getting your matrix dimensions right）的更多相关文章

随机推荐

热门专题