卷积神经网络（Convolutional Neural Networks, CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一，通常由输入层、卷积层、池化层、全连接层、输出层结构组成，其中卷积层、池化层、全连接层可能有多层。CNN的结构特性有：

（1）局部连接

在传统的神经网络结构中，神经元之间的连接是全连接的，即n-1层的神经元与n层的所有神经元全部连接。但是在卷积神经网络中，n-1层与n 层的部分神经元连接。

（2）权值共享

每个滤波器与上一层局部连接，同时每个滤波器的所有局部连接都使用同样的权值参数，此举会大大减少网络的参数。

（3）下采样

　　逐渐降低数据的空间尺寸，减少网络中参数的数量，使得计算资源耗费变少，也能有效控制过拟合。

CNN的输入层、全连接层、输出层和普通神经网络的没有什么区别，接下将对卷积层和池化层进行介绍。

1.卷积层

卷积层用来提取图像特征，一个卷积核提取一种特征。卷积核的参数不同，输入特征图经过和卷积核进行卷积运算后得到的输出特征图就会不同，提取的特征也就不同。卷积层通常使用多个卷积核，提取图像的多种特征，得到的输出特征图的通道数和卷积核的数量一样。

1.1 卷积运算

一幅完整的图像，是由红色、绿色、蓝色三个通道组成的。当输入图像为灰度图像时，即为单通道，表示某一像素点颜色的数值只有1个；输入图像为RGB图像时，为多通道（三通道），表示某一像素点颜色的数值有3个。表示图像像素点颜色的数值组成的矩阵可称之为特征图，灰度图像的特征图只有2维，大小为（长，宽），而RGB图像的特征图有3维，大小为（长，宽，通道数），其中通道数就是3。当处理的对象存在多通道数时，使用的卷积核的通道数（第三维大小）也应与待处理对象的通道数大小保持一致。

1.1.1 单通道

计算结果如下：

0×0+1×1+3×2+4×3=19,1×0+2×1+4×2+5×3=25,3×0+4×1+6×2+7×3=37,4×0+5×1+7×2+8×3=43.

输出大小等于输入大小n_h×n_w减去卷积核大小k_h×k_w，即：(n_h−k_h+1)×(n_w−k_w+1)

1.1.2 多通道

阴影部分是第一个输出元素以及用于计算这个输出的输入和核张量元素：(1×1+2×2+4×3+5×4)+(0×0+1×1+3×2+4×3)=56。

1.2 填充

卷积操作常常会导致特征图越来越小。解决这个问题的简单方法即为填充:在输入图像的边界填充元素（通常填充元素是 0 ）。例如，在下图中，我们将3×3输入填充到5×5，那么它的输出就增加为4×4。

阴影部分是第一个输出元素以及用于输出计算的输入和核张量元素： 0×0+0×1+0×2+0×3=0。

通常，如果我们添加p_h行填充（大约一半在顶部，一半在底部）和p_w列填充（左侧大约一半，右侧一半），则输出形状将为(n_h−k_h+p_h+1)×(n_w−k_w+p_w+1)，即输出的高度和宽度将分别增加p_h和p_w。

在许多情况下，我们需要设置p_h=k_h−1和p_w=k_w−1，使输入和输出具有相同的高度和宽度。假设k_h是奇数，我们将在高度的两侧填充p_h/2行。如果k_h是偶数，则一种可能性是在输入顶部填充⌈p_h/2⌉行，在底部填充⌊p_h/2⌋行。同理，我们填充宽度的两侧。卷积神经网络中卷积核的高度和宽度通常为奇数，例如1、3、5或7。选择奇数的好处是，保持空间维度的同时，我们可以在顶部和底部填充相同数量的行，在左侧和右侧填充相同数量的列。

1.3 步幅

在进行卷积操作时，卷积窗口从输入张量的左上角开始，向下、向右滑动。在前面的例子中，我们默认每次滑动一个元素。但是，有时候为了高效计算或是缩减采样次数，卷积窗口可以跳过中间位置，每次滑动多个元素。我们将每次滑动元素的数量称为步幅（stride）。之前我们只使用过高度或宽度为1的步幅，在下图中是垂直步幅为3，水平步幅为2的卷积运算。着色部分是输出元素以及用于输出计算的输入和内核张量元素：0×0+0×1+1×2+2×3=8、0×0+6×1+0×2+0×3=6。

可以看到，为了计算输出中第一列的第二个元素和第一行的第二个元素，卷积窗口分别向下滑动三行和向右滑动两列。但是，当卷积窗口继续向右滑动两列时，没有输出，因为输入元素无法填充窗口（除非我们添加另一列填充）。

通常，当垂直步幅为s_h、水平步幅为s_w时，输出形状为⌊(n_h−k_h+p_h+s_h)/s_h⌋×⌊(n_w−k_w+p_w+s_w)/s_w⌋。

如果我们设置了p_h=k_h−1和p_w=k_w−1，则输出形状将简化为⌊(n_h+s_h−1)/s_h⌋×⌊(n_w+s_w−1)/s_w⌋。更进一步，如果输入的高度和宽度可以被垂直和水平步幅整除，则输出形状将为(n_h/s_h)×(n_w/s_w)。

2.池化层（降采样层、汇聚层）

与卷积层类似，汇聚层运算符由一个固定形状的窗口组成，该窗口根据其步幅大小在输入的所有区域上滑动，为固定形状窗口（有时称为汇聚窗口）遍历的每个位置计算一个输出。然而，不同于卷积层中的输入与卷积核之间的卷积运算，汇聚层不包含参数。相反，池运算是确定性的，我们通常计算汇聚窗口中所有元素的最大值或平均值。这些操作分别称为最大汇聚（maximum pooling）和平均汇聚（average pooling）。

在这两种情况下，与卷积操作一样，汇聚窗口从输入张量的左上角开始，从左往右、从上往下的在输入张量内滑动。在汇聚窗口到达的每个位置，它计算该窗口中输入子张量的最大值或平均值。计算最大值或平均值是取决于使用了最大汇聚层还是平均汇聚层。

汇聚窗口形状为 2×2 的最大汇聚层。着色部分是第一个输出元素，以及用于计算这个输出的输入元素: max(0,1,3,4)=4.

图中的输出张量的高度为2，宽度为2。这四个元素为每个汇聚窗口中的最大值：

max(0,1,3,4)=4,max(1,2,4,5)=5,max(3,4,6,7)=7,max(4,5,7,8)=8.

参考资料：《动手学深度学习》

CNN-卷积神经网络简单入门（1）的更多相关文章

Deep Learning模型之：CNN卷积神经网络（一）深度解析CNN
http://m.blog.csdn.net/blog/wu010555688/24487301 本文整理了网上几位大牛的博客,详细地讲解了CNN的基础结构与核心思想,欢迎交流. [1]Deep le ...
[转]Theano下用CNN(卷积神经网络)做车牌中文字符OCR
Theano下用CNN(卷积神经网络)做车牌中文字符OCR 原文地址:http://m.blog.csdn.net/article/details?id=50989742 之前时间一直在看 Micha ...
Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别？
https://www.zhihu.com/question/34681168 CNN(卷积神经网络).RNN(循环神经网络).DNN(深度神经网络)的内部网络结构有什么区别?修改 CNN(卷积神经网 ...
CNN(卷积神经网络)、RNN(循环神经网络)、DNN，LSTM
http://cs231n.github.io/neural-networks-1 https://arxiv.org/pdf/1603.07285.pdf https://adeshpande3.g ...
cnn(卷积神经网络)比较系统的讲解
本文整理了网上几位大牛的博客,详细地讲解了CNN的基础结构与核心思想,欢迎交流. [1]Deep learning简介 [2]Deep Learning训练过程 [3]Deep Learning模型之 ...
Keras（四）CNN 卷积神经网络 RNN 循环神经网络原理及实例
CNN 卷积神经网络卷积池化 https://www.cnblogs.com/peng8098/p/nlp_16.html 中有介绍以数据集MNIST构建一个卷积神经网路 from keras. ...
TensorFlow——CNN卷积神经网络处理Mnist数据集
CNN卷积神经网络处理Mnist数据集 CNN模型结构: 输入层:Mnist数据集(28*28) 第一层卷积:感受视野5*5,步长为1,卷积核:32个第一层池化:池化视野2*2,步长为2 第二层卷积 ...
3层-CNN卷积神经网络预测MNIST数字
3层-CNN卷积神经网络预测MNIST数字本文创建一个简单的三层卷积网络来预测 MNIST 数字.这个深层网络由两个带有 ReLU 和 maxpool 的卷积层以及两个全连接层组成. MNIST 由 ...
人工智能——CNN卷积神经网络项目之猫狗分类
首先先导入所需要的库 import sys from matplotlib import pyplot from tensorflow.keras.utils import to_categorica ...

随机推荐

【自编教材】16万8千字的HTML+CSS基础适合从0到1-可收藏
[图片链接有点小问题,这几天更新,敬请期待!] 目录第一章HTML基础 1.1 HTML简介和发展史 1.1.1 什么是HTML 1.1.2 HTML的发展历程 1.1.3 web标准 1.2 开 ...
深入理解Java虚拟机二：垃圾收集与内存分配
垃圾收集:垃圾收集要完成三件事,包括哪些内存需要回收,什么时候回收及如何回收. 1.需要回收的内存判定:没有引用指向原先分配给某个对象的内存时,则该内存是需要回收的垃圾 Java垃圾收集器在对内存进行 ...
Differential Evolution: A Survey of the State-of-the-Art
@ 目录概主要内容 DE/rand/1/bin DE/?/?/? DE/rand/1/exp DE/best/1 DE/best/2 DE/rand/2 超参数的选择的选择的选择的选择一些 ...
jsoncpp转换字符串
Json::Value root; ...//root中写入数据 //方法一:转为格式化字符串,里面加了很多空格及换行符 string strJson1 = root.toStyledString() ...
生成器执行函数co 源码解读
本文所选内容均来自[co模块源码] /** * slice() reference. */ var slice = Array.prototype.slice; module.exports = co ...
【jvm】08-垃圾回收器那么多傻傻分不清?
[jvm]08-垃圾回收器那么多傻傻分不清? 欢迎关注b站账号/公众号[六边形战士夏宁],一个要把各项指标拉满的男人.该文章已在github目录收录. 屏幕前的大帅比和大漂亮如果有帮助到你的话请顺手点 ...
Java EE数据持久化框架 • 【第2章 MyBatis实现DML操作】
全部章节 >>>> 本章目录 2.1 标签 2.1.1 标签简单应用 2.1.2 使用JDBC方式返回主键自增的值 2.1.3 使用标签返回普通主键的值 2.1.4 实践练 ...
Linux 进程调度
线程状态(context) 程序计数器(Program Counter),它表示当前线程执行指令的位置. 保存变量的寄存器. 程序的Stack.通常来说每个线程都有属于自己的Stack,Stack记录 ...
CentOS 7 把已登录的用户断开
1. 查看登陆用户 [root@localhost ~]# w 18:29:30 up 377 days, 8:44, 4 users, load average: 0.05, 0.12, 0.09 ...
解决ubuntu 18.04(桌面版)搜狗输入法不能正常使用的问题
ubuntu下搜狗输入法的配置文件在~/.config目录下,一般有三个目录SogouPY.SogouPY.users.sogou-qimpanel 执行命令 $ cd ~/.config $ rm ...

CNN-卷积神经网络简单入门（1）