卷积神经网络(convolutional neural network)。它是近年来深度学习能在计算机视觉中取得巨大成果的基石,它也逐渐在被其他诸如自然语言处理、推荐系统和语音识别等领域广泛使用。

目前我关注的问题是:

  • 输入数据的构建,尤其是多输入、多输出的情况。
  • finetune的实现,如何将已训练网络的部分层拿出来作为其他网络的一部分。

二维卷积层

二维卷积:

实现如下:

def corr2d(X, K):
h, w = K.shape
Y = nd.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
for i in range(Y.shape[0]):
for j in range(Y.shape[1]):
Y[i, j] = (X[i : i + h, j : j + w] * K).sum()
return Y X = nd.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
K = nd.array([[0, 1], [2, 3]])
corr2d(X, K)
# output
[[ 19. 25.]
[ 37. 43.]]
<NDArray 2x2 @cpu(0)>

二维卷积层就是将输入和卷积核做相关运算,然后加上一个标量偏差来得到输出。

class Conv2D(nn.Block):
def __init__(self, kernel_size, **kwargs):
super(Conv2D, self).__init__(**kwargs)
self.weight = self.params.get('weight', shape=kernel_size)
self.bias = self.params.get('bias', shape=(1,)) def forward(self, x):
return corr2d(x, self.weight.data()) + self.bias.data()

卷积运算的计算与二维相关运算类似,唯一的区别是反向的将核数组跟输入做乘法,即 Y[0, 0] = (X[0:2, 0:2] * K[::-1, ::-1]).sum()。

但是因为在卷积层里 K 是学习而来的,所以不论是正向还是反向访问都可以

通过数据学习核数组

虽然我们之前构造了 Conv2D 类,但由于 corr2d 使用了对单个元素赋值([i, j]=)的操作会导致无法自动求导,下面我们使用 Gluon 提供的 Conv2D 类来实现这个例子。

# 构造一个输出通道是 1(将在后面小节介绍通道),核数组形状是 (1,2) 的二维卷积层。
conv2d = nn.Conv2D(1, kernel_size=(1, 2))
conv2d.initialize() # 二维卷积层使用 4 维输入输出,格式为(批量大小,通道数,高,宽),这里批量和通道均为 1。
X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 6, 7)) for i in range(10):
with autograd.record():
Y_hat = conv2d(X)
l = (Y_hat-Y) ** 2
if i % 2 == 1:
print('batch %d, loss %.3f' % (i, l.sum().asscalar()))
l.backward()
# 为了简单起见这里忽略了偏差。
conv2d.weight.data()[:] -= 3e-2 * conv2d.weight.grad()

填充和步幅

一般来说,假设输入形状是 \(n_h×n_w\),卷积核形状是 \(k_h×k_w\),那么输出形状将会是

\[(n_h-k_h+1) \times (n_w-k_w+1).
\]

所以卷积层的输出形状由输入形状和卷积核形状决定。下面我们将介绍卷积层的两个超参数,填充和步幅,它们可以在给定形状的输入和卷积核下来改变输出形状。

填充是指在输入高和宽的两端填充元素。如果在高两侧一共填充 \(p_h\) 行,在宽两侧一共填充 \(p_w\) 列,那么输出形状将会是

\[(n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1),
\]

通常我们会设置 \(p_h=k_h−1\) 和 \(p_w=k_w−1\) 使得输入和输出有相同的高宽,这样方便在构造网络时容易推测每个层的输出形状。假设这里 \(k_h\) 是奇数,我们会在高的两侧分别填充 \(p_h/2\) 行。如果其是偶数,一种可能是上面填充 \(\lceil p_h/2\rceil\) 行,而下面填充 \(\lfloor p_h/2\rfloor\) 行。在宽上行为类似。

卷积神经网络经常使用奇数高宽的卷积核,例如 1、3、5、和 7,所以填充在两端上是对称的。

# 注意这里是两侧分别填充 1,所以 p_w = p_h = 2。
conv2d = nn.Conv2D(1, kernel_size=3, padding=1)
conv2d.initialize()
X = nd.random.uniform(shape=(8, 8))
X = X.reshape((1, 1,) + X.shape)
Y = conv2d(X)
print Y.shape[2:]
# output
(8, 8)

当然我们可以使用非方形卷积核,使用对应的填充同样可得相同高宽的输出。

conv2d = nn.Conv2D(1, kernel_size=(5, 3), padding=(2, 1))

前面的例子中,在高和宽两个方向上步幅均为 1。自然我们可以使用更大步幅。

一般来说,如果在高上使用步幅 \(s_h\),在宽上使用步幅 \(s_w\),那么输出大小将是

\[\lfloor(n_h-k_h+p_h+s_h)/s_h\rfloor \times \lfloor(n_w-k_w+p_w+s_w)/s_w\rfloor.
\]

如果我们设置\(p_h=k_h−1\) 和 \(p_w=k_w−1\),那么输出大小为\(\lfloor(n_h+s_h-1)/s_h\rfloor \times \lfloor(n_w+s_w-1)/s_w\rfloor\).更进一步,如果输出高宽能分别被高宽上的步幅整除,那么输出将是 \(n_h/s_h \times n_w/s_w\)。也就是说我们成倍的减小了输入的高宽。

conv2d = nn.Conv2D(1, kernel_size=3, padding=1, strides=2)
conv2d = nn.Conv2D(1, kernel_size=(3, 5), padding=(0, 1), strides=(3, 4))
# output
(4, 4)
(2, 2)

通道

下图展示了输入通道是 2 的一个例子

输入是\(c_i\)通道时,需要一个\(c_i \times k_h \times k_w\)的卷积核。在每个通道里对相应的输入矩阵和核矩阵做相关计算,然后再将通道之间的结果相加得到最终结果。

上面是\(c_o=1\)的情况,如果是多通道输出,那么卷积核的形状变为:\(c_o \times c_i \times k_h \times k_w\).

1x1卷积层

因为使用了最小窗口,它失去了卷积层可以识别高宽维上相邻元素构成的模式的功能,它的主要计算则是在通道维上。

在之后的模型里我们将会看到 1×1 卷积层是如何当做保持高宽维形状的全连接层使用,其作用是通过调整网络层之间的通道数来控制模型复杂度。

池化层

池化层提出可以缓解卷积层对位置的过度敏感性,也为了降低显存。

同卷积层一样,池化层也可以填充输入高宽两侧的数据和调整窗口的移动步幅来改变输出大小。

我们先构造一个 (1, 1, 4, 4) 形状的输入数据,前两个维度分别是批量和通道。

X = nd.arange(16).reshape((1, 1, 4, 4))

MaxPool2D 类里默认步幅设置成跟池化窗大小一样。下面使用 (3, 3) 窗口,默认获得 (3, 3) 步幅。

pool2d = nn.MaxPool2D(3)
# 因为池化层没有模型参数,所以不需要调用参数初始化函数。
pool2d(X)
# output
[[[[ 10.]]]]
<NDArray 1x1x1x1 @cpu(0)>

我们可以手动指定步幅和填充。

pool2d = nn.MaxPool2D(3, padding=1, strides=2)
pool2d = nn.MaxPool2D((2, 3), padding=(1, 2), strides=(2, 3))

MXNET:卷积神经网络基础的更多相关文章

  1. 【原创 深度学习与TensorFlow 动手实践系列 - 3】第三课:卷积神经网络 - 基础篇

    [原创 深度学习与TensorFlow 动手实践系列 - 3]第三课:卷积神经网络 - 基础篇 提纲: 1. 链式反向梯度传到 2. 卷积神经网络 - 卷积层 3. 卷积神经网络 - 功能层 4. 实 ...

  2. 动手学习Pytorch(6)--卷积神经网络基础

    卷积神经网络基础 本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充.步幅.输入通道和输出通道的含义.   二维卷积层 本节介绍的是最常见的二维卷积层,常用于处理图像数据.   二维 ...

  3. L15卷积神经网络基础

    卷积神经网络基础 本节我们介绍卷积神经网络的基础概念,主要是卷积层和池化层,并解释填充.步幅.输入通道和输出通道的含义. 二维卷积层 本节介绍的是最常见的二维卷积层,常用于处理图像数据. 二维互相关运 ...

  4. DeepLearning.ai学习笔记(四)卷积神经网络 -- week1 卷积神经网络基础知识介绍

    一.计算机视觉 如图示,之前课程中介绍的都是64* 64 3的图像,而一旦图像质量增加,例如变成1000 1000 * 3的时候那么此时的神经网络的计算量会巨大,显然这不现实.所以需要引入其他的方法来 ...

  5. 深度学习笔记 (一) 卷积神经网络基础 (Foundation of Convolutional Neural Networks)

    一.卷积 卷积神经网络(Convolutional Neural Networks)是一种在空间上共享参数的神经网络.使用数层卷积,而不是数层的矩阵相乘.在图像的处理过程中,每一张图片都可以看成一张“ ...

  6. 卷积神经网络基础(CNN)【转载】

    作者: Sanjay Chan [ http://blog.csdn.net/chenzomi ] 背景 之前在网上搜索了好多好多关于CNN的文章,由于网络上的文章很多断章取义或者描述不清晰,看了很多 ...

  7. Coursera Deep Learning笔记 卷积神经网络基础

    参考1 参考2 1. 计算机视觉 使用传统神经网络处理机器视觉的一个主要问题是输入层维度很大.例如一张64x64x3的图片,神经网络输入层的维度为12288. 如果图片尺寸较大,例如一张1000x10 ...

  8. mxnet卷积神经网络训练MNIST数据集测试

    mxnet框架下超全手写字体识别—从数据预处理到网络的训练—模型及日志的保存 import numpy as np import mxnet as mx import logging logging. ...

  9. Deep Learning.ai学习笔记_第四门课_卷积神经网络

    目录 第一周 卷积神经网络基础 第二周 深度卷积网络:实例探究 第三周 目标检测 第四周 特殊应用:人脸识别和神经风格转换 第一周 卷积神经网络基础 垂直边缘检测器,通过卷积计算,可以把多维矩阵进行降 ...

随机推荐

  1. hdu 2063 过山车【匈牙利算法】(经典)

    <题目链接> RPG girls今天和大家一起去游乐场玩,终于可以坐上梦寐以求的过山车了.可是,过山车的每一排只有两个座位,而且还有条不成文的规矩,就是每个女生必须找个个男生做partne ...

  2. P3917 异或序列

    P3917 异或序列暴力前缀异或枚举每一个区间,再求和,60分.正解:按每一位来做对于区间[l,r],如果它对答案有贡献,区间中1的个数一定是奇数,可以按每一位取(1<<i)的前缀和,q[ ...

  3. Linux 程序设计1:深入浅出 Linux 共享内存

    笔者最近在阅读Aerospike 论文时,发现了Aerospike是利用了Linux 共享内存机制来实现的存储索引快速重建的.这种方式比传统利用索引文件进行快速重启的方式大大提高了效率.(减少了磁盘 ...

  4. Servlet与HTTP介绍学习

    http介绍:http是一套规范,一种网络数据交互的标准协议,不同的语言,不同的数据想要实现合理的数据交互(例如:浏览器和服务器数据交互),就得按照他所规定的协议来,这样就会形成标准的(大家都认识的) ...

  5. VB.NET 编程元素支持更改总结

    Visual Basic 2005 更改了它支持各种编程元素的方式,主要是为了提供与公共语言运行库的互操作性.许多 Visual Basic 6.0 元素被重新命名,重新分类或与 Visual Bas ...

  6. MySQL中查询获取每个班级成绩前三名的学生信息

    CREATE TABLE t_testscore( pk_id INT PRIMARY KEY, c_name VARCHAR(50) , c_score INT, c_class INT )DEFA ...

  7. ubuntu14.06 Lts开启ssh服务

    (1) apt-get install openssh-server (2)检查ssh服务开启状态 (3)通过以下命令启动ssh服务 service ssh stop service ssh star ...

  8. Css实现元素的垂直居中

    前言: 在写CSS的时候让元素在高度固定的容器中垂直居中是很简单的,譬如设置容器的padding或者元素的margin之类的都可以做到:让元素在容器中水平居中也有text-align:center.m ...

  9. Android Firebase Android google-cloud-tools

    Firebase 让不懂服务端的开发者也可以快速写出实时性的Web端和移动端应用. firebase的功能包括推送通知,云存储,活动监视,远程部署 针对国内三方推送,只能在国内使用,到了国外就不支持了 ...

  10. 洛谷.4115.Qtree4/BZOJ.1095.[ZJOI2007]Hide捉迷藏(动态点分治 Heap)

    题目链接 洛谷 SPOJ BZOJ1095(简化版) 将每次Solve的重心root连起来,会形成一个深度为logn的树,就叫它点分树吧.. 我们对每个root维护两个东西: 它管辖的子树中所有白点到 ...