多通道(比方RGB三通道)卷积过程

今天一个同学问卷积过程好像是对一个通道的图像进行卷积，比方10个卷积核，得到10个feature map，那么输入图像为RGB三个通道呢，输出就为 30个feature map 吗，答案肯定不是的，输出的个数依旧是卷积核的个数。能够查看经常使用模型。比方lenet 手写体，Alex imagenet 模型，每一层输出feature map 个数就是该层卷积核的个数。

1、一通道单个卷积核卷积过程

2、一通道多个卷积核卷积过程

一个卷积核得到的特征提取是不充分的。我们能够加入多个卷积核，比方32个卷积核，能够学习32种特征。

在有多个卷积核时，例如以下图所看到的：输出就为32个feature map

3、多通道的多个卷积核

下图展示了在四个通道上的卷积操作。有两个卷积核，生成两个通道。当中须要注意的是，四个通道上每一个通道相应一个卷积核，先将w2忽略，仅仅看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果相加然后再取激活函数值得到的。

所以最后得到两个feature map。即输出层的卷积核核个数为 feature map 的个数。

所以。在上图由4个通道卷积得到2个通道的过程中，參数的数目为4×2×2×2个。当中4表示4个通道。第一个2表示生成2个通道。最后的2×2表示卷积核大小。

以下是常见模型，理解一下每层feature map 个数。为上一层卷积核的个数

下图即为Alex的CNN结构图。须要注意的是。该模型採用了2-GPU并行结构，即第1、2、4、5卷积层都是将模型參数分为2部分进行训练的。

在这里。更进一步，并行结构分为数据并行与模型并行。

数据并行是指在不同的GPU上，模型结构同样，但将训练数据进行切分。分别训练得到不同的模型，然后再将模型进行融合。

而模型并行则是，将若干层的模型參数进行切分，不同的GPU上使用同样的数据进行训练，得到的结果直接连接作为下一层的输入。

上图模型的基本參数为：

输入：224×224大小的图片，3通道

第一层卷积：5×5大小的卷积核96个，每一个GPU上48个。

第一层max-pooling：2×2的核。

第二层卷积：3×3卷积核256个，每一个GPU上128个。

第二层max-pooling：2×2的核。

第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。

第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。

第五层卷积：3×3的卷积核256个，两个GPU上个128个。

第五层max-pooling：2×2的核。

第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。

第二层全连接：4096维

Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

4 DeepID网络结构

DeepID网络结构是香港中文大学的Sun Yi开发出来用来学习人脸特征的卷积神经网络。每张输入的人脸被表示为160维的向量。学习到的向量经过其它模型进行分类，在人脸验证试验上得到了97.45%的正确率，更进一步的，原作者改进了CNN，又得到了99.15%的正确率。

例如以下图所看到的，该结构与ImageNet的详细參数类似，所以仅仅解释一下不同的部分吧。

上图中的结构。在最后仅仅有一层全连接层，然后就是softmax层了。论文中就是以该全连接层作为图像的表示。

在全连接层，以第四层卷积和第三层max-pooling的输出作为全连接层的输入，这样能够学习到局部的和全局的特征。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------

以下讲一下，caffe中的实现。

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="" style="border:none; max-width:100%">

Caffe中的卷积计算是将卷积核矩阵和输入图像矩阵变换为两个大的矩阵A与B，然后A与B进行矩阵相乘得到结果C（利用GPU进行矩阵相乘的高效性），三个矩阵的说明例如以下：

（1）在矩阵A中

M为卷积核个数，K=k*k，等于卷积核大小。即第一个矩阵每行为一个卷积核向量（是将二维的卷积核转化为一维），总共同拥有M行。表示有M个卷积核。

（2）在矩阵B中

N=（（image_h + 2*pad_h – kernel_h）/stride_h+ 1）*（（image_w +2*pad_w – kernel_w）/stride_w + 1）

image_h：输入图像的高度

image_w：输入图像的宽度

pad_h：在输入图像的高度方向两边各添加pad_h个单位长度（由于有两边。所以乘以2）

pad_w：在输入图像的宽度方向两边各添加pad_w个单位长度（由于有两边。所以乘以2）

kernel_h：卷积核的高度

kernel_w：卷积核的宽度

stride_h：高度方向的滑动步长；

stride_w：宽度方向的滑动步长。

因此，N为输出图像大小的长宽乘积。也是卷积核在输入图像上滑动可截取的最大特征数。

K=k*k。表示利用卷积核大小的框在输入图像上滑动所截取的数据大小。与卷积核大小一样大。

（3）在矩阵C中

矩阵C为矩阵A和矩阵B相乘的结果，得到一个M*N的矩阵，当中每行表示一个输出图像即feature map，共同拥有M个输出图像（输出图像数目等于卷积核数目）

（在Caffe中是使用src/caffe/util/im2col.cu中的im2col和col2im来完毕矩阵的变形和还原操作）

举个样例（方便理解）：

如果有两个卷积核为与，因此M=2。kernel_h=2。kernel_w=2，K=
kernel_h * kernel_w=4

输入图像矩阵为，因此image_h=3，image_w=3。令边界扩展为0即pad_h=0。pad_w=0。滑动步长为1，即stride_h=1。stride_w=1

故N=[(3+2*0-2)/1+1]*[ (3+2*0-2)/1+1]=2*2=4

A矩阵（M*K）为（一行为一个卷积核），B矩阵（K*N）为（B矩阵的每一列为一个卷积核要卷积的大小）

A 矩阵的由来：：：

B矩阵的由来：（caffe 有 imtocol.cpp代码，专门用于实现）

C=A*B=

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" alt="" style="border:none; max-width:100%">*=

C中的与分别为两个输出特征图像即feature
map。验证了有几个卷积核就有几个feature map

在Caffe源代码中，src/caffe/util/math_functions.cu（假设使用CPU则是src/util/math_functions.cpp）中的caffe_gpu_gemm()函数。当中有两个矩阵A（M*K）

与矩阵 B（K*N）。大家能够通过输出M、K、N的值即对应的矩阵内容来验证上述的原理。代码中的C矩阵与上述的C矩阵不一样，代码中的C矩阵存储的是偏置bias。

是A 与B相乘后得到M*N大小的矩阵，然后再跟这个存储偏置的矩阵C相加完毕卷积过程。假设是跑Mnist训练网络的话，能够看到第一个卷积层卷积过程中，

M=20，K=25。N=24*24=576。

（caffe中涉及卷积详细过程的文件主要有：src/caffe/layers/conv_layer.cu、src/caffe/layers/base_conv_layer.cpp、 src/caffe/util/math_functions.cu、src/caffe/util/im2col.cu）

另外大家也能够參考知乎上贾扬清大神的回答，帮助理解http://www.zhihu.com/question/28385679

（对于他给出的ppt上的C表示图像通道个数，假设是RGB图像则通道数为3。相应于caffe代码中的变量为src/caffe/layers/base_conv_layer.cpp中

函数forward_gpu_gemm中的group_）

贾扬清的PPT例如以下：

以下看这个就简单多了， im2col.cpp 的代码也好理解了

多通道(比方RGB三通道)卷积过程的更多相关文章

C++ 彩色图像(RGB)三通道直方图计算和绘制，图像逆时针旋转90° 实现代码
#include "iostream" #include "opencv2/opencv.hpp" #include "vector" us ...
OpenCV——RGB三通道分离
opencv 和 matlab 在处理彩色图像的时候,通道的存储顺序是不同的. matlab 的排列顺序是R,G,B: 而在opencv中,排列顺序是B,G,R. 下面通过一个小程序看看opencv中 ...
OpenCV绘制图像中RGB三个通道的直方图
一开始是看<OpenCV计算机视觉编程攻略(第2版)>这本书学做直方图,但是书本里说直方图的部分只详细说了黑白图像(单通道)的直方图绘制方法,RGB图像的直方图只说了如何计算,没有说计算完 ...
【CNN】--- 卷积过程中RGB与灰度的区别
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/hacker_Dem_br/article/ ...
SSE图像算法优化系列十八：三次卷积插值的进一步SSE优化。
本文是在学习https://blog.csdn.net/housisong/article/details/1452249一文的基础上对算法的理解和重新整理,再次非常感谢原文作者的深入分析以及分享. ...
STM32F10x_ADC三通道DMA连续转换(3通道、软件单次触发)
Ⅰ.概述上一篇文章讲述的内容是:三通道逐次转换(单次.单通道软件触发),也就是说3条通道要三次软件触发才能完成转换,而且是通过软件读取转换数值. 本文讲述三通道DMA连续转换(3通道.软件单次触发) ...
STM32F10x_ADC三通道逐次转换(单次、单通道软件触发)
Ⅰ.概述本文讲述关于STM32功能比较强大的ADC模块.ADC(Analog to Digital Converter)也就是模拟量转化为数字量,而STM32的ADC模块功能比较多,本文主要讲述“三 ...
Halcon学习之三：有关图像通道的函数（R是三通道，B是1通道，G二通道），排列顺序BGR
黑白摄像机会返回每个像素所对应的能量采用结果,这些结果组成了一幅单通道灰度值图像,而对于RGB彩色摄像机,它将返回每个像素所对应的三个采样结果,也就是一幅三通道图像.下面这些是与图像通道有关的函数: ...
Halcon一日一练：创建三通道图像
首先理解一个什么是三通道图像: 三通道图像就是彩色图像,我们之前黑白相机或黑白电视机都是彩用的灰阶图像,即单通道图像,一般是2的8次方个灰阶,即256个灰阶.彩色图像采用RGB,红绿蓝三个通道来合成彩 ...

随机推荐

项目中使用libsodium扩展
前段时间研究了微信小微商户,地址:https://pay.weixin.qq.com/wiki/doc/api/xiaowei.php?chapter=19_11 其接口操作中需要下载证书针对返回的密 ...
UVA 524 素数环【dfs/回溯法】
Description A ring is composed of n (even number) circles as shown in diagram. Put natural numbers ...
QUICK START GIT
install git at you laptop https://git-scm.com/downloads config git at you laptop git config --global ...
搞懂ZooKeeper的Watcher之源码分析及特性总结
前言本章讲ZooKeeper重要的机制,Watcher特性.ZooKeeper允许客户端向服务端注册Watcher监听,当服务端一些指定事件触发了这个Watcher,那么就会向指定客户端发送一个事件 ...
Java NIO.2 使用Files类遍历文件夹
在以前的Java版本中,如果要遍历某个文件夹下所有的子文件.子文件夹,需要我们自己写递归,很麻烦. 在Java7以后,我们可以NIO.2中的Files工具类来遍历某个文件夹(会自动递归). 大致用法: ...
Inno Setup打包的安装程序在Vista/Win7上自动提示需要管理员权限的方法
来源:http://hi.baidu.com/jingrensoft/blog/item/c34575cfae4fb926f9dc617f.html 首先,在 [Setup]段 PrivilegesR ...
Android Retrofit使用教程(二)
上一篇文章讲述了Retrofit的简单使用,这次我们学习一下Retrofit的各种HTTP请求. Retrofit基础在Retrofit中使用注解的方式来区分请求类型.比如@GET("&q ...
【报错】项目启动，仅仅报错 One or more listeners failed to start. Full details will be found in the appropriate container log file
今天spring4.3.13 项目,整合ActiveMQ的时候,项目启动在自动部署到tomcat下的时候,不能正常的部署,仅仅报错如下: Connected to server [-- ::,] Ar ...
DEDECMS图片集上传图片出错302的解决办法
无忧主机(www.51php.com)小编今天在调试dede网站的时候发现了一个问题,因为小编想在网站上增加一个图片集的栏目,于是就到后台图片集栏目去添加内容,谁知在上传图片的时候给我弹出个错误信息框 ...
Web.config配置文件详解(新手必看) 【转】
来源 :http://www.cnblogs.com/gaoweipeng/archive/2009/05/17/1458762.html 花了点时间整理了一下ASP.NET Web.config配置 ...

多通道(比方RGB三通道)卷积过程

多通道(比方RGB三通道)卷积过程的更多相关文章

随机推荐

热门专题