caffe卷积输入通道如何到输出通道

今天一个同学问卷积过程好像是对一个通道的图像进行卷积，比如10个卷积核，得到10个feature map，那么输入图像为RGB三个通道呢，输出就为 30个feature map 吗，答案肯定不是的，输出的个数依然是卷积核的个数。可以查看常用模型，比如lenet 手写体，Alex imagenet 模型，每一层输出feature map 个数就是该层卷积核的个数。

1、一通道单个卷积核卷积过程

2、一通道多个卷积核卷积过程

一个卷积核得到的特征提取是不充分的，我们可以添加多个卷积核，比如32个卷积核，可以学习32种特征。在有多个卷积核时，如下图所示：输出就为32个feature map

3、多通道的多个卷积核

下图展示了在四个通道上的卷积操作，有两个卷积核，生成两个通道。其中需要注意的是，四个通道上每个通道对应一个卷积核，先将w2忽略，只看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果相加然后再取激活函数值得到的。所以最后得到两个feature map，即输出层的卷积核核个数为 feature map 的个数。

所以，在上图由4个通道卷积得到2个通道的过程中，参数的数目为4×2×2×2个，其中4表示4个通道，第一个2表示生成2个通道，最后的2×2表示卷积核大小。

下面是常见模型，理解一下每层feature map 个数，为上一层卷积核的个数

下图即为Alex的CNN结构图。需要注意的是，该模型采用了2-GPU并行结构，即第1、2、4、5卷积层都是将模型参数分为2部分进行训练的。在这里，更进一步，并行结构分为数据并行与模型并行。数据并行是指在不同的GPU上，模型结构相同，但将训练数据进行切分，分别训练得到不同的模型，然后再将模型进行融合。而模型并行则是，将若干层的模型参数进行切分，不同的GPU上使用相同的数据进行训练，得到的结果直接连接作为下一层的输入。

上图模型的基本参数为：

输入：224×224大小的图片，3通道
第一层卷积：5×5大小的卷积核96个，每个GPU上48个。
第一层max-pooling：2×2的核。
第二层卷积：3×3卷积核256个，每个GPU上128个。
第二层max-pooling：2×2的核。
第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。
第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。
第五层卷积：3×3的卷积核256个，两个GPU上个128个。
第五层max-pooling：2×2的核。
第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。
第二层全连接：4096维
Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

4 DeepID网络结构

DeepID网络结构是香港中文大学的Sun Yi开发出来用来学习人脸特征的卷积神经网络。每张输入的人脸被表示为160维的向量，学习到的向量经过其他模型进行分类，在人脸验证试验上得到了97.45%的正确率，更进一步的，原作者改进了CNN，又得到了99.15%的正确率。

如下图所示，该结构与ImageNet的具体参数类似，所以只解释一下不同的部分吧。

上图中的结构，在最后只有一层全连接层，然后就是softmax层了。论文中就是以该全连接层作为图像的表示。在全连接层，以第四层卷积和第三层max-pooling的输出作为全连接层的输入，这样可以学习到局部的和全局的特征。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------

下面讲一下，caffe中的实现。

Caffe中的卷积计算是将卷积核矩阵和输入图像矩阵变换为两个大的矩阵A与B，然后A与B进行矩阵相乘得到结果C（利用GPU进行矩阵相乘的高效性），三个矩阵的说明如下：

（1）在矩阵A中

M为卷积核个数，K=k*k，等于卷积核大小，即第一个矩阵每行为一个卷积核向量（是将二维的卷积核转化为一维），总共有M行，表示有M个卷积核。

（2）在矩阵B中

N=（（image_h + 2*pad_h – kernel_h）/stride_h+ 1）*（（image_w +2*pad_w – kernel_w）/stride_w + 1）

image_h：输入图像的高度

image_w：输入图像的宽度

pad_h：在输入图像的高度方向两边各增加pad_h个单位长度（因为有两边，所以乘以2）

pad_w：在输入图像的宽度方向两边各增加pad_w个单位长度（因为有两边，所以乘以2）

kernel_h：卷积核的高度

kernel_w：卷积核的宽度

stride_h：高度方向的滑动步长；

stride_w：宽度方向的滑动步长。

因此，N为输出图像大小的长宽乘积，也是卷积核在输入图像上滑动可截取的最大特征数。

K=k*k，表示利用卷积核大小的框在输入图像上滑动所截取的数据大小，与卷积核大小一样大。

（3）在矩阵C中

矩阵C为矩阵A和矩阵B相乘的结果，得到一个M*N的矩阵，其中每行表示一个输出图像即feature map，共有M个输出图像（输出图像数目等于卷积核数目）

（在Caffe中是使用src/caffe/util/im2col.cu中的im2col和col2im来完成矩阵的变形和还原操作）

举个例子（方便理解）：

假设有两个卷积核为与，因此M=2，kernel_h=2，kernel_w=2，K= kernel_h * kernel_w=4

输入图像矩阵为，因此image_h=3，image_w=3，令边界扩展为0即pad_h=0，pad_w=0，滑动步长为1，即stride_h=1，stride_w=1

故N=[(3+2*0-2)/1+1]*[ (3+2*0-2)/1+1]=2*2=4

A矩阵（M*K）为（一行为一个卷积核），B矩阵（K*N）为（B矩阵的每一列为一个卷积核要卷积的大小）

A 矩阵的由来：：：

B矩阵的由来：（caffe 有 imtocol.cpp代码，专门用于实现）

C=A*B=*=

C中的与分别为两个输出特征图像即feature map。验证了有几个卷积核就有几个feature map

在Caffe源码中，src/caffe/util/math_functions.cu（如果使用CPU则是src/util/math_functions.cpp）中的caffe_gpu_gemm()函数，其中有两个矩阵A（M*K）

与矩阵 B（K*N），大家可以通过输出M、K、N的值即相应的矩阵内容来验证上述的原理，代码中的C矩阵与上述的C矩阵不一样，代码中的C矩阵存储的是偏置bias，

是A 与B相乘后得到M*N大小的矩阵，然后再跟这个存储偏置的矩阵C相加完成卷积过程。如果是跑Mnist训练网络的话，可以看到第一个卷积层卷积过程中，

M=20，K=25，N=24*24=576。

（caffe中涉及卷积具体过程的文件主要有：src/caffe/layers/conv_layer.cu、src/caffe/layers/base_conv_layer.cpp、 src/caffe/util/math_functions.cu、src/caffe/util/im2col.cu）

另外大家也可以参考知乎上贾扬清大神的回答，帮助理解http://www.zhihu.com/question/28385679

（对于他给出的ppt上的C表示图像通道个数，如果是RGB图像则通道数为3，对应于caffe代码中的变量为src/caffe/layers/base_conv_layer.cpp中

函数forward_gpu_gemm中的group_）

贾扬清的PPT如下：

下面看这个就简单多了， im2col.cpp 的代码也好理解了

caffe卷积输入通道如何到输出通道的更多相关文章

VS2013配置Caffe卷积神经网络工具（64位Windows 7）——准备依赖库
VS2013配置Caffe卷积神经网络工具(64位Windows 7)--准备依赖库 2014年4月的时候自己在公司就将Caffe移植到Windows系统了,今年自己换了台电脑,想在家里也随便跑跑,本 ...
Android音频输入通道的底层硬件和软件开发分析
Android潜在的发展音频输入通道的软硬件分析我们都知道耳机Mic集成在一直的那种四段耳机Mic插头是Android设备上比較经常使用.可是也会有分开的情况,比較假设在普通的PC机中装Androi ...
caffe 卷积层的运算
贾清扬寻找快速算法之路:https://github.com/Yangqing/caffe/wiki/Convolution-in-Caffe:-a-memo 卷积运算图文并茂:http://www. ...
caffe卷积层实现
下图是jiayangqing在知乎上的回答,其实过程就是把image转换成矩阵,然后进行矩阵运算卷积的实现在conv_layer层,conv_layer层继承了base_conv_layer层,ba ...
c++ 和 matlab 下的caffe模型输入差异
在向一个caffe模型传递输入数据的时候,要注意以下两点: 1. opencv中Mat数据在内存中的存放方式是按行存储,matlab中图像在内存中的存放方式是按列存储. 2. opencv中Mat数据 ...
caffe的输入
决定将caffe分为几个部分进行总结,首先是第一部分,输入数据以及输入层. 首先从输入数据对BP的影响开始介绍. sgd的随机性由于是sgd,因此样本一定要shuffle.BP中说到,样本选择遵循俩 ...
caffe卷积层代码阅读笔记
卷积的实现思想: 通过im2col将image转为一个matrix,将卷积操作转为矩阵乘法运算通过调用GEMM完毕运算操作以下两个图是我在知乎中发现的,"盗"用一下,确实非常好 ...
caffe卷积操作
CNN中卷积层的计算细节
原文链接: https://zhuanlan.zhihu.com/p/29119239 卷积层尺寸的计算原理输入矩阵格式:四个维度,依次为:样本数.图像高度.图像宽度.图像通道数输出矩阵格式:与输 ...

随机推荐

if和switch的原理
在C语言中,if和switch是条件分支的重要组成部分.if的功能是计算判断条件的值,根据返回的值的不同来决定跳转到哪个部分.值为真则跳转到if语句块中,否则跳过if语句块.下面来分析一个简单的if实 ...
自动安装memcached服务端与PHP扩展Memcached
该脚本基于阿里云服务器安装脚本,并只能运用于centos / aliyun os,该脚本使用时,需要与阿里云安装脚本的install.sh放在同一目录下.有缘人切忌乱用: #! /bin/bash # ...
hdu1020
#include <stdio.h> int main(void){ int n,i,c; char txt[10001]; scanf("%d", &n); ...
B-number
B-number 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3652 数位dp 这题是暑期集训的时候做的,昨天补了数位dp的记忆化搜索做法,把艾神的 ...
Eight
Eight 题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1043/http://acm.split.hdu.edu.cn/showproblem.ph ...
Spring的监听器ContextLoaderListener
一.作用 ContextLoaderListener监听器的作用就是启动web容器时,自动装配ApplicationContext的配置信息.它实现了ServletContextListener接口, ...
阮一峰：jQuery的几篇文章
jQuery的设计思想:http://www.ruanyifeng.com/blog/2011/07/jquery_fundamentals.html jQuery的最佳实践:http://www.r ...
Dokan官方说明文档
Dokan 库Copyright(c) Hiroki Asakawa http://dokan-dev.net/en 什么是Dokan库================================ ...
POJ 3041 Asteroids（匈牙利+邻接表）
(￣▽￣)" #include<iostream> #include<cstdio> #include<cstring> #include<algo ...
HttpClient, HttpClientHandler, and WebRequestHandler介绍
注:本文为个人学习摘录,原文地址:https://blogs.msdn.microsoft.com/henrikn/2012/08/07/httpclient-httpclienthandler-an ...

caffe卷积输入通道如何到输出通道

caffe卷积输入通道如何到输出通道的更多相关文章

随机推荐

热门专题