[Neural Networks] (Convolutional Neural Networks)CNN-卷积神经网络学习
参考:http://blog.csdn.net/zouxy09/article/details/8781543 ( 但其中有部分错误)
http://ufldl.stanford.edu/wiki/index.php/UFLDL_Tutorial
一、卷积(convolution) - 整理自UFLDL
卷积的引入,基于三方面考量:一是为了减少全连接网络对于large scale图像的计算复杂度;二是迎合了生物视觉系统的结构特征:视觉皮层是局部接受信息的;三是根据图像的stationary特性:图像的一个部分统计特性与其他部分是一样的(这个统计特性,比如说颜色直方图分布)。
卷积的具体做法
注意:这里小块在原图中的选取是有重叠的
图中实际上是预先训练了一个visible层9个神经元,hidden层1个神经元的全连接AE(AutoEncoder)。再对输入图像的每一个3X3=9的小块取特征(1维),最终得到1X[(5-3+1)X(5-3+1)]个特征。这里的紫色图,实际上就是下文介绍的Feature Map(FM),因为对每个3X3小块只提取1维特征(1个hidden神经元),因此就只有一个FM:有n个特征,就有n个FM。
这样做的目的,从计算的角度来说,(假设hidden层只有1个神经元):
全连接:1X5X5个权重(不考虑bias)
卷积:1X3X3个权重
二、池化(pooling) - 整理自UFLDL
在卷积过后,一般会接着做pooling,原因如下:
例如:对于一个 96X96 像素的图像,假设我们已经学习得到了400个定义在8X8输入上的特征,每一个特征和图像卷积都会得到一个(96 − 8 + 1) * (96 − 8 + 1) = 7921 维的卷积特征,由于有 400 个特征,所以每个样例 (example) 都会得到一个892 * 400 = 3,168,400
维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便,并且容易出现过拟合 (over-fitting)。
就是在卷积得到的每个FM中,对每个给定大小的区域上做运算(这里是不重叠的),可以是取最大值或者取均值等等。
三、例子LeNet-5
1、INPUT -> C1
预先训练NN-C1:input层5X5=25,output层6
用训练好的NN-C1对原图片每个5X5小块(类似sliding window,有重叠采样)取6维特征:得到28X28个小块,每个小块用6维特征表示,即6@28X28。
此时6维的每维特征都有28X28个值,把它们放在一个图里,就变成了一个28X28的FeatureMap(FM),一共6张。
2、C1 -> S2
Subsampling,实际上就是pooling过程。
对每一张FM的每个2X2小块(类似不重叠的sliding window),也就是2X2=4个值做一个运算,简单点的就是取max和均值。复杂点的如下图的Cx到Sx+1部分,做一个线性加权然后放入sigmoid分类器。subsampling(pooling)最终得出一个值用来表示这个2X2小块。
3、S2 -> C3
预先训练NN-C3:input层5X5=25,output层16
一样是做卷积,但这里就有讲究了。C1的输入只是一张图(原图),此时的输入有6张图。
以下参考zouxy09
C3层也是一个卷积层,它同样通过5x5的卷积核去卷积层S2,然后得到的特征map就只有10x10个神经元,但是它有16种不同的卷积核,所以就存在16个特征map了。这里需要注意的一点是:C3中的每个特征map是连接到S2中的所有6个或者几个特征map的,表示本层的特征map是上一层提取到的特征map的不同组合(这个做法也并不是唯一的)。(这里是组合,就像人的视觉系统一样,底层的结构构成上层更抽象的结构,例如边缘构成形状或者目标的部分)。
刚才说C3中每个特征图由S2中所有6个或者几个特征map组合而成。为什么不把S2中的每个特征图连接到每个C3的特征图呢?原因有2点。第一,不完全的连接机制将连接的数量保持在合理的范围内。第二,也是最重要的,其破坏了网络的对称性。由于不同的特征图有不同的输入,所以迫使他们抽取不同的特征(希望是互补的)。
例如,存在的一个方式是:C3的前6个特征图以S2中3个相邻的特征图子集为输入。接下来6个特征图以S2中4个相邻特征图子集为输入。然后的3个以不相邻的4个特征图子集为输入。最后一个将S2中所有特征图为输入。这样C3层有1516个可训练参数和151600个连接。
4、C3 -> S4
与C1 -> S2类似,对C3的每一个FM中2X2的小块做一个运算。
5、S4 -> C5
预先训练NN-C5:input层5X5=25,output层120
这里S4每个FM是5X5大小,因此取小块之后在C5中表现出来的就是1X1的FM。
由于是全连接的,我认为这里对于5X5的输入,每一个输入都是16维的向量,也就是16X(5X5)。
6、C5 -> F6
普通的全连接神经网络
四、训练过程
1、看完UFLDL后,认为训练是每一层先训练一个local分类器。
2、看完其他介绍后的另一种想法,直接使用BP来对整个网络进行训练。
[Neural Networks] (Convolutional Neural Networks)CNN-卷积神经网络学习的更多相关文章
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
- CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络)的内部网络结构有什么区别?
https://www.zhihu.com/question/34681168 CNN(卷积神经网络).RNN(循环神经网络).DNN(深度神经网络)的内部网络结构有什么区别?修改 CNN(卷积神经网 ...
- CNN(卷积神经网络)、RNN(循环神经网络)、DNN,LSTM
http://cs231n.github.io/neural-networks-1 https://arxiv.org/pdf/1603.07285.pdf https://adeshpande3.g ...
- Deep Learning模型之:CNN卷积神经网络(一)深度解析CNN
http://m.blog.csdn.net/blog/wu010555688/24487301 本文整理了网上几位大牛的博客,详细地讲解了CNN的基础结构与核心思想,欢迎交流. [1]Deep le ...
- [转]Theano下用CNN(卷积神经网络)做车牌中文字符OCR
Theano下用CNN(卷积神经网络)做车牌中文字符OCR 原文地址:http://m.blog.csdn.net/article/details?id=50989742 之前时间一直在看 Micha ...
- day-16 CNN卷积神经网络算法之Max pooling池化操作学习
利用CNN卷积神经网络进行训练时,进行完卷积运算,还需要接着进行Max pooling池化操作,目的是在尽量不丢失图像特征前期下,对图像进行downsampling. 首先看下max pooling的 ...
- cnn(卷积神经网络)比较系统的讲解
本文整理了网上几位大牛的博客,详细地讲解了CNN的基础结构与核心思想,欢迎交流. [1]Deep learning简介 [2]Deep Learning训练过程 [3]Deep Learning模型之 ...
- Keras(四)CNN 卷积神经网络 RNN 循环神经网络 原理及实例
CNN 卷积神经网络 卷积 池化 https://www.cnblogs.com/peng8098/p/nlp_16.html 中有介绍 以数据集MNIST构建一个卷积神经网路 from keras. ...
- TensorFlow——CNN卷积神经网络处理Mnist数据集
CNN卷积神经网络处理Mnist数据集 CNN模型结构: 输入层:Mnist数据集(28*28) 第一层卷积:感受视野5*5,步长为1,卷积核:32个 第一层池化:池化视野2*2,步长为2 第二层卷积 ...
- tensorflow CNN 卷积神经网络中的卷积层和池化层的代码和效果图
tensorflow CNN 卷积神经网络中的卷积层和池化层的代码和效果图 因为很多 demo 都比较复杂,专门抽出这两个函数,写的 demo. 更多教程:http://www.tensorflown ...
随机推荐
- vimrc语法
前言 工欲善其事,必先利其器.一个programmer必然要先有一个好的editor.vim就是一个十分强大的编辑器.它的强大之处,在于其个性化和可定制.学习vim,就像学习Linux,学习perl, ...
- S2SH邮件注册激活后注册成功
首先我的思路是这样的:①接收从客户端接收过来的数据(密码,用户名,邮箱) ②将密码进行MD5加密,然后将信息用"_"连接起来(用于后面分解) ③将信息交个一个工具类中实现生成邮件信 ...
- linux内核--页高速缓存
页高速缓存,可以理解为对磁盘中的文件内容进行缓存的一种缓存策略,当然它不仅仅用于磁盘文件. 当对同一磁盘数据反复访问时,缓存数据就是非常必须的了.这就是buffer和 cache这两个概念中的buff ...
- 小物件之select单选下拉列表
有时候在控制器中做了一个数组 然后需要在模板view中循环 同时还需要判断是否有选中的值,就会造成很多开始闭合标签 以前都是这样写 这样实在太繁琐了,不如封装一个小物件 封装函数如下: 代码如下: f ...
- Android 系统名字、版本、API level的对应关系
从官网上找到的,具体地址是: http://source.android.com/source/build-numbers.html Code name Version API level Lolli ...
- socket编程原理
socket编程原理 1.问题的引入 1) 普通的I/O操作过程: UNIX系统的I/O命令集,是从Maltics和早期系统中的命令演变出来的,其模式为打开一读/写一关闭(open-write-rea ...
- android 65 文件访问权限
package com.itheima.createfile; import java.io.File; import java.io.FileNotFoundException; import ja ...
- 文件IO 练习题
3.1 当读/写磁盘文件时,本章中描述的函数是否具有缓冲机制?请说明原因. 3.1 所有的磁盘 I/O 都要经过内核的块缓冲区(也称为内核的缓冲区高速缓存),唯一例 外的是对原始磁盘设备的 I/O,但 ...
- Windows与Linux下文件操作监控的实现
一.需求分析: 随着渲染业务的不断进行,数据传输渐渐成为影响业务时间最大的因素.究其原因就是因为数据传输耗费较长的时间.于是,依托于渲染业务的网盘开发逐渐成为迫切需要解决的需求.该网盘的实现和当前市场 ...
- C#泛型的性能优势
我写东西一向追求短小精悍,就不放代码去验证的,只说结论,并会与Java泛型做对比.有不对之处还望指出. 泛型作为一个在C#2.0中就引入的特性,也是C#的重要特性之一,我经常看到有人讨论泛型带来的便捷 ...