CNN基础

CNN一般结构

卷积层作用：

提取不同维度的特征，组合不同维度特征，其本质是卷积核，因此，学习一个有效的总卷积核是训练卷积层主要工作

2）寻找不同位置，不同大小的特征
根据卷积核参数计算上下层blob之前维度关系

input => conv => output:

out = (W-F+2*P)/S + 1

W：input的尺寸

F：kernel的尺寸

S：步长

P：padding的数量

非线性层

控制对不同特征特征信号所应当作出的反应

如，RELU:

\[f(x)=max(0,x)
\]

对低强度特征信息不做反应，超过阈值后，强度越大，反应相应越大
阈值一般为0，因此样本数据与特征也尽量零均值，这可能是训练数据归一化及batchnormalization的原因

池化层

降采样：将高维特征稀疏为低维特征

2）可以增强模型对特征畸变的鲁棒性，如手写数字笔记不工整

dropout：

打破网络的对称性，使网络结构不断重构，防止网络过拟合；

具体实现直接看源码dropout_layer.cpp和dropout_layer.hpp

前传过程中，bottom计算出的部分特征不参与前传过程的计算

void DropoutLayer<Dtype>::Forward_cpu(const vector<Blob<Dtype>*>& bottom, const vector<Blob<Dtype>*>& top) {

  const Dtype* bottom_data = bottom[0]->cpu_data();

  Dtype* top_data = top[0]->mutable_cpu_data();

  unsigned int* mask = rand_vec_.mutable_cpu_data();    //从cpu中取一段可读写的内存，返回指针mask

  const int count = bottom[0]->count();                               //mutable_cpu_data表示可读写的内存，而cpu_data表示只读内存

  if (this->phase_ == TRAIN) {

    // Create random numbers

    caffe_rng_bernoulli(count, 1. - threshold_, mask);    //将mask内容部分以伯努利概率置为0，置0的概率与threshold有关

    for (int i = 0; i < count; ++i) {

      top_data[i] = bottom_data[i] * mask[i] * scale_;    //用mask掩码将bottom_data中部分特征设为死结点，不参与前传中loss的计算

    }

  } else {

    caffe_copy(bottom[0]->count(), bottom_data, top_data);

  }

}

在反传过程中，上层梯度回传时至下层时，同样会一部分被mask屏蔽，而且这个maskg前传一致，保证了前传与反传过程看到的网络结构是一致的

template <typename Dtype>

void DropoutLayer<Dtype>::Backward_cpu(const vector<Blob<Dtype>*>& top, const vector<bool>& propagate_down, const vector<Blob<Dtype>*>& bottom) {

  if (propagate_down[0]) {

    const Dtype* top_diff = top[0]->cpu_diff();

    Dtype* bottom_diff = bottom[0]->mutable_cpu_diff();

    if (this->phase_ == TRAIN) {

      const unsigned int* mask = rand_vec_.cpu_data();    //将前传时写入mask内容重新赋值mask指针

      const int count = bottom[0]->count();

      for (int i = 0; i < count; ++i) {

        bottom_diff[i] = top_diff[i] * mask[i] * scale_;    //同样，反传过程也屏蔽了部分梯度，这样在一次前传与反传过程中所看见的网络结构实际就相同了，

      }                                                                         //得到bottom梯度后会给cpu或gpu进行solver的update

    } else {

      caffe_copy(top[0]->count(), top_diff, bottom_diff);

    }

  }

}

其中，mask初始化用到了一个 caffe_rng_bernoulli，在这篇文章中提到，其实它主要调用了boost::bernoulli_distribution，将向量初始化为一定比例的1其余为0

参考

dropout_layer

CNN基础的更多相关文章

CNN基础框架简介
卷积神经网络简介卷积神经网络是多层感知机的变种,由生物学家休博尔和维瑟尔在早期关于猫视觉皮层的研究发展而来.视觉皮层的细胞存在一个复杂的构造,这些细胞对视觉输入空间的子区域非常敏感,我们称之为感受野 ...
卷积神经网络(CNN)基础介绍
本文是对卷积神经网络的基础进行介绍,主要内容包含卷积神经网络概念.卷积神经网络结构.卷积神经网络求解.卷积神经网络LeNet-5结构分析.卷积神经网络注意事项. 一.卷积神经网络概念上世纪60年代. ...
CNN基础一：从头开始训练CNN进行图像分类（猫狗大战为例）
本文旨在总结一次从头开始训练CNN进行图像分类的完整过程(猫狗大战为例,使用Keras框架),免得经常遗忘.流程包括: 从Kaggle下载猫狗数据集: 利用python的os.shutil库,制作训练 ...
CNN基础四：监测并控制训练过程的法宝——Keras回调函数和TensorBoard
训练模型时,很多事情一开始都无法预测.比如之前我们为了找出迭代多少轮才能得到最佳验证损失,可能会先迭代100次,迭代完成后画出运行结果,发现在中间就开始过拟合了,于是又重新开始训练. 类似的情况很多, ...
CNN基础三：预训练模型的微调
上一节中,我们利用了预训练的VGG网络卷积基,来简单的提取了图像的特征,并用这些特征作为输入,训练了一个小分类器. 这种方法好处在于简单粗暴,特征提取部分的卷积基不需要训练.但缺点在于,一是别人的模型 ...
CNN基础二：使用预训练网络提取图像特征
上一节中,我们采用了一个自定义的网络结构,从头开始训练猫狗大战分类器,最终在使用图像增强的方式下得到了82%的验证准确率.但是,想要将深度学习应用于小型图像数据集,通常不会贸然采用复杂网络并且从头开始 ...
深度学习笔记之CNN（卷积神经网络）基础
不多说,直接上干货! 卷积神经网络(ConvolutionalNeural Networks,简称CNN)提出于20世纪60年代,由Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经 ...
AndrewNG Deep learning课程笔记 - CNN
参考, An Intuitive Explanation of Convolutional Neural Networks http://www.hackcv.com/index.php/archiv ...
Paper/ Overview | CNN（未完待续）
目录 I. 基础知识 II. 早期尝试 1. Neocognitron, 1980 2. LeCun, 1989 A. 概况 B. Feature maps & Weight sharing ...

随机推荐

dorado重置按钮事件
// @Bind #btnReset.onClick!function(self, arg) { var subNo = view.get("#dsQueryCriteria"). ...
我学习的第一个uiautomator从创建到运行结束
一.新建自动化脚本 1.新建java工程包 [file]----[new]----[Java Project] 新建工程 [右 ...
centos7安装ZABBIX 3.0+ 邮件报警【OK】
设置主机名: vi /etc/hosts 10.0.0.252 zabbix-server hostnamectl set-hostname 关闭防火墙: systemctl stop firew ...
题解 P2472 【[SCOI2007]蜥蜴】
P2472 [SCOI2007]蜥蜴题目背景 07四川省选题目描述在一个r行c列的网格地图中有一些高度不同的石柱,一些石柱上站着一些蜥蜴,你的任务是让尽量多的蜥蜴逃到边界外. 每行每列中相邻石柱 ...
OpenCV---高斯模糊（均值模糊的另一种）
高斯分布: 高斯模糊的原理一:图像产生高斯噪声循环代码实现(耗时) def clamp(pv): #使我们的随机值在0-255之间 : : return pv import cv2 as cv im ...
springboot项目启动成功后执行一段代码的两种方式
springboot项目启动成功后执行一段代码的两种方式实现ApplicationRunner接口 package com.lnjecit.lifecycle; import org.springf ...
JAVA多线程提高六:java5线程并发库的应用_线程池
前面我们对并发有了一定的认识,并且知道如何创建线程,创建线程主要依靠的是Thread 的类来完成的,那么有什么缺陷呢?如何解决? 一.对比new Threadnew Thread的弊端 a. 每次ne ...
Windows下搭建网络代理
场景:有些场景下会出现局域网内的某些网段可能由于安全限制,不能访问外网,此时可以通过安装一些工具来实现借助局域网内某些能够上外网的电脑来实现网络代理的功能.以下工具均是使用于Window环境. 服务端 ...
区分IE8 、IE9 的专属css hack
一般来说,我们写的结构比较好的时候,IE8/9下是没区别的.所以可能很少人关注只有IE8或只有IE9才识别的css hack. 因为IE8及以下版本是不支持CSS3的,但是我们如果使用css3,在IE ...
【CodeForces】915 G. Coprime Arrays 莫比乌斯反演
[题目]G. Coprime Arrays [题意]当含n个数字的数组的总gcd=1时认为这个数组互质.给定n和k,求所有sum(i),i=1~k,其中sum(i)为n个数字的数组,每个数字均< ...