CNN-CV识别简史2012-2017：从 AlexNet、ResNet 到 Mask RCNN

原文：计算机视觉识别简史：从 AlexNet、ResNet 到 Mask RCNN

总是找不到原文，标记一下。

一切从这里开始：现代物体识别随着ConvNets的发展而发展，这一切始于2012年AlexNet以巨大优势赢得ILSVRC 2012。请注意，所有的物体识别方法都与ConvNet设计是正交的（任意ConvNet可以与任何对象识别方法相结合）。 ConvNets用作通用图像特征提取器。

2012年 AlexNet：AlexNet基于有着数十年历史的LeNet，它结合了数据增强、ReLU、dropout和GPU实现。它证明了ConvNet的有效性，启动了ConvNet的光荣回归，开创了计算机视觉的新纪元。

RCNN：基于区域的ConvNet（RCNN）是启发式区域提案法（heuristic region proposal method）和ConvNet特征提取器的自然结合。从输入图像，使用选择性搜索生成约2000个边界框提案。这些被推出区域被裁剪并扭曲到固定大小的227x227图像。然后，AlexNet为每个弯曲图像提取4096个特征（fc7）。然后训练一个SVM模型，使用4096个特征对该变形图像中的对象进行分类。并使用4096个提取的特征来训练多个类别特定的边界框回归器来改进边界框。

OverFeat：OverFeat使用AlexNet在一个输入图像的多个层次下的多个均匀间隔方形窗口中提取特征。训练一个对象分类器和一个类别不可知盒子回归器，用于对Pool5层（339x339接收域窗口）中每5x5区域的对象进行分类并对边界框进行细化。OverFeat将fc层替换为1x1xN的卷积层，以便能够预测多尺度图像。因为在Pool5中移动一个像素时，接受场移动36像素，所以窗口通常与对象不完全对齐。OverFeat引入了详尽的池化方案：Pool5应用于其输入的每个偏移量，这导致9个Pool5卷。窗口现在只有12像素而不是36像素。

2013 年 ZFNet：ZFNet 是 ILSVRC 2013 的冠军得主，它实际上就是在 AlexNet 的基础上做了镜像调整（mirror modification）：在第一个卷积层使用
7×7 核而非 11×11 核保留了更多的信息。

SPPNet：SPPNet（Spatial Pyramid Pooling Net）本质上是 RCNN 的升级，SFFNet 引入了 2 个重要的概念：适应大小池化（adaptively-sized pooling，SPP 层），以及对特征量只计算一次。实际上，Fast-RCNN 也借鉴了这些概念，通过镜像调整提高了 RCNN 的速度。

SPPNet 用选择性搜索在每张图像中生成 2000 个区域（region proposal）。然后使用 ZFNet-Conv5 从整幅图像中抓取一个共同的全体特征量。对于每个被生成的区域，SPPNet 都使用 spatial pyramid pooling（SPP）将该区域特征从全体特征量中 pool 出来，生成一个该区域的长度固定的表征。这个表征将被用于训练目标分类器和 box regressor。从全体特征量 pooling 特征，而不是像
RNN 那样将所有图像剪切（crops）全部输入一个完整的 CNN，SPPNet 让速度实现了 2 个数量级的提升。需要指出，尽管 SPP 运算是可微分的，但作者并没有那么做，因此 ZFNet 仅在 ImageNet 上训练，没有做 finetuning。

MultiBox：MultiBox 不像是目标识别，更像是一种基于 ConvNet 的区域生成解决方案。MultiBox 让区域生成网络（region proposal network，RPN）和 prior box 的概念流行了起来，证明了卷积神经网络在训练后，可以生成比启发式方法更好的
region proposal。自此以后，启发式方法逐渐被 RPN 所取代。MultiBox 首先将整个数据集中的所有真实 box location 聚类，找出 200 个质心（centroid），然后用将其用于 prior box 的中心。每幅输入的图像都会被从中心被裁减和重新调整大小，变为 220×220。然后，MultiBox 使用 ALexNet 提取 4096 个特征（fc7）。再加入一个 200-sigmoid 层预测目标置信度分数，另外还有一个 4×200-linear 层从每个 prior
box 预测 centre offset 和 box proposal。注意下图中显示的 box regressors 和置信度分数在看从整幅图像中抓取的特征。

2014 年 VGGNet：虽然不是 ILSVRC 冠军，VGGNet 仍然是如今最常见的卷积架构之一，这也是因为它简单有效。VGGNet 的主要思想是通过堆叠多层小核卷积层，取代大核的卷积层。VGGNet
严格使用 3×3 卷积，步长和 padding 都为1，还有 2×2 的步长为 2 的 maxpooling 层。

2014 年 Inception：Inception（GoogLeNet）是2014
年 ILSVRC 的冠军。与传统的按顺序堆叠卷积和 maxpooling 层不同，Inception 堆叠的是 Inception 模块，这些模块包含多个并行的卷积层和许多核的大小不同的 maxpooling 层。Inception 使用 1×1 卷积层减少特征量输出的深度。目前，Inception 有 4 种版本。

Fast RCNN：Fast RCNN 本质上 SPPNet，不同的是 Fast RCNN 带有训练好的特征提取网络，用 RolPooling 取代了 SPP 层。

YOLO：YOLO（You Only Look Once）是由 MultiBox 直接衍生而来的。通过加了一层 softmax 层，与 box regressor 和 box 分类器层并列，YOLO 将原本是区域生成的 MultiBox 转为目标识别的方法，能够直接预测目标的类型。

2015 ResNet：ResNet以令人难以置信的3.6％的错误率（人类水平为5-10％）赢得了2015年ILSVRC比赛。ResNet不是将输入表达式转换为输出表示，而是顺序地堆叠残差块，每个块都计算它想要对其输入的变化（残差），并将其添加到其输入以产生其输出表示。这与boosting有一点关。

Faster RCNN：受 Multibox 的启发，Faster RCNN 用启发式区域生成代替了区域生成网络（RPN）。在 Faster RCNN 中，PRN 是一个很小的卷积网络（3×3 conv → 1×1
conv → 1×1 conv）在移动窗口中查看 conv5_3 全体特征量。每个移动窗口都有 9 个跟其感受野相关的 prior box。PRN 会对每个 prior box 做 bounding box regression 和 box confidence scoring。通过结合以上三者的 loss 成为一个共同的全体特征量，整个管道可以被训练。注意，在这里 RPN 只关注输入的一个小的区域；prior box 掌管中心位置和 box 的大小，Faster RCNN 的 box 设计跟 MultiBox
和 YOLO 的都不一样。

2016 年 SSD：SSD 利用 Faster RCNN 的 RPN，直接对每个先前的 box 内的对象进行分类，而不仅仅是对对象置信度（类似于YOLO）进行分类。通过在不同深度的多个卷积层上运行 RPN 来改善前一个
box 分辨率的多样性。

2017 年 Mask RCNN：通过增加一支特定类别对象掩码预测，Mask RCNN 扩展了面向实例分割的Faster RCNN，与已有的边界框回归量和对象分类器并行。由于 RolPool 并非设计用于网络输入和输出间的像素到像素对齐，MaskRCNN
用 RolAlign 取代了它。RolAlign 使用了双线性插值来计算每个子窗口的输入特征的准确值，而非 RolPooling 的最大池化法。

CNN-CV识别简史2012-2017：从 AlexNet、ResNet 到 Mask RCNN的更多相关文章

CNNs 在图像分割中应用简史: 从R-CNN到Mask R-CNN
作者:嫩芽33出处:http://www.cnblogs.com/nenya33/p/6756024.html 版权:本文版权归作者和博客园共有转载:欢迎转载,但未经作者同意,必须保留此段声明:必须 ...
CNN如何识别一幅图像中的物体
让我们对卷积神经网络如何工作形成更好直观感受.我们先看下人怎样识别图片,然后再看 CNNs 如何用一个近似的方法来识别图片. 比如说,我们想把下面这张图片识别为金毛巡回犬. 一个需要被识别为金毛巡 ...
写个神经网络，让她认得我`(๑•ᴗ•๑)(Tensorflow,opencv,dlib,cnn,人脸识别)
训练一个神经网络能让她认得我阅读原文这段时间正在学习tensorflow的卷积神经网络部分,为了对卷积神经网络能够有一个更深的了解,自己动手实现一个例程是比较好的方式,所以就选了一个这样比较有点 ...
图片训练：使用卷积神经网络（CNN）识别手写数字
这篇文章中,我们将使用CNN构建一个Tensorflow.js模型来分辨手写的数字.首先,我们通过使之“查看”数以千计的数字图片以及他们对应的标识来训练分辨器.然后我们再通过此模型从未“见到”过的测试 ...
数据挖掘入门系列教程（十二）之使用keras构建CNN网络识别CIFAR10
简介在上一篇博客:数据挖掘入门系列教程(十一点五)之CNN网络介绍中,介绍了CNN的工作原理和工作流程,在这一篇博客,将具体的使用代码来说明如何使用keras构建一个CNN网络来对CIFAR-10数 ...
paper 50 ：人脸识别简史与近期进展
自动人脸识别的经典流程分为三个步骤:人脸检测.面部特征点定位(又称Face Alignment人脸对齐).特征提取与分类器设计.一般而言,狭义的人脸识别指的是"特征提取+分类器"两 ...
使用卷积神经网络CNN训练识别mnist
算的的上是自己搭建的第一个卷积神经网络.网络结构比较简单. 输入为单通道的mnist数据集.它是一张28*28,包含784个特征值的图片我们第一层输入,使用5*5的卷积核进行卷积,输出32张特征图, ...
AI佳作解读系列(二)——目标检测AI算法集杂谈：R-CNN，faster R-CNN，yolo，SSD，yoloV2，yoloV3
1 引言深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物 ...
检测算法简介及其原理——fast R-CNN，faster R-CNN，YOLO，SSD，YOLOv2，YOLOv3
1 引言深度学习目前已经应用到了各个领域,应用场景大体分为三类:物体识别,目标检测,自然语言处理.本文着重与分析目标检测领域的深度学习方法,对其中的经典模型框架进行深入分析. 目标检测可以理解为是物 ...

随机推荐

PHP与WCF第一次亲密接触
接触PHP第二天,要求PHP访问WCF服务着实痛苦,无从下手啊. 在网上查了很多资料知道PHP访问WCF很方便 <?php $client = new SoapClient ( 'http:/ ...
Error处理：重提No Launcher activity found!
Error处理: 重提No Launcher activity found! 重提No Launcher activity found!错误提示,及解决的方法 Android应用开发中No Launc ...
CA certificate
1 什么是CA certificate CA证书本质上是一把公钥. 2 为什么需要CA证书是为了避免黑客冒充服务器,服务器通过CA证书证明自己是真的服务器,而不是黑客. 就是说,一旦客户端有了一个服 ...
oc74--NSMutableArray
// // main.m // NSMutableArray ,可变数组 #import <Foundation/Foundation.h> int main(int argc, cons ...
Faas 典型场景——应用负载有显著的波峰波谷，典型用例-基于事件的数据处理
Serverless适用的两大场景场景一:应用负载有显著的波峰波谷 Serverless化与否的评判标准并不是公司规模的大小,而是其业务背后的具体技术问题,比如业务波峰波谷明显,如何实现削峰填谷.一 ...
Coursera Algorithms week4 基础标签表练习测验：Java autoboxing and equals
1. Java autoboxing and equals(). Consider two double values a and b and their corresponding Double v ...
win10系统下，开启数据库远程连接方式
右键左下角的windows标志,选择控制面板 2.查看方式修改为大图标 3.选择高级设置 4.新建入站规则 5.选择端口然后下一步 6.选择tcp协议,端口输入80,3306 7.选择允许连接 8.规 ...
【WIP】Bootstrap 基础
创建: 2017/09/28 更新: 2017/10/14 标题加上[WIP]
Vue项目中如何使用less（添加less依赖）
今天在新工程里添加了一段样式代码代码突然报错了: <!-- Add "scoped" attribute to limit CSS to this component onl ...
redis+php实现秒杀
使用redis队列,因为pop操作是原子的,即使有很多用户同时到达,也是依次执行,推荐使用(mysql事务在高并发下性能下降很厉害,文件锁的方式也是) 先将商品库存如队列 1 2 3 4 5 6 7 ...

CNN-CV识别简史2012-2017：从 AlexNet、ResNet 到 Mask RCNN

CNN-CV识别简史2012-2017：从 AlexNet、ResNet 到 Mask RCNN的更多相关文章

随机推荐

热门专题