全卷积神经网络FCN

卷积神经网络CNN（YannLecun，1998年）通过构建多层的卷积层自动提取图像上的特征，一般来说，排在前边较浅的卷积层采用较小的感知域，可以学习到图像的一些局部的特征（如纹理特征），排在后边较深的卷积层采用较大的感知域，可以学习到更加抽象的特征（如物体大小，位置和方向信息等）。CNN在图像分类和图像检测领域取得了广泛应用。

CNN提取的抽象特征对图像分类、图像中包含哪些类别的物体，以及图像中物体粗略位置的定位很有效，但是由于采用了感知域，对图像特征的提取更多的是以“一小块临域”为单位的，因此很难做到精细（像素级）的分割，不能很准确的划定物体具体的轮廓。

针对CNN在图像精细分割上存在的局限性，UC Berkeley的Jonathan Long等人2015年在其论文 “Fully convolutional networks for semantic segmentation”（用于语义分割的全卷积神经网络）中提出了Fully Convolutional Networks (FCN)用于图像的分割，要解决的核心问题就是图像像素级别的分类。论文链接： https://arxiv.org/abs/1411.4038

FCN与CNN的核心区别就是FCN将CNN末尾的全连接层转化成了卷积层：

以Alexnet为例，输入是2272273的图像，前5层是卷积层，第5层的输出是256个特征图，大小是66，即2566*6，第6、7、8层分别是长度是4096、4096、1000的一维向量。

在FCN中第6、7、8层都是通过卷积得到的，卷积核的大小全部是11，第6层的输出是409677，第7层的输出是409677，第8层的输出是100077（7是输入图像大小的1/32）,即1000个大小是77的特征图（称为heatmap）。

经过多次卷积后，图像的分辨率越来越低，，为了从低分辨率的heatmap恢复到原图大小，以便对原图上每一个像素点进行分类预测，需要对heatmap进行反卷积，也就是上采样。论文中首先进行了一个上池化操作，再进行反卷积，使得图像分辨率提高到原图大小：

对第5层的输出执行32倍的反卷积得到原图，得到的结果不是很精确，论文中同时执行了第4层和第3层输出的反卷积操作（分别需要16倍和8倍的上采样），再把这3个反卷积的结果图像融合，提升了结果的精确度：

最后像素的分类按照该点在1000张上采样得到的图上的最大的概率来定。

FCN可以接受任意大小的输入图像，但是FCN的分类结果还是不够精细，对细节不太敏感，再者没有考虑到像素与像素之间的关联关系，丢失了部分空间信息。

全卷积神经网络FCN的更多相关文章

全卷积神经网络FCN详解(附带Tensorflow详解代码实现)
一.导论在图像语义分割领域,困扰了计算机科学家很多年的一个问题则是我们如何才能将我们感兴趣的对象和不感兴趣的对象分别分割开来呢?比如我们有一只小猫的图片,怎样才能够通过计算机自己对图像进行识别达到将 ...
全卷积神经网络FCN理解
论文地址:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf 这篇论文使用全卷积神经网络来做语义上的图像分割,开创了这一领 ...
全卷积网络 FCN 详解
背景 CNN能够对图片进行分类,可是怎么样才能识别图片中特定部分的物体,在2015年之前还是一个世界难题.神经网络大神Jonathan Long发表了<Fully Convolutional N ...
全卷积网络FCN详解
http://www.cnblogs.com/gujianhan/p/6030639.html CNN能够对图片进行分类,可是怎么样才能识别图片中特定部分的物体? (图像语义分割) FCN(Fully ...
语义分割--全卷积网络FCN详解
语义分割--全卷积网络FCN详解 1.FCN概述 CNN做图像分类甚至做目标检测的效果已经被证明并广泛应用,图像语义分割本质上也可以认为是稠密的目标识别(需要预测每个像素点的类别). 传统的基于C ...
全卷积网络FCN
全卷积网络FCN fcn是深度学习用于图像分割的鼻祖.后续的很多网络结构都是在此基础上演进而来. 图像分割即像素级别的分类. 语义分割的基本框架: 前端fcn(以及在此基础上的segnet,decon ...
全卷积网络(FCN)与图像分割
最近在做物体检测,也用到了全卷积网络,来此学习一波. 这篇文章写了很好,有利于入门,在此记录一下: http://blog.csdn.net/taigw/article/details/5140144 ...
【pytorch】改造resnet为全卷积神经网络以适应不同大小的输入
为什么resnet的输入是一定的? 因为resnet最后有一个全连接层.正是因为这个全连接层导致了输入的图像的大小必须是固定的. 输入为固定的大小有什么局限性? 原始的resnet在imagenet数 ...
基于区域的全卷积神经网络（R-FCN）简介
在 Faster R-CNN 中,检测器使用了多个全连接层进行预测.如果有 2000 个 ROI,那么成本非常高. feature_maps = process(image)ROIs = region ...

随机推荐

flask-后台布局页面搭建4
1. 搭建后台页面 5.1管理员登录步骤:1.在admin视图中导入from flask import render_template,redirect,url_for.并写入一下代码. #登录 ...
spring cloud服务发现注解之@EnableDiscoveryClient与@EnableEurekaClient区别
在使用服务发现的时候有两种注解, 一种为@EnableDiscoveryClient, 一种为@EnableEurekaClient, 用法上基本一致,下文是从stackoverflow上面找到的对这 ...
python中列表生成式
1.简介列表生成式即List Comprehensions,是Python中用于创建list的生成式. 2.示例 [表达式循环体条件语句] #!/usr/bin/env python # - ...
[luogu P2319] [HNOI2006]超级英雄
[luogu P2319] [HNOI2006]超级英雄题目描述现在电视台有一种节目叫做超级英雄,大概的流程就是每位选手到台上回答主持人的几个问题,然后根据回答问题的多少获得不同数目的奖品或奖金. ...
使用Spring-data-jpa（2）（三十一）
创建实体创建一个User实体,包含id(主键).name(姓名).age(年龄)属性,通过ORM框架其会被映射到数据库表中,由于配置了hibernate.hbm2ddl.auto,在应用启动的时候框 ...
Springboot+Mybatis批量导入多条数据
在Mapper.xml最下面填写  <insert id ="insertCodeBatch" parameterType= ...
利用模板导出文件（二）之jacob利用word模板导出word文件（Java2word）
https://blog.csdn.net/Fishroad/article/details/47951061?locationNum=2&fps=1 先下载jacob.jar包.解压后将ja ...
面向对象的Java实现
1.面向对象的Java实现--封装 1-1:封装 a.为什么需要封装(封装可以是数据方便维护.增加实用性.方便扩展等等.通过面向对象的思想,模拟现实生活中的事物.) b.什么是封装(封装就是将属性私有 ...
CAD绘制室外台阶步骤5.4
1.在CAD的平面上用PL命令绘制台阶,如图: 绘制好了之后.进入三维模型,“工具""移位”选择台阶,回车,"Z"回车,输入数值“-450”如图 2.输入命令“ ...
laravel基于Bootstrap的成功和失败的提示信息和验证提示信息
message.blade.php  @if(Session::has("success")) <div class="al ...

全卷积神经网络FCN

以Alexnet为例，输入是227*227*3的图像，前5层是卷积层，第5层的输出是256个特征图，大小是6*6，即256*6*6，第6、7、8层分别是长度是4096、4096、1000的一维向量。

在FCN中第6、7、8层都是通过卷积得到的，卷积核的大小全部是1*1，第6层的输出是4096*7*7，第7层的输出是4096*7*7，第8层的输出是1000*7*7（7是输入图像大小的1/32）,即1000个大小是7*7的特征图（称为heatmap）。

对第5层的输出执行32倍的反卷积得到原图，得到的结果不是很精确，论文中同时执行了第4层和第3层输出的反卷积操作（分别需要16倍和8倍的上采样），再把这3个反卷积的结果图像融合，提升了结果的精确度：

最后像素的分类按照该点在1000张上采样得到的图上的最大的概率来定。

FCN可以接受任意大小的输入图像，但是FCN的分类结果还是不够精细，对细节不太敏感，再者没有考虑到像素与像素之间的关联关系，丢失了部分空间信息。

全卷积神经网络FCN的更多相关文章

随机推荐

热门专题

以Alexnet为例，输入是2272273的图像，前5层是卷积层，第5层的输出是256个特征图，大小是66，即2566*6，第6、7、8层分别是长度是4096、4096、1000的一维向量。

在FCN中第6、7、8层都是通过卷积得到的，卷积核的大小全部是11，第6层的输出是409677，第7层的输出是409677，第8层的输出是100077（7是输入图像大小的1/32）,即1000个大小是77的特征图（称为heatmap）。