谈一谈深度学习之semantic Segmentation

　　上一次发博客已经是9月份的事了....这段时间公司的事实在是多，有写博客的时间都拿去看paper了..正好春节回来写点东西，也正好对这段时间做一个总结。

　　首先当然还是好好说点这段时间的主要工作：语义分割。semantic segmentation 应该是DL这几年快速发展的最重要的领域之一了，但可惜的事，在这方面大家走的并不是很远，还是有很多值得改进的地方，这当然是个很好的事情，特别是我这种想发paper弱渣.....

　　语义分割做的是什么事呢？就是给你一张图，你要对其中的每个pixel做分类，例如把所有的人都涂成红色，车都涂成蓝色。这是在机器人领域和自动驾驶中都非常重要的一步，因为我们开始让电脑真正的开始认识这个世界了。如下图所示：

　　semantic segmentation的转折点是从long的那那篇FCN开始的，之前的方法大多是用PGM建模的方法来做，原理都很清楚，但效果就是不好，因为难以解决的问题太多了。等DL大火之后，果然还是DL大法好，FCN这篇文章我之前是写过笔记的，那时候还比较年轻，现在再好好说一下。

　　这篇文章提出来的全卷积的概念并不新鲜，也无怪乎lecun再FCN获得CVPR的best paper后吐槽了一发，但个人觉得现在DL领域，关键的不是谁提出了什么，而是谁做出了什么，谁做的更好，毕竟效果好才是王道。回到FCN，他的思路很简单，VGG最后的全联接层使得我们的输入只能是固定的，这个很不好，所以就用全卷积层来代替它，这样就可以任意输入了，全卷积层这里有个很多人都有的概念的疑惑，那就是为什么会有人说1*1的卷积就等价于全连接层呢？（而且还是lecun说的...）这事我也纠结过，我们很简单的理解，和全连接层等价的肯定是kernel和feature map一样大的卷积层，但lecun这么说是有语境的...因为在做全连接层之前，我们要把图像拉成一列，如1*1*4096这种，这样对他做1*1的卷积就等价于全连接层了...也算是我一个无聊的发现...

　　说说FCN的创新点和问题，最大的创新点就是skip connection了，这个trick到现在都是很不错的想法，不同level的feature map所提供的信息是不同的，所以在最后分类的时候都可以用到他们，semantic segmentation一直有一个trade-off，就是物体的边缘和物体整体的分类的正确性，high-level的feature能提供更细节的表现，low-level的feature侧重于于很大一块区域的准确性，传统解决这个问题的方法一般是两种：1.multi-scale的input。2.skip connection。　　这方面最近有个叫refinenet的paper做的挺不错的，它用restnet的思想将网络分为两条路，一个负责location，一个负责refine，有兴趣可以去看看。回到FCN的问题，也是我最想吐槽的一点....VGG的model时downsample 32倍的，所以FCN使用了原来classification一样的模型，所以在经过最后7*7点卷积之后，feature map就只有1*1点大小了....也就是说我们要从1*1点feature map上恢复到原图，虽然说它到channel很多，但毫无疑问，它提供的信息时严重不足的，这也无怪乎他得用skip connection了..这里要谈一谈downsample的问题，downsample太多的话会丢失原图的很多信息，毕竟我们是做pixel级别的分类，所以根据我的经验，一般是8倍或者16倍左右...

　　现在做semantatic segmentation 主要还是用的deeplab那一套，接下来我准备好好讲一下deeplab这一套方法...

　　deeplab那篇paper很推荐大家去看一下，他应该基本代表了现在semantic segmentation的state of art的流程了，我分几点说一下吧：

一、encoder层：

　　encoder层我的理解是把原图downsample的步骤，一般来说这一步使用的网络是和分类使用的一致的，分类的网络性能越强，最后大效果也就越好，所以现在普遍使用的是resnet（152），这里需要注意的问题就是，传统的classification下采样的倍数太大了，不利于分割，但是我们又不能不用pretrain-model，因为用了imagenet或者COCO的pretrain model，结果一定会涨。。而且收敛会快很多。这里通用的解决方法是用hole算法，其实说白了，就是使用dilated convlution，在卷积的时候，不是对一块连续的区域卷积，而是跳跃式的，如下图所示：

　　这样做的话有两个好处：

　　　　　　1.pretrain model可以用了，在需要downsample的地方，把所有的卷积变为一个dilation 2的卷积。

　　　　　　2.可以任意的提高感受野了，只要增加dilation即可，当然，有机会可以说一下，理论上的感受野不代表实际的感受野，因为会有很多的重合，所以理论感受野的中间会对最后的结果影响很大，而边缘地方影响很小，最近有篇paper也提到了这点，有时间放上链接吧。。。PS：因此在未来recepitive filed的研究上，我觉得好好解决这个问题是一个不错的思路。

二、decoder层：

　　和encoder层对应的自然就是decoder层，这个也很好理解，我们要对pixel做分类，自然就要把图像upsample到原图的大小（或者一半，然后再做biliner upsample），upsample的方法有几类，根据我的经验....都差不了多少，卷积+biliear或者卷积+反卷积或者卷积+unpooling，最后一个在deconvlution那篇paper出现的方法一度让我以为是通用的方法，直到发现大家开始抛弃pooling的downsample方法以后...不用pooling下采样很好理解，毕竟我们是做pixel级别的分类，所以还是用可学习的下采样，上采样的比较好。

　　另外，decoder层需要注意的事，实际上它并不需要和encoder层一样大，deconvlution那篇paper提出的对称结构确实优雅而且看起来就有理有据，但实际上并不是需要这么做的，enet的那篇paper对此做过说明，简单的理解就是：decoder实际上就是对feature map做一个upsample的refine，这个时候网络已经学习到了需要的东西了，毕竟我们并不是要去做一个autoencoder。。。

三、post-processing 后处理

　　后处理这个东西，其实有点小尴尬，作为刷榜的不二神器，他有两个问题：1.不符合现在很多人对end-to-end的迷之追求。2.太慢了，正常使用的dense crf会比神经网络慢很多，最后的实用场景基本不可能使用。

　　dense crf的调参也是我不能承受之痛...直到用了同事grid search的暴力调参大法，才结束我那段黑暗的日子....

　　不扯了，简单的说一下常见的后处理方法-CRF吧，crf作为经典的一个图模型，本来是semantic segmentation的主要方法，直到DL出现...最终沦为了后处理...DL+CRF有着天然的方便，为什么这么说了，CRF的优化是要有一个初始化的state的，也就是每个pixel的unary energy，如果只有label的方法等话，一般也就是用概率和置信度来暴力指定了，但其实神经网络的最后一层一般是softmax，所以我们完全可以用softmax的输出作为CRF中unary enargy的初始化，至于pair energy，还是常规的RGB像素值和XY location值了。

　　实际上，对于CRF大家是又爱又恨的，所以后面也出现了不少的改进方法，如CRF as RNN，CNN+LSTM这些，实际效果我没试过，但估计是呵呵了，比较期待的是北大的segmodel，看他们在cityscapes上的表现，感觉CVPR2017会有一个惊喜..

总结：

　　日常总结，segmentation是一个很不错的领域，但个人感觉大家主要还是在拼trick和调参技巧，这真是最没意思的行为了。但也很好，给了我们不少想象的空间，我最近的工作就是receptive filed 、side information上做点文章...希望可以出点东西吧。加油～

谈一谈深度学习之semantic Segmentation的更多相关文章

Fully Convolutional Networks for semantic Segmentation（深度学习经典论文翻译）
摘要卷积网络在特征分层领域是非常强大的视觉模型.我们证明了经过端到端.像素到像素训练的卷积网络超过语义分割中最先进的技术.我们的核心观点是建立"全卷积"网络,输入任意尺寸,经过有 ...
深度学习：浅谈RNN、LSTM+Kreas实现与应用
主要针对RNN与LSTM的结构及其原理进行详细的介绍,了解什么是RNN,RNN的1对N.N对1的结构,什么是LSTM,以及LSTM中的三门(input.ouput.forget),后续将利用深度学习框 ...
转：浅谈深度学习(Deep Learning)的基本思想和方法
浅谈深度学习(Deep Learning)的基本思想和方法参考:http://blog.csdn.net/xianlingmao/article/details/8478562 深度学习(Deep ...
深度学习论文翻译解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation
论文标题:Rich feature hierarchies for accurate object detection and semantic segmentation 标题翻译:丰富的特征层次结构 ...
TensorFlow 2.0 深度学习实战 —— 浅谈卷积神经网络 CNN
前言上一章为大家介绍过深度学习的基础和多层感知机 MLP 的应用,本章开始将深入讲解卷积神经网络的实用场景.卷积神经网络 CNN(Convolutional Neural Networks,Conv ...
以CapsNet为例谈深度学习源码阅读
本文的参考的github工程链接:https://github.com/laubonghaudoi/CapsNet_guide_PyTorch 之前是看过一些深度学习的代码,但是没有养成良好的阅读规范 ...
浅谈深度学习中的激活函数 - The Activation Function in Deep Learning
原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用首先,激活函数不是真的要去激活 ...
The Activation Function in Deep Learning 浅谈深度学习中的激活函数
原文地址:http://www.cnblogs.com/rgvb178/p/6055213.html 版权声明:本文为博主原创文章,未经博主允许不得转载. 激活函数的作用首先,激活函数不是真的要去激 ...
百度首席科学家 Andrew Ng谈深度学习的挑战和未来(转载)
转载:http://www.csdn.net/article/2014-07-10/2820600 人工智能被认为是下一个互联网大事件,当下,谷歌.微软.百度等知名的高科技公司争相投入资源,占领深度学 ...

随机推荐

Python学习：2.Python集成学习环境(IDE)Pycharm的安装配置以及激活方
一.下载Pycharm Pycharm作为Python现在最流行的集成开发环境,我们今后的Python的学习也就使用Pycharm进行,那今天我们就讲一下Pycharm的安装配置以及激活 1.我们首先 ...
41-Individual authentication 模板
1-创建项目,进入vscode控制台,输出如下命令, uld表示指定mssqllocaldb E:\coding\netcore>dotnet new mvc -au Individual -u ...
vue2018年5月报错No parser and no file path given
mac电脑直接: rm -rf node_modules rm package-lock.json npm install npm install prettier@~1.12.1 执行完这四个命令, ...
Java：Random函数及其种子的作用
伪随机(preundorandom):通过算法产生的随机数都是伪随机!! 只有通过真实的随机事件产生的随机数才是真随机!!比如,通过机器的硬件噪声产生随机数.通过大气噪声产生随机数 Random生成的 ...
根据生产场景对Linux系统进行分区
转自:http://oldboy.blog.51cto.com/2561410/629558 老鸟谈生产场景如何对linux系统进行分区? █ 前言: 我们买房子时,会考虑1室1厅,2室1厅, ...
「题目代码」P1013～P1017（Java）
1013 C基础-求偶数和 import java.util.*; import java.io.*; import java.math.BigInteger; public class Main { ...
「日常训练」Alena And The Heater (CFR466D2D)
题意(Codeforces 940D) 根据给定要求构建数列,求能构建出相同数列的l和r. 分析这题写的是真的烦.一定要想到对b串要按照5个5个的看!为什么5个5个的看?因为根据题意,是先看前4个再 ...
《python核心编程第二版》第4章习题
4–1. Python 对象.与所有 Python 对象有关的三个属性是什么?请简单的
Uniy 组件式泛型单例模式
我们知道,在Unity中,所有对象脚本都必须继承MonoBehavior脚本,才能使用Unity内置的脚本功能; 通常我们可以用静态类来取代单例模式,但是静态类方法的缺点是,它们必须继承最底层的类-- ...
Turtle模块，一个超精简但功能齐全的绘图包
先上官方链接https://docs.python.org/3.3/library/turtle.html 再上一个GitHub上别人做的一个小程序,画小猪佩琦的,里面用到了大量常用的turtle接口 ...

谈一谈深度学习之semantic Segmentation

谈一谈深度学习之semantic Segmentation的更多相关文章

随机推荐

热门专题