图像分割 | Context Prior CPNet | CVPR2020
- 文章转自微信公众号:「机器学习炼丹术」
- 文章作者:炼丹兄(已授权)
- 作者联系方式:cyx645016617
- 论文名称:“Context Prior for Scene Segmentation”
0 综述
先上效果图,CPNet似乎对一些难样本有着更好的效果:
文中提到了下面关键字:
构建了corresponding prior map(CPmap),然后通过Context Prior Layer(CPLayer)来把这个CPmap融合到网络中,与此同时,使用Affinity Loss来对应这个CPLayer。
关于上面这句话如何解读,我先留着疑问。
1 Context Prior
作者提出两个概念:
- intra-context:同一类别的像素之间的关系;
- inter-context:不同类别的像素之间的关系。
作者说,在图像分割任务中,每一个图片都有对应的ground truth,但是ground truth中是每一个像素所属于的类别,说模型很难从独立的像素中学习到contextual(上下文)信息,因此需要explicitly regularize network(显式的规范网络)。
在论文中,作者使用Affinity Loss来显式的规范网络.
For each pixel in the image, this loss forces the network to consider the pixels of the same category (intra-context) and the pixels among the different categories (inter-context).
这个损失可以让模型考虑同一类别的其他像素和不同类别的其他像素。
2 构建Ideal Affinity Map
在使用Affinity Loss之前,需要先构建Ideal Affinity Map。
- 现在我们有一个图片,Image,这个图片的ground truth GT.
- Image经过全卷积网络,得到尺寸HxW的特征图;
- GT下采样到HxW大小,写作\(\widetilde{GT}\),然后对\(\widetilde{GT}\)做one hot encoding,这样得到一个HxWxC的张量,其中C为分割的类别数量,对这个张量记做\(\widehat{GT}\)
- 通过reshape的方法,把\(\widehat{GT}\)的shape变成NxC,其中N=HxW,然后通过计算\(\widehat{GT}\widehat{GT}^{\mathrm{T}}\)得到一个NxN的矩阵,这个记做A;
- A就是我们所要的Ideal Affinity Map。
A is our desired Ideal Affinity Map with size N × N , which encodes which pixels belong to the same category. We employ the Ideal Affinity Map to supervise the learning of Context Prior Map.
这个A中每一个1表示这一个像素和其他同一类别的像素,通过这个Ideal Affinity Map来训练CPMap
3 Affinity Loss
我们用全卷积网络对Image进行特征提取,得到一个HxW的尺寸的特征图,这里我们在上文已经说到了,但是没有说这个特征图的通道数是多少,看下图:
通道数是HxW,也就是上面提到的N,这样对于每一个像素来说,他的特征正好是1xN,这样和我们得到的Ideal Affinity Map是不是刚好对应上了?
所以这里我们就可以用简单的二值交叉熵来计算Predicted Prior Map和Ideal Affinity Map的损失:
这就完事了吗?并不是:
However, such a unary loss only considers the isolated pixel in the prior map ignoring the semantic correlation with other pixels.
直观上感觉,上面的其实只考虑了两个像素之间的关系,其实忽视了更多的语义关系。所以还需要另外一部分损失。
a表示Idea Affinity Map中的元素,P表示从X得到的NxN的矩阵。
公式(2)表示,这里有点目标检测的味道了。
举个例子,假设总共有5个像素把:
- a = [0,0,1,0,1],表示与同类的像素有第三个和第五个两个像素;
- p = [0.1,0.2,0.8,0.2,0.9],表示预测出来的像素中,第一个像素有0.1的概率是同类的,第三个像素有0.8的概率是同类的;
- \(\frac{ap}{a}\),刚好就是 真阳/样本为真的个数,为召回率;
- \(\frac{ap}{p}\),刚好就是 真阳/预测为真的个数,为精准率;
这一块讲解的比较粗糙,因为混淆矩阵,PR曲线,召回率精准率应该是大家了解的内容啦,如果不了解可的话可以阅读我之前写过的笔记。(已经记录了107篇笔记了。。我也懒得找文章链接了,抱歉哈哈)
作者原文:
对于公式(4),1-a刚好就是把0和1反过来了,这样1-a中的1表示的是不同的两个像素,因此体现的是inter-class 不同类的联系。
最后的最后,Affinity Loss为:
4 Context Prior Layer
CPLayer的结构如下,突然一看还挺复杂的:
- CPLayer的输入认为是X,就是\(shape=H\times W \times C_0\);
- X经过一个aggregation module变成了\(shape=H\times W \times C_1的\widetilde{X}\);
这里来看一下aggregation module是如何整合了spatial information:
看起来就是用了两个并行的1xk和kx1的卷积,OK,这个地方不难。
- \(\widetilde{X}\)经过一个1x1的卷积层和Sigmoid层,变成我们的prior Map (P),这个P的shape=HxWxN;
- 这里的P经过Affinity Loss的监督训练下,在理想情况下,P体现的就是像素之间的关系
- 之前得到了\(\widetilde{X}\),reshape成\(N\times C_1\)的形状,(这里的\(C_1\)其实就是最终要分类的类别数)
- 这里可以得到intra-class的信息\(Y=P\widetilde{X}\)
- 也可以得到inter-class的信息\(\bar{Y}=(1-P)\widetilde{X}\)
这里我提示一下,怎么理解这个intra-class呢?从P中,可以找到一个像素和其他同类别的像素,从\(\widetilde{X}\)中,可以找到所有像素预测概率。因此Y中的每一个像素的预测的概率值,其实是考虑了同类别的其他像素的预测值综合起来的结果。因此这是一个类内上下文的综合考虑。
- \(F = concat(X,Y,\bar{Y})\)
5 细节
之前计算的affinity Loss在论文中是写作\(L_p\),
- 其中\(L_u\)是unary loss一元损失,也就是二值交叉熵;
- \(L_g\)是global loss,也就是整体的一个损失;
然后整个模型的损失:
- 除了我们提到的\(L_p\),affinity loss,权重为1;
- \(L_a\)是auxiliary loss ,权重为0.4
- \(L_s\)是主要的main segmentation loss,权重为1.
图像分割 | Context Prior CPNet | CVPR2020的更多相关文章
- 多篇开源CVPR 2020 语义分割论文
多篇开源CVPR 2020 语义分割论文 前言 1. DynamicRouting:针对语义分割的动态路径选择网络 Learning Dynamic Routing for Semantic Segm ...
- Spring MVC 学习总结(一)——MVC概要与环境配置
一.MVC概要 MVC是模型(Model).视图(View).控制器(Controller)的简写,是一种软件设计规范,用一种将业务逻辑.数据.显示分离的方法组织代码,MVC主要作用是降低了视图与业务 ...
- Correlation Filter in Visual Tracking
涉及两篇论文:Visual Object Tracking using Adaptive Correlation Filters 和Fast Visual Tracking via Dense Spa ...
- 时空上下文视觉跟踪(STC)算法的解读与代码复现(转)
时空上下文视觉跟踪(STC)算法的解读与代码复现 zouxy09@qq.com http://blog.csdn.net/zouxy09 本博文主要是关注一篇视觉跟踪的论文.这篇论文是Kaihua Z ...
- HttpClient(4.3.5) - HTTP Authentication
HttpClient provides full support for authentication schemes defined by the HTTP standard specificati ...
- httpcomponents-client-4.4.x
Chapter 1. Fundamentals Prev Next Chapter 1. Fundamentals 1.1. Request execution The most essent ...
- httpcomponents-client-ga(4.5)
http://hc.apache.org/httpcomponents-client-ga/tutorial/html/ Chapter 1. Fundamentals Prev Next ...
- httpcomponents-client-4.3.x DOC
Chapter 1. Fundamentals Prev Next Chapter 1. Fundamentals 1.1. Request execution The most essent ...
- Spring MVC 学习总结(一)——MVC概要与环境配置(IDea与Eclipse示例)
一.MVC概要 MVC是模型(Model).视图(View).控制器(Controller)的简写,是一种软件设计规范,用一种将业务逻辑.数据.显示分离的方法组织代码,MVC主要作用是降低了视图与业务 ...
随机推荐
- jvm学习第一天
视频教程链接 第一部分-jvm初识 0.jvm概览图 JVM由三个主要的子系统构成 类加载子系统 运行时数据区(内存结构) 执行引擎运行时数据区(内存结构) 1.什么是jvm 定义: ①. JVM 是 ...
- Flink-v1.12官方网站翻译-P022-Working with State
有状态程序 在本节中,您将了解Flink为编写有状态程序提供的API.请看一下Stateful Stream Processing来了解有状态流处理背后的概念. 带键值的数据流 如果要使用键控状态,首 ...
- Left join查询为空
这两个查询,上面查询返回空,下面能正常返回记录 两个表结构: left join 没有匹配上得到的b.dates,b.game_id和b.uid都是null值,在按b.dates=20200317 a ...
- Codeforces Round #589 (Div. 2) Another Filling the Grid (dp)
题意:问有多少种组合方法让每一行每一列最小值都是1 思路:我们可以以行为转移的状态 附加一维限制还有多少列最小值大于1 这样我们就可以不重不漏的按照状态转移 但是复杂度确实不大行(减了两个常数卡过去的 ...
- CF Hello2020 D. New Year and Conference
D. New Year and Conference 题意 有\(2n\)个区间,分别为\([sa_1,ea_1],[sb_1,eb_1],[sa_2,ea_2],[sb_2,eb_2],\cdots ...
- 2019牛客暑期多校训练营(第三场)G.Removing Stones(ST+分治)
题意:给你n堆石子 每堆有ai个 现在问你有多少个连续的区间保证最大值小于等于该区间和的两倍 思路:我们可以考虑每个区间的分割点 总是该区间的最大值 所以我们只要ST找到该区间的最大值 然后每次都枚举 ...
- P3399 丝绸之路(DP)
题目背景 张骞于公元前138年曾历尽艰险出使过西域.加强了汉朝与西域各国的友好往来.从那以后,一队队骆驼商队在这漫长的商贸大道上行进,他们越过崇山峻岭,将中国的先进技术带向中亚.西亚和欧洲,将那里的香 ...
- Miller_Rabbin算法判断大素数
普通的素数测试我们有O(√ n)的试除算法.事实上,我们有O(s*log³n)的算法. 下面就介绍一下Miller_Rabbin算法思想: 定理一:假如p是质数,且(a,p)=1,那么a^(p-1)≡ ...
- 02、scrapy安装
1.安装scrapy 采用pip的安装方式,从豆瓣源获取 pip install -i https://pypi.douban.com/simple/ scrapy 安装过程中会报出错误: build ...
- zzuli-2259 matrix
题目描述 在麦克雷的面前有N个数,以及一个R*C的矩阵.现在他的任务是从N个数中取出 R*C 个,并填入这个矩阵中.矩阵每一行的法值为本行最大值与最小值的差,而整个矩阵的法值为每一行的法值的最大值.现 ...