图像分割-Mask Scoring R-CNN

转载：https://zhuanlan.zhihu.com/p/58291808

论文链接：https://arxiv.org/abs/1903.00241

代码链接：https://github.com/zjhuang22/maskscoring_rcnn

今天介绍一篇CVPR2019的论文，来自华科和地平线，这篇论文从实例分割中mask 的分割质量角度出发，提出过去的经典分割框架存在的一个缺陷：用Bbox bounding box的classification confidence作为mask score，导致mask score和mask quality不配准。因此文章基于Mask R-CNN提出一个新的框架Mask Scoring R-CNN，能自动学习出mask quality，试图解决不配准的问题。

在实例分割（instance segmentation）中，比如Mask R-CNN，mask 分支的分割质量（quality）来源于检测分支的classification confidence。Mask R-CNN其实Faster R-CNN系列的延伸，其在Faster R-CNN的基础上添加一个新的分支用来预测object mask，该分支以检测分支的输出作为输入，mask的质量一定程度上依赖于检测分支。这种简单粗暴的做法取得了SOTA的性能，近年来COCO比赛的冠军或者前几名基本是Mask R-CNN及其变体，但依然有上升的空间。

更仔细的来讲，Mask R-CNN存在的问题是：bounding box的classification confidence不能代表mask的分割质量。classification confidence高可以表示检测框的置信度高（严格来讲不能表示框的定位精准），但也会存在mask分割的质量差的情况。高的分类置信度也应该同时有好的mask 结果。

回到原始的初衷，文章希望得到精准的mask质量，那么如何评价输出的mask质量呢？

是AP，或者说是instance-level的IoU。这个IoU和检测用到的IoU是一个东西，前者是predict mask和gt mask的pixel-level的Intersection-over-Union，而后者则是predict box和gt box的box-level的Intersection-over-Union。所以一个直观的方法就是用IoU来表示分割的质量，那么让网络自己学习输出分割的质量也是简单直观的做法。学习出mask的IoU，那么最后的mask score就等于maskIoU乘以classification score，mask score就同时表示分类置信度和分割的质量。

作者在Mask R-CNN的基础上添加了一个MaskIoU分支用于预测当前输出的mask和gt mask的IoU。MaskIoU的输入由两部分组成，一是ROIAlign得到的RoI feature map，二是mask分支输出的mask。两者concat之后经过3层卷积和2层全连接输出MaskIoU。

training过程：

box分支和mask保持不变，输出的mask先经过阈值为0.5的binarize，再计算binary mask和gt的IoU作为target，采用L2 loss作为损失函数，loss weight设为1，3个分支同时end-to-end训练。

inference过程：

检测分支输出score最高的100个框，再送入mask分支，得到mask结果，RoI feature map再和mask送入MaskIoU分支得到mask iou，与box的classification score相乘就得到最后的mask score。

实验结果，在COCO 2017 test集上，相对于Mask R-CNN，mask AP有1个点多的提升。

同时作者还做了对比实验，验证不同的MaskIoU输入对性能的影响。文章列举了4种输入方式：

target mask和ROI feature concat
target mask和ROI feature 相乘
所有mask和ROI feature concat
target mask和高分辨率的ROI feature concat

其网络结构示意图如下：

验证不同training target对性能的影响：

只学习target类别的MaskIoU,忽略其他类别
学习所有类别的MaskIoU，相应的其他类别的MaskIoU的学习目标就是0
学习出现在ROI区域的类别的MaskIoU。

可以看出，setting#1的效果最好，setting#2的效果最差。

同时作者还做了实验探索Mask Scoring R-CNN的性能上界。

对每个输出的MaskIoU，用输出的mask 和匹配的gt mask iou来代替，MaskIoU分支就输出了mask分支的真实quality，这时就得到了Mask Scoring R-CNN的性能上界。实验结果表明Mask Scoring R-CNN依然比Mask R-CNN更好，说明MaskIoU起到了alignment的效果，但很显然会比用gt mask iou 代替的效果差，说明一方面box的准确性和mask分支本身也会影响mask任务的性能，另一方面MaskIoU 分支的学习能力可以进一步提升，Mask Scoring R-CNN依然有提升的空间。

速度方面，作者在Titan V GPU上测试一张图片，对于ResNet18-FPN用时0.132s，Resnet101-DCN-FPN用时0.202s，Mask Scoring R-CNN和Mask R-CNN速度一样。

总结：

作者motivation就是想让mask的分数更合理，从而基于mask rcnn添加一个新的分支预测来得到更准确的分数，做法简单粗暴，从结果来看也有涨点。其实mask的分割质量也跟box输出结果有很大关系，这种detection-based分割方法不可避免，除非把detection结果做的非常高，不然mask也要受制于box的结果。这种做法与IoU-Net类似，都是希望直接学习最本质的metric方式来提升性能。

为了同时提升detection和mask的效果，最近的Cascade方法很受欢迎，从人脸检测领域的Cascade CNN，到Cascade R-CNN: Delving into High Quality Object Detection，再到友商的HTC不仅在COCO中拿了冠军，同时也被CVPR2019接收，Cascade方式展现了强大实力，相信在未来会出现越来越多的Cascade，如Cascade RetinaNet，Cascade TridentNet。。。

图像分割-Mask Scoring R-CNN的更多相关文章

CVPR2019 | Mask Scoring R-CNN 论文解读
Mask Scoring R-CNN CVPR2019 | Mask Scoring R-CNN 论文解读作者 | 文永亮研究方向 | 目标检测.GAN 推荐理由: 本文解读的是一篇发表于CVPR ...
2019CVPR《Mask Scoring R-CNN》
题目:<Mask Scoring R-CNN> CVPR 2019 Oral Paper(2017年783篇论文,获得口头报道的有215篇,oral paper很有含金量) 华中科技大学h ...
论文笔记：Mask R-CNN
之前在一次组会上,师弟诉苦说他用 UNet 处理一个病灶分割的任务,但效果极差,我看了他的数据后发现,那些病灶区域比起整张图而言非常的小,而 UNet 采用的损失函数通常是逐像素的分类损失,如此一来, ...
CVPR2019 | 超越Mask R-CNN！华科开源图像实例分割新方法MS R-CNN
安妮乾明发自凹非寺本文转载自量子位(QbitAI) 实习生又立功了! 这一次,亮出好成绩的实习生来自地平线,是一名华中科技大学的硕士生. 他作为第一作者完成的研究Mask Scoring R- ...
行为识别(action recognition)相关资料
转自:http://blog.csdn.net/kezunhai/article/details/50176209 ================华丽分割线=================这部分来 ...
R-CNN论文翻译
R-CNN论文翻译 Rich feature hierarchies for accurate object detection and semantic segmentation 用于精确物体定位和 ...
【计算机视觉】行为识别(action recognition)相关资料
================华丽分割线=================这部分来自知乎==================== 链接:http://www.zhihu.com/question/3 ...
Ubuntu16.04下caffe CPU版的详细安装步骤
一.caffe简介 Caffe,是一个兼具表达性.速度和思维模块化的深度学习框架. 由伯克利人工智能研究小组和伯克利视觉和学习中心开发. 虽然其内核是用C++编写的,但Caffe有Python和Mat ...
论文翻译——R-CNN（目标检测开山之作）
R-CNN论文翻译 <Rich feature hierarchies for accurate object detection and semantic segmentation> 用 ...

随机推荐

python基本应用--三元应用
格式为:result=值1 if 条件 else 值2 如 a,b,c = 1,3,5 d =a if a>b else c 那么d的结果是多少? 其实可以使用if来完全表达 if a>b ...
ubuntu下编辑文本命令
常见的基于控制台的文本编辑器有以下几种: emacs 综合性的GNU emacs 编辑环境 nano 一个类似于经典的pico的文本编辑器,内置了一个pi ...
ADO.Net数据库连接字符串、DbProviderFactory
一.ADO.Net数据库连接字符串 1.OdbcConnection(System.Data.Odbc) (1)SQL Sever 标准安全:" Driver={SQL Server}; S ...
Shiro 中的 SecurityUtils(转)
在 Shiro 中 SecurityUtils 是一个抽象类.并且没有任何子类.在其中声明了一个静态属性,三个静态方法. 静态属性 securityManager private static Sec ...
配置阿里yum源
root@docker ~]# curl -o /etc/yum.repos.d/CentOS-Base.repo https://mirrors.aliyun.com/repo/epel-7.rep ...
Codeforces Round #588 (Div. 2) D题【补题ING】
思路:先找出现次数>=2数.然后在取跑所有数,需要考虑一般情况(当一个人比另一个人的ai小且他们的与运算等于小的那个人的ai那么可以知道大的那个人必定强于ai小的那个人). 则可以用位运算实现判 ...
FileInputStream读取的两种方法:逐字节读；以字节数组读取
1:read() : 从输入流中读取数据的下一个字节,返回0到255范围内的int字节值.如果因为已经到达流末尾而没有可用的字节,则返回-1.在输入数据可用.检测到流末尾或者抛出异常前,此方法一直阻塞 ...
K8S中Pods
什么是Pod 一个Pod(就像一群鲸鱼,或者一个豌豆夹)相当于一个共享context的配置组,在同一个context下,应用可能还会有独立的cgroup隔离机制,一个Pod是一个容器环境下的“逻辑主机 ...
DRF-认证权限频率组件
补充 1 认证权限频率组件原理基本相同 2 认证相关: session cookie token 认证相关的这里用token token 1 有时间限制,超时则失效 2 每次登录更换一个tok ...
2019牛客暑期多校训练营（第六场）E 构造、原图是补图的同构图
https://ac.nowcoder.com/acm/contest/886#question 题意问是否存在某个n个点的无向图G是其补图H的同构图,若存在输出G的邻接矩阵以及H关于G的映射. ...

图像分割-Mask Scoring R-CNN

图像分割-Mask Scoring R-CNN的更多相关文章

随机推荐

热门专题