论文巧妙地基于one-stage目标检测算法提出实时实例分割算法YOLACT，整体的架构设计十分轻量，在速度和效果上面达到很好的trade-off。

来源：【晓飞的算法工程笔记】公众号

论文: YOLACT: Real-time Instance Segmentation

Introduction

目前的实例分割方法虽然效果都有很大的提升，但是均缺乏实时性，为此论文的提出了首个实时($>30fps$)实例分割算法YOLACT，论文的主要贡献如下：

基于one-stage目标检测算法，提出实时实例分割算法YOLACT，整体的架构设计十分轻量，在速度和效果上面达到很好的trade-off。
提出加速版NMS算法Fast NMS，有12ms加速

YOLACT

YOLACT的主要想法是直接在one-stage目标检测算法中加入Mask分支，而不添加任何的RoI池化的操作，将实例分割分成两个并行的分支：

使用FCN来生成分辨率较大的原型mask，原型mask不针对任何的实例。
目标检测分支添加额外的head来预测mask因子向量，用于对原型mask进行特定实例的加权编码。

这样做的原理在于，mask在空间上是连续的，卷积能很好地保持这种特性，因此原型mask通过全卷积生成的，而全连接层虽然不能保持空间连贯性，但能很好地预测语义向量，于是用来生成instance-wise的mask因子向量，结合两者进行预测，既能保持空间连贯性，也能加入语义信息并保持one-stage的快速性。最后取目标检测分支经过NMS后的实例，逐个将原型mask和mask因子向量相乘，再将相乘后的结果合并输出

Prototype Generation

原型mask分支预测$k$个mask，protonet按如图3的FCN形式实现，最后的卷积输出channel为$k$，protonet接在主干网络上。整体的实现与大多数的语义分割模型类似，区别在于主干网络使用了FPN来增加网络的深度，并且保持较大的分辨率($P_3$, 原图1/4大小)来提高小物体的识别。另外，论文发现不限制protonet的输出是很重要的，能够让网络对十分确定的原型给予压倒性的响应(比如背景)，可以选择对输出的原型mask进行ReLU激活或不接激活，论文最终选择了ReLU激活。

Mask Coefficients

在经典的anchor-based目标检测算法中，检测head一般有两个分支，分别预测类别和bbox偏移。在此基础上添加第三个用于mask因子预测的分支，每个实例预测$k$个mask因子。

为了更好地控制和丰富原型mask的融合，对mask因子进行tanh激活，使得值更稳定且有正负，效果如图2的分支。

Mask Assembly

将原型mask和mask因子进行线性组合，然后对组合结果进行sigmoid激活输出最终的mask。$P$为$h\times w\times k$的原型mask，$C$为$n\times k$的原型因子，$n$为检测分支NMS和分数过滤后留下的实例数。

Losses

训练的损失函数包含3种：分类损失$L_{cls}$、box回归损失$L_{box}$以及mask损失$L_{mask}$，权重分别为1、1.5和6.125，分类损失和回归损失的计算与SSD一样，mask损失使用pixel-wise的二元交叉熵计算$L_{mask}=BCE(M, M_{gt})$

Cropping Masks

在推理阶段，使用预测的bbox在最终的mask截取出实例，再使用阈值(人工设置0.5)来过滤成二值的mask。在训练的时候，则使用GT来截取实例计算mask损失，$L_{mask}$会除以截取的实例大小，这样有助于保留原型中的小目标。

Emergent Behavior

一般而言，FCN做分割都需要添加一些额外的trick来增加平移可变性，比如position-sensitive特征图，虽然YOLACT唯一增加平移可变形的措施是对最终的mask进行截取输出，但是论文发现对于中大物体不截取输出的效果也不错，这代表YOLACT的原型mask学到了对不同的实例进行不同的响应，如图5所示，适当地对原型mask进行组合就能得出实例。需要注意的是全红的输入图片，其原型mask特征是各不一样的，这是由于每次卷积都会padding，使得边界存在可区分性，所以主干网络本身就存在一定的平移可变形。

Backbone Detector

原型mask和mask因子的预测都需要丰富的特征，为了权衡速度和特征丰富性，主干网络采用类似与RetinaNet的结构，加入FPN，去掉$P_2$加入$P_6$和$P_7$，在多层中进行head预测，并用$P_3$特征进行原型mask预测。

YOLACT head使用$P_2 \sim P_7$的特征，anchor的大小分别对应$[24, 48, 96, 192, 384]$，每个head共享一个$3\times 3$卷积，然后再分别通过独立的$3\times 3$卷积进行预测，比RetinaNet更轻量，如图4。使用smooth-$L1$训练bbox预测，使用带背景类的softmax交叉熵训练分类预测，OHEM正负比例为$1:3$。

Other Improvements

Fast NMS

正常的NMS会串行地按类别将bbox逐个校验，这种效率对于5fps的算法是足够快的，但对于30fps的算法将是很大的瓶颈。为此，论文提出Fast NMS来加速。

首先根据类别分数对各检测结果进行排序，然后计算各自的IoU对，得到$c\times n\times n$的IoU矩阵$X$，$c$为类别数，$n$为bbox数量。假设与bbox的IoU高于阈值$t$的其它bbox的分数高于当前框，则去掉该bbox，计算逻辑如下：

将矩阵$X$的下三角和对角线置为0，$X_{kij}=0, \forall k, j, i \ge j$

取每列的最大值，计算如公式2，得到最大IoU值矩阵$K$
$K<t$的检测结果即为每个类别保留的结果。

通过实验，FastNMS大约能比原生的NMS快约11.8ms，mAP下降0.1

Semantic Segmentation Loss

为了提升准确率而不影响推理的速度，在训练阶段加入语义分割分支并计算语义分割损失辅助训练。在$P_3$输出上接一个c维的$1\times 1$卷积，由于一个像素可能属于多个类别，使用sigmoid激活输出而不是softmax激活，损失的权重为1，大约能提升0.4mAP。

Results

Mask Results

Mask Quality

Ablations

CONCLUSION

论文巧妙地基于one-stage目标检测算法提出实时实例分割算法YOLACT，整体的架构设计十分轻量，在速度和效果上面达到很好的trade-off。

写作不易，未经允许不得转载～

更多内容请关注微信公众号【晓飞的算法工程笔记】

YOLACT : 首个实时one-stage实例分割模型，29.8mAP/33.5fps | ICCV 2019的更多相关文章

论文速递 | 实例分割算法BlendMask，实时又state-of-the-art
BlendMask通过更合理的blender模块融合top-level和low-level的语义信息来提取更准确的实例分割特征,该模型效果达到state-of-the-art,但结构十分精简,推理速度 ...
手把手教你使用LabVIEW实现Mask R-CNN图像实例分割
前言前面给大家介绍了使用LabVIEW工具包实现图像分类,目标检测,今天我们来看一下如何使用LabVIEW实现Mask R-CNN图像实例分割. 一.什么是图像实例分割? 图像实例分割(Instan ...
实例分割：MaskXRCnn 与Visual Genome数据集
一.VG数据集机器学习领域的突破突然让计算机获得了以未曾有的高精度识别图像中物体的能力--几乎达到了让人惊恐的程度.现在的问题是机器是否还能更上层楼,学会理解这些图片中所发生的事件. Visual ...
CVPR2019 | 超越Mask R-CNN！华科开源图像实例分割新方法MS R-CNN
安妮乾明发自凹非寺本文转载自量子位(QbitAI) 实习生又立功了! 这一次,亮出好成绩的实习生来自地平线,是一名华中科技大学的硕士生. 他作为第一作者完成的研究Mask Scoring R- ...
经典论文系列| 实例分割中的新范式-SOLO
前言: 这是实例分割中的一篇经典论文,以往的实例分割模型都比较复杂,这篇论文提出了一个简单且直接的实例分割模型,如何设计这种简单直接的模型且要达到一定的精度往往会存在一些困难,论文中有很多思路或思想值 ...
CVPR2021 | Transformer用于End-to-End视频实例分割
论文:End-to-End Video Instance Segmentation with Transformers 获取:在CV技术指南后台回复关键字"0005"获取该论文 ...
实时实例分割的Deep Snake：CVPR2020论文点评
实时实例分割的Deep Snake:CVPR2020论文点评 Deep Snake for Real-Time Instance Segmentation 论文链接:https://arxiv.org ...
CVPR目标检测与实例分割算法解析：FCOS（2019），Mask R-CNN（2019），PolarMask（2020）
CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020)1. 目标检测:FCOS(CVPR 2019)目标检测算法FCOS(FCOS: ...
CVPR2020论文解析：实例分割算法
CVPR2020论文解析:实例分割算法 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文链接:https://arxiv ...

随机推荐

https的秘钥公钥以及之间的会话流程
一共享秘钥 1.1 概念共享秘钥和我们生活中同一把锁的钥匙概念类似,对同一把锁来说,加锁时使用什么钥匙,解锁也必须使用同样的钥匙. 1.2 共享秘钥在HTTP传输中的缺点以共享密钥方式加密时 ...
java的套接字实现远程连接
package jnet;//客户端程序,使用套接字连接服务器import java.net.*;import java.io.*;import javax.swing.*; public class ...
python简易的大乐透数据获取及初步分析
该项目从网上爬取并分析彩票数据,为用户查看和初步分析往期数据提供一种简易的工具. https://github.com/unknowcry/Lottery # -*- coding: utf-8 -* ...
【从零单排HBase 03】深入HBase读写
在了解HBase架构的基础上,我们需要进一步学习HBase的读写过程,一方面是了解各个组件在整个读写过程中充当的角色,另一方面只有了解HBase的真实请求过程,才能为后续的正确使用打下初步基础,毕竟, ...
玩转控件:Fucking ERP之流程图
前言首先,跟守护在作者公众号和私信作者催更的朋友们道个歉.疫情的原因,公司从年初到现在一直处于996+的高压模式,导致公众号更新频率较低.而且作者每更新一篇原创公众号,既要对自己沉淀知识负责,也要对 ...
Joomla 3.4.6 RCE 分析
Joomla 3.4.6 RCE 漏洞分析,首发先知社区: https://xz.aliyun.com/t/6522 漏洞环境及利用 Joomla 3.4.6 : https://downloads. ...
Linux工程师必备的系统监控工具
WGCLOUD基于java语言开发,是微服务架构构建监控系统,支持高并发高性能高可用,核心模块包括:服务器集群监控,ES集群状态监控,CPU监控,内存监控,数据监控(mysql,postgresql, ...
js 一个或多个一维数组，算出元素之间相互组合的所有情况
// 数据源 var target = { state1: ['1', '2'], state2: ['01', '02', '03'], state3: ['001','002'] } stackS ...
Python网络爬虫:伪装浏览器
一.添加超时跳过功能首先, 我简单地将 urlop = urllib.request.urlopen(url) 改为 urlop = urllib.request.urlopen(url, time ...
Apache漏洞利用与安全加固实例分析
Apache 作为Web应用的载体,一旦出现安全问题,那么运行在其上的Web应用的安全也无法得到保障,所以,研究Apache的漏洞与安全性非常有意义.本文将结合实例来谈谈针对Apache的漏洞利用和安 ...

YOLACT : 首个实时one-stage实例分割模型，29.8mAP/33.5fps | ICCV 2019