YOLACT是首个实时实例分割算法，但是准确率较SOTA差得有点多，YOLACT++从主干网络、分支和anchor的3个角度出发对YOLACT进行优化，在保持实时性的前提下提升了5map，论文改进的角度值得参考

来源：晓飞的算法工程笔记公众号

论文: YOLACT++ Better Real-time Instance Segmentation

Introduction

此前的YOLACT尽管能实时推理，但其精度相对于SOTA还是有一些差距，因此，论文提出YOLACT++，在保持实时性的同时大幅增加性能。论文的主要贡献如下：

主干网络加入可变形卷积，提升主干网络对不同形状实例的特征采样能力。
优化prediciton head，使用更好的anchor尺寸和长宽比以提高大目标的召回。
加入fast mask re-scoring分支，优化结果的评估，仅消耗少量的计算量就能带来大幅的性能提升。

YOLACT

YOLACT的主要想法是直接在one-stage目标检测算法中加入Mask分支，而不添加任何的RoI池化的操作，将实例分割分成两个并行的分支：

使用FCN来生成分辨率较大的原型mask，原型mask不针对任何的实例。
目标检测分支添加额外的head来预测mask因子向量，用于对原型mask进行特定实例的加权编码。

最后取目标检测分支经过NMS后的实例，逐个将原型mask和mask因子向量相乘，再将相乘后的结果合并输出，具体细节可以看公众号之前发的YOLACT文章。

YOLACT++

Fast Mask Re-Scoring Network

参考Mask Scoring R-CNN，为了缩小分类预测和mask质量间的差距，加入re-scoring分支预测mask与GT间的IoU。以YOLACT截取的mask预测结果(二值化前)为输入，使用6层带ReLU激活的卷积层提取特征，最后进行全局池化输出预测的IoU，将预测的IoU和分类分数相乘作为最终的分数。与Mask Scoring R-CNN的不同点在于：

YOLACT++是基于整图的mask截取进行预测，大小不足的使用零填充，而Mask Scoring R-CNN则是使用RoI池化后的特征叠加mask分支的结果进行预测。
YOLACT++没有使用全连接层，这是速度保持的关键，仅增加1.2ms的计算耗时，而Mask Scoring R-CNN的模块需要28ms。

Deformable Convolution with Intervals

可变形卷积由于其卷积的可变形性，对目标定位相关的任务均有提升，因此，YOLACT++将主干网络\(C_3\)到\(C_5\)的\(3\times 3\)卷积替换成\(3\times 3\)的可变形卷积，由于可调制变形卷积开销较大，这里只使用DCNv1，全替换能带来1.8的mask mAP提升，主要原因如下：

DCN能够通过偏移提升网络处理不同尺寸、角度和长宽比目标的能力。
YOLACT是one-stage网络，没有类似Mask R-CNN等two-stage网络的二次处理来进行结果的优化，所以更灵活的首次预测是极为重要的。

由于ResNet-101有30个\(3\times 3\)卷积层，为了达到性能和准确率之间的trade-off，有以下几种实施的方案：

替换最后10个ResNet blocks
替换最后13个ResNet blocks
替换最后3个ResNet stage，block的间隔为3(每3个block替换1个)
替换最后3个ResNet stage，block的间隔为4(每4个block替换1个)

DCN (interval=3)的效果最好，耗时增加2.8ms，mAP提升1.6。

Optimized Prediction Head

YOLACT是anchor-based检测算法，选择合适的anchor十分重要，论文尝试了两种选择：

保持尺寸不变，长宽比从\([1, 1/2, 2]\)变为\([1, 1/2, 2, 1/3, 3]\)
保持长宽比不变，原本每个level一种尺寸，现在每层的尺寸改为原尺寸的三种比例\([1x, 2^{\frac{1}{3}}x, 2^{\frac{2}{3}}x]\)

RESULTS

Mask Results

YOLACT++ Improvements

CONCLUSION

YOLACT是首个实时实例分割算法，但是准确率较SOTA差得有点多，YOLACT++从主干网络、分支和anchor的3个角度出发对YOLACT进行优化，在保持实时性的前提下提升了5map，论文改进的角度值得参考。

如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】

YOLACT++ : 实时实例分割，从29.8mAP/33.5fps到34.1mAP/33.5fps的更多相关文章

实时实例分割的Deep Snake：CVPR2020论文点评
实时实例分割的Deep Snake:CVPR2020论文点评 Deep Snake for Real-Time Instance Segmentation 论文链接:https://arxiv.org ...
YOLACT : 首个实时one-stage实例分割模型，29.8mAP/33.5fps | ICCV 2019
论文巧妙地基于one-stage目标检测算法提出实时实例分割算法YOLACT,整体的架构设计十分轻量,在速度和效果上面达到很好的trade-off. 来源:[晓飞的算法工程笔记] 公众号论文: ...
论文速递 | 实例分割算法BlendMask，实时又state-of-the-art
BlendMask通过更合理的blender模块融合top-level和low-level的语义信息来提取更准确的实例分割特征,该模型效果达到state-of-the-art,但结构十分精简,推理速度 ...
Deep Snake : 基于轮廓调整的SOTA实例分割方法，速度32.3fps | CVPR 2020
论文提出基于轮廓的实例分割方法Deep snake,轮廓调整是个很不错的方向,引入循环卷积,不仅提升了性能还减少了计算量,保持了实时性,但是Deep snake的大体结构不够优雅,应该还有一些工作可以 ...
SOLOv 2：实例分割（动态、更快、更强）
SOLOv 2:实例分割(动态.更快.更强) SOLOv2: Dynamic, Faster and Stronger 论文链接: https://arxiv.org/pdf/2003.10152. ...
CVPR2020：三维实例分割与目标检测
CVPR2020:三维实例分割与目标检测 Joint 3D Instance Segmentation and Object Detection for Autonomous Driving 论文地址 ...
手把手教你使用LabVIEW实现Mask R-CNN图像实例分割
前言前面给大家介绍了使用LabVIEW工具包实现图像分类,目标检测,今天我们来看一下如何使用LabVIEW实现Mask R-CNN图像实例分割. 一.什么是图像实例分割? 图像实例分割(Instan ...
Tensorflow实现Mask R-CNN实例分割通用框架，检测，分割和特征点定位一次搞定（多图）
Mask R-CNN实例分割通用框架,检测,分割和特征点定位一次搞定(多图) 导语:Mask R-CNN是Faster R-CNN的扩展形式,能够有效地检测图像中的目标,同时还能为每个实例生成一个 ...
CVPR2020论文解析：实例分割算法
CVPR2020论文解析:实例分割算法 BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation 论文链接:https://arxiv ...
CVPR目标检测与实例分割算法解析：FCOS（2019），Mask R-CNN（2019），PolarMask（2020）
CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020)1. 目标检测:FCOS(CVPR 2019)目标检测算法FCOS(FCOS: ...

随机推荐

SQL中为什么不要使用1=1？
最近看几个老项目的SQL条件中使用了1=1,想想自己也曾经这样写过,略有感触,特别拿出来说道说道. 编写SQL语句就像炒菜,每一种调料的使用都会影响菜品的最终味道,每一个SQL条件的加入也会影响查询的 ...
【Unity3D】异步Socket通讯
1 前言同步 Socket 通讯中的 Accept.Connect.Receive 等方法会阻塞当前线程,当前线程必须等待这些方法执行完,才会继续往下执行,用户需要另开线程执行这些耗时方法,否 ...
Git将某个文件合并到指定分支
企业开发中,经常会单独拉分支去做自己的需求开发,但是某些时候一些公共的配置我们需要从主线pull,这时候整个分支merge显然不合适 1.切换至待合并文件的分支 git checkout <br ...
ORA-39087: Directory Name Is Invalid
说明有时我们在Oracle数据库服务器执行expdp/impdp过程中会碰到这个错误:ORA-39087: Directory Name Is Invalid,意思是我们指定的directory参数 ...
Springboot+LayUI实现一个简易评论系统
说明这是个简单的评论系统,目的在于介绍简单的评论和回复功能.同时基于此可以扩展更全面的.自定义的评论系统,本工程仅供学习交流使用.喜欢的朋友给个赞:) 源码 https://gitee.com/in ...
MASM32 - PlaySound的实现
MASM安装教程: https://blog.csdn.net/u010486308/article/details/105495848 代码参考: .model flat, stdcall opti ...
Eharts立体柱状图
一下这三个div大小不一样为了保证每次柱状图渲染正确添加key <div class="echart1" id="dangerChart1" key= ...
Android加载PDF方案（pdf.js，支持缩放）
都知道,Android本身的webview是不支持pdf加载的(比不上iOS的webview,谁让人家NB呢),因此通过连接Google的一个服务器转换成功后返回给WebView显示.但是,但是,但是 ...
一文上手图数据备份恢复工具 NebulaGraph BR
作者:NebulaGraph 工程师 Kenshin NebulaGraph BR 开源已经有一段时间了,为了给社区用户提供一个更稳.更快.更易用的备份恢复工具,去年对其进行了比较大的重构.Nebul ...
Kconnect使用sftp windows自定义协议
终于有时间写点东西了,上次写东西已经是三个月之前了.自从出现了觉得一个月写一篇文章也没关系的想法之后就已经完全忘记有这回事儿了.一直觉得没有足够的时间,但是又想写出质量比较好的文章,所以就一直没有动笔 ...

YOLACT++ : 实时实例分割，从29.8mAP/33.5fps到34.1mAP/33.5fps