Mask-RCNN技术解析

Mask-RCNN技术解析

MaskR-CNN

论文链接：https://arxiv.org/pdf/1703.06870.pdf

代码链接：https://github.com/CharlesShang/FastMaskRCNN

摘要

提出了一个概念简单，灵活，通用的对象实例分割框架。本方法有效地检测图像中的对象，同时为每个实例生成高质量的分割掩码。该方法称为Mask R-CNN，通过在已有的包围盒识别分支的基础上增加一个预测对象掩模的分支，使R-CNN扩展得更快。Mask R-CNN训练简单，仅为速度更快的R-CNN增加少量开销，运行速度为5 fps。此外，Mask R-CNN易于推广到其他任务，例如，允许在相同的框架中估计人体姿势。展示了COCO系列挑战的所有三个轨迹的最佳结果，包括实例分割、包围盒对象检测和人的关键点检测。不需要经过修饰，Mask R-CNN在每一项任务上都胜过所有现有的单模式参赛作品，包括COCO 2016挑战赛的获胜者。简单有效的方法将作为一个坚实的基线，并有助于在实例级识别的未来研究。

一. Mask-RCNN 介绍

Mask-RCNN，看着比较好理解，就是在 RCNN 的基础上添加 Mask。

Mask-RCNN 来自于Facebook的 Kaiming He，通过在 Faster-RCNN 的基础上添加一个分支网络，在实现目标检测的同时，把目标像素分割出来。

假设大家对 Faster 已经很熟悉了，其中，黑色部分为原来的 Faster-RCNN，红色部分为在 Faster网络上的修改

1）将 Roi Pooling 层替换成了 RoiAlign；

2）添加并列的 FCN 层（mask 层）；

Mask-RCNN 的几个特点

1）在边框识别的基础上添加分支网络，用于语义Mask 识别；

2）训练简单，相对于 Faster 仅增加一个小的 Overhead，可以跑到 5FPS；

3）可以方便的扩展到其他任务，比如人的姿态估计等；

4）不借助 Trick，在每个任务上，效果优于目前所有的 single-model entries；包括 COCO2016 的Winners。

二. Mask-RCNN 技术要点

Mask R-CNN基本结构：与Faster RCNN采用了相同的two-state步骤：首先是找出RPN，然后对RPN找到的每个RoI进行分类、定位、并找到binary mask。这与当时其他先找到mask然后在进行分类的网络是不同的。

● 技术要点1 - 强化的基础网络

通过 ResNeXt-101+FPN 用作特征提取网络，达到 state-of-the-art 的效果。

● 技术要点2 - ROIAlign

采用 ROIAlign 替代 RoiPooling（改进池化操作）。引入了一个插值过程，先通过双线性插值到14*14，再 pooling到7*7，很大程度上解决了仅通过 Pooling 直接采样带来的 Misalignment 对齐问题。

虽然 Misalignment 在分类问题上影响并不大，但在 Pixel 级别的 Mask 上会存在较大误差。

后面把结果对比贴出来（Table2 c & d），能够看到 ROIAlign 带来较大的改进，可以看到，Stride 越大改进越明显。

● 技术要点3 - Loss Function

每个 ROIAlign 对应 K * m^2 维度的输出。K 对应类别个数，即输出 K 个mask，m对应池化分辨率（7*7）。Loss 函数定义：

Lmask(Cls_k) = Sigmoid (Cls_k)，平均二值交叉熵（average binary cross-entropy）Loss，通过逐像素的 Sigmoid 计算得到。

Why 有K个mask？通过对每个 Class 对应一个 Mask 可以有效避免类间竞争（其他 Class 不贡献 Loss ）。

通过结果对比来看（Table2 b），也就是作者所说的 Decouple 解耦，要比多分类的 Softmax 效果好很多。

三. 对比实验效果

Training:

1．当IoU与Ground Truth的IoU大于0.5时才会被认为有效的RoI，只把有效RoI计算进去。

2．采用image-centric training，图像短边resize到800，每个GPU的mini-batch设置为2，每个图像生成N个RoI，对于C4 backbone的N=64，对于FPN作为backbone的，N=512。使用了8块GPU，所以总的minibatch是16，迭代了160k次，初始lr=0.02，在迭代到120k次时，将lr设定到 lr=0.002，另外学习率的weight_decay=0.0001，momentum = 0.9。如果是resnext，初始lr=0.01,每个GPU的mini-batch是1。

3．RPN的anchors有5种scale，3种ratios。为了方便剥离、如果没有特别指出，则RPN网络是单独训练的且不与Mask R-CNN共享权重。RPN和Mask R-CNN使用一个backbone，所以他们的权重是共享的。

（Ablation Experiments 为了方便研究整个网络中哪个部分其的作用到底有多大，需要把各部分剥离开）

Inference：在测试时，使用C4 backbone情况下proposal number=300，使用FPN时proposal number=1000。然后在这些proposal上运行bbox预测，接着进行非极大值抑制。mask分支只应用在得分最高的100个proposal上。顺序和train是不同的，但这样做可以提高速度和精度。mask 分支对于每个roi可以预测k个类别，只要背景和前景两种，所以只用k-th mask，k是根据分类分支得到的类型。然后把k-th mask resize成roi大小，同时使用阈值分割(threshold=0.5)二值化。

另外，给出了很多实验分割效果，下面是一张和 FCIS 的对比图（FCIS 出现了Overlap 的问题）：

四. Mask-RCNN 扩展

Mask-RCNN 在姿态估计上的扩展，效果不错。

Mask-RCNN技术解析的更多相关文章

[Network Architecture]Mask R-CNN论文解析（转）
前言最近有一个idea需要去验证,比较忙,看完Mask R-CNN论文了,最近会去研究Mask R-CNN的代码,论文解析转载网上的两篇博客技术挖掘者 remanented 文章1 论文题目:Ma ...
CVPR目标检测与实例分割算法解析：FCOS（2019），Mask R-CNN（2019），PolarMask（2020）
CVPR目标检测与实例分割算法解析:FCOS(2019),Mask R-CNN(2019),PolarMask(2020)1. 目标检测:FCOS(CVPR 2019)目标检测算法FCOS(FCOS: ...
[代码解析]Mask R-CNN介绍与实现(转)
文章来源 DFann 版权声明:如果你觉得写的还可以,可以考虑打赏一下.转载请联系. https://blog.csdn.net/u011974639/article/details/78483779 ...
多目标检测分类 RCNN到Mask R-CNN
最近做目标检测需要用到Mask R-CNN,之前研究过CNN,R-CNN:通过论文的阅读以及下边三篇博客大概弄懂了Mask R-CNN神经网络.想要改进还得努力啊... 目标检测的经典网络结构,顺序大 ...
Mask RCNN 学习笔记
下面会介绍基于ResNet50的Mask RCNN网络,其中会涉及到RPN.FPN.ROIAlign以及分类.回归使用的损失函数等介绍时所采用的MaskRCNN源码(python版本)来源于GitH ...
物体检测之FPN及Mask R-CNN
对比目前科研届普遍喜欢把问题搞复杂,通过复杂的算法尽量把审稿人搞蒙从而提高论文的接受率的思想,无论是著名的残差网络还是这篇Mask R-CNN,大神的论文尽量遵循著名的奥卡姆剃刀原理:即在所有能解决问 ...
Tensorflow实现Mask R-CNN实例分割通用框架，检测，分割和特征点定位一次搞定（多图）
Mask R-CNN实例分割通用框架,检测,分割和特征点定位一次搞定(多图) 导语:Mask R-CNN是Faster R-CNN的扩展形式,能够有效地检测图像中的目标,同时还能为每个实例生成一个 ...
物体检测丨从R-CNN到Mask R-CNN
这篇blog是我刚入目标检测方向,导师发给我的文献导读,深入浅出总结了object detection two-stage流派Faster R-CNN的发展史,读起来非常有趣.我一直想翻译这篇博客,在 ...
CNNs 在图像分割中应用简史: 从R-CNN到Mask R-CNN
作者:嫩芽33出处:http://www.cnblogs.com/nenya33/p/6756024.html 版权:本文版权归作者和博客园共有转载:欢迎转载,但未经作者同意,必须保留此段声明:必须 ...

随机推荐

Ubuntu20安装Truffle框架并部署第一个DApp
1.查看Ubuntu版本信息 $ screenfetch 2.安装node ①查看nodejs官网稳定版(LTS)版本号(下面的14就是此时的版本号) ②添加源 $ curl -sL https:// ...
hdu1043 经典的八数码问题逆向bfs打表 + 逆序数
题意: 题意就是八数码,给了一个3 * 3 的矩阵,上面有八个数字,有一个位置是空的,每次空的位置可以和他相邻的数字换位置,给你一些起始状态 ,给了一个最终状态,让你输出怎么变换才能达到目的. 思路: ...
Android的so库注入
作者:Fly2015 Android平台的so库的注入是有Linux平台的进程注入移植来的.由于Android系统的底层实现是基于Linux系统的源码修改而来,因此很多Linux下的应用可以移植到An ...
在 GitHub 学习，成长为自己想要的样子｜HelloGitHub 访谈
万事开头难,我们经过长期的策划和筹备,终于推出了 HelloGitHub 采访系列「开源项目作者的访谈」.这是一个采访个人开源项目作者的栏目,内容侧重于开源项目作者与开源的故事. 我们深知想要做好一个 ...
.NET Core-全局性能诊断工具
前言: 现在.NET Core 上线后,不可避免的会出现各种问题,如内存泄漏.CPU占用高.接口处理耗时较长等问题.这个时候就需要快速准确的定位问题,并解决. 这时候就可以使用.NET Core 为开 ...
7个IntelliJ IDEA必备插件，提高编码效率
1. FindBugs-IDEA 作用: 检测代码中可能的bug及不规范的位置,写完代码后检测下避免低级bug. 静态分析工具承诺无需开发人员费劲就能找出代码中已有的缺陷.当然,如果有多年的编写经验 ...
Windows bat批处理删除指定N天前的文件
1:新建批处理文件:del_old_file.bat,更改系统时间为7天前,在c盘sql back 目录下新建测试文件,再将系统时间改为正确时间 2:编辑内容: rem 删除C:\sql back目录 ...
opencv——几何变换原理与实现
摘要图像几何变换又称为图像空间变换, 它将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置.几何变换不改变图像的像素值, 只是在图像平面上进行像素的重新安排. 几何变换大致分为仿射变换.投影变换. ...
第一周JVM核心技术-工具与GC策略
一. JDK工具 1.1 内置命令行工具工具简介 jps/jinfo 查看java进程 jstat 查看JVM内部GC信息 jmap 查看JVM堆或类占用空间信息 jstack 查看线程信息 jc ...
逆向工程初步160个crackme-------6
工具:1. 按钮事件地址转换器E2A 2. PEID 3. Ollydbg 同样我们先来运行一下这个程序, ok按钮是被禁用的,有一个help按钮点击后弹出一个消息框:消息框显示提示信息为.本程序需要 ...

Mask-RCNN技术解析

Mask-RCNN技术解析的更多相关文章

随机推荐

热门专题