mask R-cnn, kaiming he的新作。可以同时完成object detection和segmentation,还可以做pose estimation,简直就是功能多多啊。在coco上测试,超过去年竞赛冠军的水平了,代码会在不久的将来放出来。

如果我没记错的话,facebook的feature cascade(????)在coco上效果是挺好的,但是换到pascal voc上效果就差了不少,这点一直没明白为什么。Mask R-cnn也是只在coco上做的实验,是他们不屑做pascal voc的实验还是又和cascade一样,又是只在coco上效果好?

自大一下,之前在做分割时也测试过,对每一个pixel的二类监督,以及做检测时也有这个,只是还没有分那么多类,那部分工作后来因为忙也没测试。

整体过了一遍文章,有几点需要记住:

1. 框架和faster rcnn是类似的,也就是说如果你不熟悉faster rcnn那么请先阅读faster rcnn

2. 模型主要是加入了mask这部分,就是对Regions,不仅仅进行object detection的监督学习,同时还细化到pixels的监督学习。object detection的监督学习就和faster rcnn类似了,主要是IOU是否大于阈值,以及分类类别是否和gt一致。而pixels的监督学习,是看看regions和segmentation gt的intersection,也是类似于IOU吧,只是计算方式不一样,这个是细化到pixels级别的。

3. RPN的参数并不共享,是先训练RPN,分开训练的mask rcnn,参数并不共享。文中说是为了convinent ablation,我猜测可能不好调试,效果不好?faster rcnn证明联调是好的,虽然理论上解释分开才收敛(汗)。

4. 实验部分做的几个小表格,结果值得注意的。分别分析了不同的模式,结果有什么差别。其中有一点是multinomial vs independent masks是说明了svm这种两类分类的效果要比一下子分好多类的效果好吗?还有class-specific vs class-agnostic masks,这点在google的multibox的工作中也有体现。只是这种好像更适用于不能联调的情况,如果模型可以做到end-to-end好像还是有class的更好的。ROIAlign,这个结果比warp或者pooling好了不少。不过文章中提到的感觉有点笼统,就是不像warp或者pooling那么近似的多了,通过插值,使得roi不发生那么大的偏移?这个大概是分割时特有需要注意的地方。等代码放出来再细看实现细节。

5. 模型的application的鲁棒性,就是同样的框架稍微有点变动就可以用在别的任务上了,其中一个实验就是pose estimation.说到这里,文章写得好像缺了concolusion,意思是这个章节就是concolusion了?恩,其实这么说的话,这个pose estimation也算是个坑。

6. 计算量的问题,8GPU,每个GPU是2minibatch.好像kaiming he在微软的工作是一样的,都是8GPU,因此并行起来16张图一起处理。只是这部分代码一直没公开,我估计这篇mask rcnn即使公开代码,也是一个单机版的。回到测试时间,5fps,还可以,反正比faster rcnn慢,但是这就要看应用和科研的需求了。tradeoff怎么选,当然要看另外一篇google的文章了,Speed/accuracy trade-offs for modern convolutional object detectors(话说,我好像当初还挖了个坑,一直没填,汗!)。

先说我理解到的这或许不算是文中精华的6点精华吧,上传一下文章中的图,结构很清晰,懂faster rcnn的自然就懂这张图了。

mask r-cnn的更多相关文章

  1. CVPR2020:三维实例分割与目标检测

    CVPR2020:三维实例分割与目标检测 Joint 3D Instance Segmentation and Object Detection for Autonomous Driving 论文地址 ...

  2. 谣言检测(RDEA)《Rumor Detection on Social Media with Event Augmentations》

    论文信息 论文标题:Rumor Detection on Social Media with Event Augmentations论文作者:Zhenyu He, Ce Li, Fan Zhou, Y ...

  3. ACL权限设置命令setfacl和getfacl命令

    ACL权限设置命令setfacl和getfacl命令 setfacl命令是用来在命令行里设置ACL(访问控制列表).在命令行里,一系列的命令跟随以一系列的文件名. [TOC] 选项 |参数|说明|   ...

  4. LVS + Keepalived + Nginx安装及配置

    1.概述 上篇文章<架构设计:负载均衡层设计方案(6)——Nginx + Keepalived构建高可用的负载层>(http://blog.csdn.net/yinwenjie/artic ...

  5. RCNN--对象检测的又一伟大跨越 2(包括SPPnet、Fast RCNN)(持续更新)

    继续上次的学习笔记,在RCNN之后是Fast RCNN,但是在Fast RCNN之前,我们先来看一个叫做SPP-net的网络架构. 一,SPP(空间金字塔池化,Spatial Pyramid Pool ...

  6. ipvsadm参数详解(常用命令)

    [root@localhost ipvsadm]# ipvsadm -h ipvsadm v1.24 2005/12/10 (compiled with popt and IPVS v1.2.1) U ...

  7. 行为识别(action recognition)相关资料

    转自:http://blog.csdn.net/kezunhai/article/details/50176209 ================华丽分割线=================这部分来 ...

  8. 架构设计:负载均衡层设计方案(7)——LVS + Keepalived + Nginx安装及配置

    1.概述 上篇文章<架构设计:负载均衡层设计方案(6)——Nginx + Keepalived构建高可用的负载层>(http://blog.csdn.net/yinwenjie/artic ...

  9. 架构设计:负载均衡层设计方案(5)——LVS单节点安装

    1.概述 上篇文章<架构设计:负载均衡层设计方案(4)——LVS原理>(http://blog.csdn.net/yinwenjie/article/details/46845997),我 ...

  10. 164. Maximum Gap

    题目: Given an unsorted array, find the maximum difference between the successive elements in its sort ...

随机推荐

  1. WCF rest 的帮助页面和缓存机制

    打开vs2010 在工具选项中选择扩展管理器——联机库 安装WCF REST Service Template 40(CS)模板 安装后新建wcf服务应用程序,删除默认建立的文件. 新建RestWcf ...

  2. 性能测试工具LoadRunner04-LR之浏览器打不开

    环境:win7+lr11 IE浏览器要在9以下,9以上lr11是调不起来的 火狐浏览器,我用的是28,最新版本的也调不起来 可以调起浏览器但没有事件? 1.把INTERNET高级设置中的“启用第三方浏 ...

  3. tinkphp3.2.3 关于事务处理。

    自己做一个测试,关于事务处理的. 在对多表进行操作的时候 基本上都离不开事务. 有的操作,是要由上一操作后,产的值(如主表里插入后,要获取插入的主键ID值,返回给下面处理表用.)带到后面的表处理当中去 ...

  4. linux_api之进程控制

    本篇索引: 1.引言 2.进程标识 3.多进程 4.fork函数 5.vfork函数 6.exit函数 7.wait和waitpid函数 8.竞态 9.exec函数族 10.进程状态 11.syste ...

  5. ZK使用

    1. 关注问题 1. zookeeper集群如何保证请求的均匀分布? 由client建立连接时会随机取server保证均匀分布, 2.已布置完成的ZK集群如何扩容? 修改配置后逐台重启即可 2. ZK ...

  6. phpmyadmin 开放远程登录的权限

    *linux下的修改* 在phpmyadmin.conf 加上如下试一下 <Directory "phpmyadmin路径">     AllowOverride No ...

  7. AutoResetEvent 2

    using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...

  8. .Net程序员学习Linux最简单的方法(转载)

    有很多关于Linux的书籍.博客.大多数都会比较“粗暴“的将一大堆的命令塞给读者,从而使很多.NET程序员望而却步.未入其门就路过了. 所以我设想用一种更为平滑的学习方式, 就是在学习命令时,先用纯语 ...

  9. CSS之background-image:在一个元素中设置给定数量的背景图片

    众所周知,可以通过设置background-repeat的值来改变背景图片的重复次数.但有一个问题,background-repeat的值不是让图片只有1个,就是让图片铺满.如果只想设置给定数量的图片 ...

  10. u-boot分析(二)----工作流程分析

    u-boot分析(二) 由于这两天家里有点事,所以耽误了点时间,没有按时更新,今天我首先要跟大家说说我对于u-boot分析的整体的思路,然后呢我以后的博客会按照这个内容更新,希望大家关注. 言归正传, ...