论文阅读：Adaptive NMS: Refining Pedestrian Detection in a Crowd

2019年04月11日 23:08:02 Kivee123 阅读数 836

本文链接：https://blog.csdn.net/qq_37014750/article/details/89222334

Adaptive-NMS（CVPR 2019）

文章
又是一篇在NMS上面做文章的paper。。读完之后感觉，哇！自己再想的深一点也能想出来呀，可是想出来和做出好效果真是两码事。。尤其是没有人告诉你这个idea的价值只能靠自己判断的时候。扯远了。。。还是说一说这篇文章吧。
NMS是目前基于深度学习的目标检测模型的重要的后处理步骤，针对目标检测来讲，NMS具体操作就是将所有检测结果（设为集合A）中score最大的结果取出来加入到最后的检测结果集合（设为集合B），然后将A中其它检测结果i中与该结果进行比较，如果如该结果的相似度（往往使用IoU）超过一个阈值就将i从A中去掉。重复上述操作，直到A为空空集，伪代码如下（greedy-NMS就是普通的NMS）：

然而普通NMS的问题在于，如果两个ground truth本身就有overlap的话，这个时候就不好办了，如果overlap较小，没有问题，但如果overlap较大呢？比crowd这种场景，这时候要想能检测出两个gt，只能设置较大的阈值来保证较小score的结果不被抑制。可矛盾在于，在crowd这种情况下，人群有时候密集有时候稀疏，高的阈值又会导致对于稀疏的情况下产生过多的False Positive（即被错认为positive的结果）。为了尝试解决这个问题呢，ICCV 2017一篇soft-NMS横空出世（靠一行代码就发了ICCV，牛逼。。。。）。soft-NMS的思想是，NMS所谓的“抑制”可以看做将检测结果的分数置0了，从而就不要该结果了，那么可不可以不置0，而是减小score呢，不过是IoU越大，score减小的越多。

为什么可以这样弄呢？其实细想一下，虽然会存在gt之间存在overlap的情况，但我们的目的是抑制那些overlap更大的（比如有三个结果ABC,分数分别为0.9,0.8,0.7，其中AC是正确结果，A和B的overlap大于A和C的，这样经过一轮NMS后BC的分数可能就变了0.6，0.5，从而将B抑制了）最后实验证明。。。这个想法还真有效！
这篇论文呢，针对crowd中的行人检测这一特殊的应用场景，对soft-NMS又进行了优化，使得在人群密集的地方，NMS阈值较大，而人群稀疏的地方NMS阈值较小。但是问题在于怎么判断人群是否密集，又怎么根据密集程度定NMS阈值呢？对于第一个问题。。。当然是用CNN啦！于是文章就定义了第i个物体处的密度如下：

因此在训练CNN时，每次还需要求出密度作为监督信号，训练网络能够拟合这个密度函数，即输入一张图片，能输出每个位置的物体密度，但这个参数怕是作者调了不短的时间，模型如下：

有了密度之后，soft-NMS就改进成了

emmmm，文章的方法就是这样，感觉也是很自然的发现一个问题然后想办法去解决，不过个人以为这个模型恐怕真不好调参。