CSP将目标定义为中心点和尺寸，通过网络直接预测目标的中心和寸尺，相对于传统的RCNN类型检测算法轻量化了不少。整体思想与Object as Points撞车了，真是英雄所见略同

来源：晓飞的算法工程笔记公众号

论文: Center and Scale Prediction: A Box-free Approachfor Pedestrian and Face Detection(High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection)

Introduction

目前一些研究基于深度卷积网络进行边缘检测，获得了不错的效果。论文认为既然卷积网络能够预测边缘，那网络必然也能预测物体的中心点及其尺寸。于是论文将检测的目标定义为中心点及尺寸，提出了CSP(Center and Scale Prediction)

CSP的网络结构大致如图1所示，在主干网络上分别预测目标中心点的位置及其对应的尺寸。这篇文章的整体思想与CenterNet(zhou. etc)基本一致，但不是抄袭，因为是同一个会议上的论文，CenterNet主要研究常规的目标检测，而这篇主要研究人脸检测和行人检测。但CSP仍然需要进行NMS的后处理，较CenterNet更逊色一些，但不妨碍我们进行简单地了解，包括学习论文的训练方法以及参数。

Overall architecture

CSP检测算法的结构如图2所示，主干网络由ImageNet的预训练网络截断所得，主要分为特征提取部分以及预测部分。

Feature Extraction

以ResNet-50为例，卷积层分为五个阶段，下采样比例分别为2、4、8、16和32，论文进行了以下修改与设置：

将第五阶段的卷积更换为空洞卷积，使其保持下采样比例为16。
为了融合浅层和高层特征，在Concatenate前将多阶段输出进行反卷积扩大至同一分辨率。
由于不同阶段特征图的分辨率不同，使用L2-normalization将各阶段特征图的范数缩放为10。
论文通过实验最终只选用了第3、第4和第5阶段的特征进行检测。
给定大小为\(H\times W\)的输入图片，最终的concatenated特征图大小为\(H/r \times W/r\)，r为4时性能最好。

Detection Head

在获得concatenated特征图\(\Phi_{det}\)后，使用简单的detection head将特征转化为检测结果。首先采用\(3\times 3\)卷积层输出256维特征，然后分别使用\(1\times 1\)卷积层来产生偏移值预测，尺寸图和中心点热图。

Training

Ground Truth

给定GT标注，能够自动地生成对应的GT中心点位置和尺寸。将GT标注对应特征图上的位置设定为中心点正样本，其它位置均为负样本。尺寸可定义为目标的高和宽，对于使用line annotation标注的行人数据集，其长宽比固定为0.41，仅需预测高度即可。对于GT尺寸，正样本位置\(k\)的值定义为\(log(h_k)\)，在其半径范围2以内的位置也设为同样的值，其余设置为零。而若加入偏移值预测分支，该分支的GT定义为\((\frac{x_k}{r}-\lfloor \frac{x_k}{r}\rfloor, \frac{y_k}{r}-\lfloor
\frac{y_k}{r} \rfloor )\)。

Loss Function

对于中心点预测分支，将其视为分类任务使用交叉熵损失进行训练。为了让训练更加平滑，跟CornerNet一样定义高斯核，在特征图上对GT点进行半径范围内的扩展：

\(K\)为图片中的目标数，\((x_k, y_k, w_k, h_k)\)为中心坐标以及宽高，方差\((\sigma^k_w, \sigma^k_h)\)与目标的高和宽成比例，如果高斯区域有重叠，则取最大值。为了防止正负样本极度不平衡，加入focal loss的权值进行平衡：

\(p_{ij}\in [0,1]\)代表网络预测该位置为目标中心的概率，\(y_{i,j}\in {0, 1}\)代表GT标签。

对于尺寸预测，将其视为回归任务使用smooth L1损失进行训练：

\(s_k\)和\(t_k\)分别代表网络预测结果和每个目标的GT。如果使用了偏移值分支，则同样将其视为回归任务进行训练。完整的优化目标为：

\(\lambda_c\), \(\lambda_s\), \(\lambda_o\)分别设置为0.01，1和0.1

Inference

在测试的时候，CSP直接进行简单的前向推理，保留中心热图中置信度大于0.01的位置及其尺寸结果，生成对应的预测框并映射到原图尺寸，对所有保留的预测结果进行NMS处理。如果使用了偏移值预测分支，则对映射后的中心点进行调整。

Conclusion

CSP将目标定义为中心点和尺寸，通过网络直接预测目标的中心和寸尺，相对于传统的RCNN类型检测算法轻量化了不少。整体思想与Object as Points撞车了，发表于同一期会议，真是英雄所见略同了。

如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】

CSP：Object as Point同会议论文，相似思想用于人脸和行人检测 | CVPR 2019的更多相关文章

[CVPR 2019]Normalized Object Coordinate Space for Category-Level 6D Object Pose and Size Estimation
论文地址:https://arxiv.org/abs/1901.02970 github链接:https://github.com/hughw19/NOCS_CVPR2019 类别级6D物体位姿 ...
Arbitrary-Oriented Object Detection with Circular Smooth Label（ECCV2020，旋转目标检测）
论文链接:https://arxiv.org/abs/2003.05597 code:https://github.com/Thinklab-SJTU/CSL_RetinaNet_Tensorflow ...
【TensorFlow】Win7下使用Object Detection API 训练自己的数据集，并视频实时检测
说明: 图片:自己开的摄像头,截取的图片.选择了200张图片.下面会有截取的脚本. 使用labelImg工具进行图片进行标注.产生PascalVOC格式的XML文件.[labelImg工具的安装和使用 ...
行人检测(Pedestrian Detection)资源
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...
目标检测之行人检测（Pedestrian Detection）---行人检测之简介0
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...
SIGAI深度学习第四集深度学习简介
讲授机器学习面临的挑战.人工特征的局限性.为什么选择神经网络.深度学习的诞生和发展.典型的网络结构.深度学习在机器视觉.语音识别.自然语言处理.推荐系统中的应用大纲: 机器学习面临的挑战特征工程的 ...
【计算机视觉】行人检测(Pedestrian Detection)资源
一.论文综述类的文章 [1]P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the stat ...
使用面向对象思想处理cookie
实例:使用面向对象思想处理cookie如果读者对cookie 不熟悉,可以在第七章学习它的使用方法,虽然在那里创建了几个通用函数用于cookie 的处理,但这些函数彼此分离,没有体现出是一个整体.联想 ...
Object类型知识总结，你掌握了多少？
Object类型 ECMAScript中的对象其实就是一组数据和功能的集合.对象可以通过执行new操作符后跟要创建的对象类型的名称来创建.而创建Object类型的实例并为其添加属性和(或)方 ...
论文阅读笔记五十三：Libra R-CNN: Towards Balanced Learning for Object Detection(CVPR2019)
论文原址:https://arxiv.org/pdf/1904.02701.pdf github:https://github.com/OceanPang/Libra_R-CNN 摘要相比模型的结构 ...

随机推荐

cmp命令
cmp命令 cmp命令用来比较两个文件是否有差异,当相互比较的两个文件完全一样时,则该指令不会输出任何信息,若发现有差异,预设会标示出第一个不同之处的字符和列数编号,若不指定任何文件名称或是所给予的文 ...
golang获取windows版本和详细信息
场景: 将木马丢到感染机运行后回连时希望返回感染机的操作系统信息.golang 可以通过runtime.OS获取到操作系统类型,但是无法获取详细的版本信息,如win7 win10等, 解决方案; 下面 ...
【Android 逆向】【攻防世界】APK逆向
1. apk安装到手机,提示输入flag 2. jadx打开apk 定位到checkSN方法 public boolean checkSN(String userName, String sn) { ...
解决Linux平台Selenium截图中文乱码问题
通常情况下,像CentOS这样的Linux发行版默认是缺少中文字体的,所以在执行Selenium截图时,如果目标网页中有中文,则截图后中文将会显示为方块一样的乱码. 解决办法:手动安装中文字体即可. ...
django中model聚合使用
from django.db.models.functions import Cast, Coalesce, Concat, ConcatPair, Greatest # Cast,类型转换 q1 = ...
2021 虎符杯hate num 注入题
前言今天遇到个有意思的SQL盲注,花了不少功夫,也学到了新姿势,遂记录下来以备后续碰到相同场景使用. 题目这是2021 虎符杯的一道web题,有一个目标站点且附带了源码. 源码内容包括: 主要逻辑 ...
PMP考试计算题汇总
第6章项目时间管理本节术语较多.涉及的工具&技术也不少. 主要包括活动定义.活动排序.活动资源估算.活动历时估算.进度制定.进度控制6个子过程. 1.1活动定义:就是对WBS的进一步分解. ...
C/C++ 的指针/引用传参
#include <stdio.h> //指针传值 void addOne(int *a) { printf("%8p\n",a); *a = *a+1; } //引用 ...
SpringCloud zookeeper和consul 的介绍和基本搭建
1. Spring Cloud 集成 zookeeper Spring Cloud 集成了 zookeeper ,通过一些简单的注释,就可以快速注册到zookeeper 服务中并且支持Spring ...
解决网页无法复制粘贴选中的问题显示vip无法复制解决方案
方法:先是按F12打开控制台点击console输入以下代码!!!! 解决网页禁止鼠标右键,无法被选中的第一种: javascript:(function() { function R(a){ona ...

CSP：Object as Point同会议论文，相似思想用于人脸和行人检测 | CVPR 2019