论文原址:https://arxiv.org/pdf/1904.08900.pdf github:https://github.com/princeton-vl/CornerNet-Lite 摘要 基于关键点模式进行目标检测是一种新的方法,他并不需要依赖于anchor boxes,是一种精简的检测网络,但需要大量的预处理才能得到较高的准确率.本文提出CornerNet-Lite,是CornerNet两种变形的组合,一个是CornerNet-Saccade,基于attention机制,从而并不需要…
论文原址:https://arxiv.org/abs/1901.08043 github: https://github.com/xingyizhou/ExtremeNet 摘要 本文利用一个关键点检测网络来检测目标物的最左边,最右边,顶部,底部及目标物中心五个点.如果这几个点在几何空间上对齐,则生成一个边界框.目标检测进而演变为基于外形的关键点检测问题,不需要进行区域分类及复杂的特征学习. 介绍 Top-Down方法占据目标检测中的主要地位,一些流行的目标检测算法通过直接裁剪区域或者特征,或者…
论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要 本文提出了目标检测算法的新的模型结构,利用单个卷积网络将框的左上角及右下角两个点组成一对关键点,进而不需要设计在单阶段检测中大量的anchor boxes,同时,引入了corner pooling用于提升角点定位效果. 介绍 单阶段检测通过密集的anchor box及后续的增强定位来获得好的检测效果,但使用an…
论文原址:https://arxiv.org/abs/1904.01169 摘要 视觉任务中多尺寸的特征表示十分重要,作为backbone的CNN的对尺寸表征能力越强,性能提升越大.目前,大多数多尺寸的表示方法是layer-wise的.本文提出的Res2Net通过在单一残差块中对残差连接进行分级,进而可以达到细粒度层级的多尺度表征,同时,提高了网络每层的感受野大小.该Res2Net结构可以嵌入到其他网络模型中. 介绍 在自然场景中,视觉模式经常表现多尺寸特征.如下图所示,(1)一张图片中可能会存…
论文原址:https://arxiv.org/abs/1509.04874 github:https://github.com/CaptainEven/DenseBox 摘要 本文先提出了一个问题:如何将全卷积网络应用到目标检测中去?本文提出DenseBox,一个集成的FCN 框架可以直接在图像的位置上预测出目标物的边框及类别.本文两方面贡献:(1)FCN可以用于检测不同的目标(2)在多任务学习过程中结合landmark定位可以进一步提高对目标的检测的准确性. 介绍 本文只关注一个问题,即如何将…
论文原址:https://arxiv.org/pdf/1811.05181.pdf github:https://github.com/libuyu/GHM_Detection 摘要 尽管单阶段的检测器速度较快,但在训练时存在以下几点不足,正负样本之间的巨大差距,同样,easy,hard样本的巨大差距.本文从梯度角度出发,指出了上面两个不足带来的影响.然后,作者进一步提出了梯度协调机制(GHM)用于避开上面的不足.GHM的思想可以嵌入到用于分类的交叉熵损失或者用于回归的Smooth-L1损失中,…
论文原址:https://arxiv.org/abs/1904.03797 摘要 FoveaBox属于anchor-free的目标检测网络,FoveaBox直接学习可能存在的图片种可能存在的目标,这期间并不需要anchor作为参考.主要靠两方面实现:(1)产生类别敏感的语义map用于表示目标物存在的可能性.(2)在每个可能存在目标物的位置生成与类别无关的边界框.目标边框的尺寸与对应输入图片的特征金字塔的表示相关. 介绍 目标检测主要包含两个任务:定位及识别,输入一张图片,检测系统需要判断是否有预…
Introduction (1)Motivation: 大量标记数据成本过高,采用半监督的方式只标注一部分的行人,且采用单样本学习,每个行人只标注一个数据. (2)Method: 对没有标记的数据生成一个伪标签(pseudo labels),将标记的数据和部分伪标签的数据作为扩充数据集进行训练. 但这种方法引入了很多不可信的训练样本,制约了训练模型的性能. (3)Contribution: ① 为了在单样本学习中更好的利用未标签数据,提出了步进学习方法EUG(Exploit the Unknow…
论文原址:https://arxiv.org/abs/1811.07275 摘要 一个训练好的网络模型由于其模型捕捉的特征中存在大量的重叠,可以在不过多的降低其性能的条件下进行压缩剪枝.一些skip/Dense网络结构一定程度上减弱了重叠的现象,但这种做法引入了大量的计算及内存.本文从更改训练方式的角度来解决上述问题.本文发现,通过对模型进行临时裁剪,并对一定的filter进行恢复,重复操作,可以减少特征中的重叠效应,同时提高了模型的泛化能力.本文证明当前的压缩标准在语义上并不是最优的,本文引入…
论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4)  摘要 本文提出了一个深层的卷积网络结构-Inception,该结构的主要特点是提高了网络内部计算资源的利用率.在预估计算资源消耗量不变的情况下增加网络的深度及宽度.为了进行有效的优化,结构决策基于Hebbian原理及多尺寸处理操作.本文思想的一个经典实现是GoogLeNet,网络的深度为22层,该网…