论文原址:https://arxiv.org/abs/1903.00621 摘要 本文提出了基于无anchor机制的特征选择模块,是一个简单高效的单阶段组件,其可以结合特征金字塔嵌入到单阶段检测器中.FSAF解决了传统基于anchor机制的两个限制:(1)启发式的特征选择(2)overlap-based anchor采样.FSAF的通用解释是将在线特征选择应用于与anchor无关的分支的训练上.即无anchor的分支添加到特征金字塔的每一层,从而可以以任意层次对box进行编码解码.训练过程中,将…
论文源址:https://arxiv.org/pdf/1703.06870.pdf 开源代码:https://github.com/matterport/Mask_RCNN 摘要 Mask R-CNN可以在进行检测的同时,进行高质量的分割操作.基于Faster R-CNN并进行扩展,增加了一个分支在进行框识别的同时并行的预测目标的mask.Mask R-CNN易于训练,相比Faster R-CNN增加了一点点花销.此外,Mask R-CNN可以很容易扩展至其他任务中.如关键点检测.本文在COCO…
论文源址:https://arxiv.org/abs/1504.08083 参考博客:https://blog.csdn.net/shenxiaolu1984/article/details/51036677 摘要 该文提出了一个快速的基于区域框的卷积网络用于目标检测任务.Fast RCNN使用深度卷积网络对proposals进行分类.相比先前的工作,Fast R-CNN在提高准确率的基础上提高了训练和测试的速度.在VGG19的网络中,Fast R-CNN训练时间比R-CNN快9倍,而测试要快2…
论文原址:https://arxiv.org/abs/1901.08043 github: https://github.com/xingyizhou/ExtremeNet 摘要 本文利用一个关键点检测网络来检测目标物的最左边,最右边,顶部,底部及目标物中心五个点.如果这几个点在几何空间上对齐,则生成一个边界框.目标检测进而演变为基于外形的关键点检测问题,不需要进行区域分类及复杂的特征学习. 介绍 Top-Down方法占据目标检测中的主要地位,一些流行的目标检测算法通过直接裁剪区域或者特征,或者…
Introduction (1)Motivation: 当前的行人重识别方法都只能在标准的数据集上取得好的效果,但当行人被遮挡或者肢体移动时,往往效果不佳. (2)Contribution: ① 提出了一个基于区域的适应性质量估计网络(adaptive region-based quality estimation network,RQEN),包含了区域性特征提取模块和基于区域的质量预测模块.其旨在减小低质量图像区域的影响,利用序列中的区域互补. ② 提供了一个大规模的较整洁的数据集:Label…
论文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要 在PASCAL VOC数据集上,最好的方法的思路是将低级信息与较高层次的上下文信息进行结合.该文的两个亮点:(1)将CNN应用到region proposals 用于对目标物体的定位.(2)对于较少数量的标签数据,先在规模较大的数据集上进行有监督的预训练,然后针对特定场景进行微调,发现性能提升的较大.R-CNN:region with CNN features 介绍 特征问题:视觉…
论文阅读笔记(十七)ICCV2017的扩刊(会议论文[传送门]) 改进部分: (1)惩罚函数:原本由两部分组成的惩罚函数,改为只包含 Sequence Cost 函数: (2)对重新权重改进: ① Positive Re-Weighting: 其中 若太大,则选择的样本标签的可信度小:若太小,则样本数量不足以进行矩阵学习,因此设置如下的: 其中,σ为 [0, 1],如果 σ = 1,则说明充分相信样本估计的可信度,反之设置为 σ = 0. ② Negative Re-Weighting: 对于所…
Introduction (1)问题描述: super resolution(SP)问题:Gallery是 high resolution(HR),Probe是 low resolution(LR). (2)当前存在的问题: ① 当前的半耦合(semi-coupled)矩阵学习是解决SR复原,而不是直接进行行人重识别: ② 行人图片存在噪声,直接使用半耦合矩阵学习无法很好的刻画特征空间. (3)Contribution: ① 提出一个新的半耦合低秩判别矩阵学习方法(semi-coupled lo…
Introduction (1)Motivation: 大量标记数据成本过高,采用半监督的方式只标注一部分的行人,且采用单样本学习,每个行人只标注一个数据. (2)Method: 对没有标记的数据生成一个伪标签(pseudo labels),将标记的数据和部分伪标签的数据作为扩充数据集进行训练. 但这种方法引入了很多不可信的训练样本,制约了训练模型的性能. (3)Contribution: ① 为了在单样本学习中更好的利用未标签数据,提出了步进学习方法EUG(Exploit the Unknow…
论文原址:https://arxiv.org/abs/1808.08718 代码:https://github.com/JiahuiYu/wdsr_ntire2018 摘要 本文证明在SISR中在ReLU之前特征图越宽,在有效的计算资源及内存条件下,模型的性能越好.本文提出的残差网络具有平滑的identity mapping pathway,在激活层之前,每个block含有2x,4x多的通道数.为了进行6x,9x的增宽,本文将低等级的卷积引入到超分辨网络中.对比有BN层无BN层,本文发现对权重正…
Model类,集中整个应用的数据和业务逻辑—— /** * Generates a user friendly attribute label based on the give attribute name. * 生成一个对用户友好的属性标签,将属性名中的下划线.破折号.点替换为空格,并且每个单词的首字母大写 * This is done by replacing underscores, dashes and dots with blanks and * changing the first…
论文原址:https://arxiv.org/abs/1509.04874 github:https://github.com/CaptainEven/DenseBox 摘要 本文先提出了一个问题:如何将全卷积网络应用到目标检测中去?本文提出DenseBox,一个集成的FCN 框架可以直接在图像的位置上预测出目标物的边框及类别.本文两方面贡献:(1)FCN可以用于检测不同的目标(2)在多任务学习过程中结合landmark定位可以进一步提高对目标的检测的准确性. 介绍 本文只关注一个问题,即如何将…
论文原址:https://arxiv.org/pdf/1811.05181.pdf github:https://github.com/libuyu/GHM_Detection 摘要 尽管单阶段的检测器速度较快,但在训练时存在以下几点不足,正负样本之间的巨大差距,同样,easy,hard样本的巨大差距.本文从梯度角度出发,指出了上面两个不足带来的影响.然后,作者进一步提出了梯度协调机制(GHM)用于避开上面的不足.GHM的思想可以嵌入到用于分类的交叉熵损失或者用于回归的Smooth-L1损失中,…
论文原址:https://arxiv.org/pdf/1904.08900.pdf github:https://github.com/princeton-vl/CornerNet-Lite 摘要 基于关键点模式进行目标检测是一种新的方法,他并不需要依赖于anchor boxes,是一种精简的检测网络,但需要大量的预处理才能得到较高的准确率.本文提出CornerNet-Lite,是CornerNet两种变形的组合,一个是CornerNet-Saccade,基于attention机制,从而并不需要…
论文原址:https://arxiv.org/pdf/1808.01244.pdf github:https://github.com/princeton-vl/CornerNet 摘要 本文提出了目标检测算法的新的模型结构,利用单个卷积网络将框的左上角及右下角两个点组成一对关键点,进而不需要设计在单阶段检测中大量的anchor boxes,同时,引入了corner pooling用于提升角点定位效果. 介绍 单阶段检测通过密集的anchor box及后续的增强定位来获得好的检测效果,但使用an…
论文原址:https://arxiv.org/abs/1810.08425 github:https://github.com/KimSoybean/ScratchDet 摘要 当前较为流行的检测算法是在经典的大规模分类的数据集上进行微调,但这样做会存在两个问题: (1)分类任务与检测任务二者之间对位置的敏感性差异较大,进而造成了优化目标之间存在偏差. (2)目标检测的结构受制于分类模型,进而造成对模型修改上的不便. 为了应对上面的这两个问题,从头重新训练检测器是一种可行的方法.但这种方法又存在…
论文原址:https://arxiv.org/pdf/1809.08545.pdf github:https://github.com/yihui-he/KL-Loss 摘要 大规模的目标检测数据集在进行ground truth 框标记时仍存在这歧义,本文提出新的边界框的回归损失针对边界框的移动及位置方差进行学习,此方法在不增加计算量的基础上提高不同结构定位的准确性.而学习到的位置变化用于在进行NMS处理时合并两个相邻的边界框. 介绍 在大规模目标检测数据集中,一些场景下框的标记是存在歧义的,十…
论文原址:https://arxiv.org/abs/1901.03278 github:code will be available 摘要 区域anchor是现阶段目标检测方法的重要基石.大多数好的目标检测算法都依赖于anchors机制,通过预定义好的尺寸及大小在空间位置上进行均匀的采样.本文提出了一个可替换的解决方案-Guided Anchoring,该方法利用语义特征对anchor进行引导.该方法预测感兴趣目标物的中心的同时预测不同位置处的长宽尺寸及比例大小.在得到anchor的形状之后,…
论文原址:https://arxiv.org/abs/1708.02002 github代码:https://github.com/fizyr/keras-retinanet 摘要 目前,具有较高准确率的检测器基于双阶段的目标检测算法实现,单阶段通过对可能存在的位置进行密集的采样操作,一定程度上要比双阶段的方法要更简单快速,但是准确率会有所损失.在进行训练时,前景与背景二者之间较大的类别不平衡是产生上述问题的原因.针对上述问题,本文对常规的损失函数进行修改,降低易分类样本产生的损失的贡献度.本文…
论文原址:https://arxiv.org/pdf/1409.4842.pdf 代码连接:https://github.com/titu1994/Inception-v4(包含v1,v2,v4)  摘要 本文提出了一个深层的卷积网络结构-Inception,该结构的主要特点是提高了网络内部计算资源的利用率.在预估计算资源消耗量不变的情况下增加网络的深度及宽度.为了进行有效的优化,结构决策基于Hebbian原理及多尺寸处理操作.本文思想的一个经典实现是GoogLeNet,网络的深度为22层,该网…
论文源址:https://arxiv.org/abs/1811.11168 摘要 可变形卷积的一个亮点是对于不同几何变化的物体具有适应性.但也存在一些问题,虽然相比传统的卷积网络,其神经网络的空间形状更接近于目标物体的形状,但有时会超出ROI区域,从而引入不相关的图像信息进而对提取的特征造成影响.为此,本文提出了改造后的可变形卷积,通过增加建模及更强的训练来改善其聚焦图像相关区域的能力.通过在网路中引入更多的可变形卷积,同时,引入调制机制来扩大可变形的范围.为了有效的利用丰富的建模能力,通过一个…
论文源址:https://arxiv.org/abs/1704.05776 开源代码:https://github.com/xiaohaoChen/rrc_detection 摘要 大多数目标检测及定位算法基于R-CNN类型的两阶段处理方法,第一阶段生成可行区域框,第二步对决策进行增强.尽管简化了训练过程,但在benchmark获得较高mAP的结果下,单阶段的检测方法仍无法匹敌两阶段的方法. 本文提出了一个新的单阶段的目标检测网络用于克服上述缺点,称为循环滚动卷积结构,在多尺寸feature m…
论文源址:https://arxiv.org/abs/1703.06211 开源项目:https://github.com/msracver/Deformable-ConvNets 摘要 卷积神经网络由于其构建时固定的网络结构,因此只能处理模型的几何变换问题.本文主要介绍了两种增强CNN模型变换的模型,称为可变形卷积及可变形RoI pooling.二者都基于一种思路,通过额外增加模型的偏移及根据目标任务对此偏移量进行学习来增强空间采样位置.新模型可以取代CNN中的原有模型,可以通过反向传播算法进…
论文源址:https://arxiv.org/abs/1605.06409 开源代码:https://github.com/PureDiors/pytorch_RFCN 摘要 提出了基于区域的全卷积网络,用于精确高效的目标检测,相比于基于区域的检测器(Fast/Faster R-CNN),这些检测器重复的在子区域进行数百次计算,而本文在整张图像上进行共享计算.因此,本文提出了基于位置敏感分数图用于解决图像分类中的平移不变性及目标检测中的平移可变性之间的矛盾.将图像分类网络处理为全卷积网络用于目标…
论文源址:https://arxiv.org/abs/1701.06659 开源代码:https://github.com/MTCloudVision/mxnet-dssd 摘要 DSSD主要是向目标检测结构中增加语义信息.本文首先结合ResNet-101与SSD,然后,在此基础上添加反卷积层用于增大目标检测中的语义信息,从而提高目标物体尤其是小物体检测的准确率.本文主要研究在前向过程中添加附加单元至可学习模型中,本文主要指在前馈过程中反卷积与训练的模型输出之间的连接. 介绍 本文结构 SSD+…
论文源址:https://pjreddie.com/media/files/papers/YOLOv3.pdf 代码:https://github.com/qqwweee/keras-yolo3 摘要 本文针对YOLO再次改进,训练更大的网络,准确率也有所提高.在320x320的输入上YOLOv3运行22ms,mAP为28.2,与SSD的准确率相同,但比SSD快三倍.在使用0.5 IOU作为检测机制时,YOLOv3仍表现很好.在Titan X上实现57.9 AP50 51ms的运行,而Retin…
论文源址:https://arxiv.org/abs/1710.08864 tensorflow代码: https://github.com/Hyperparticle/one-pixel-attack-keras 摘要 在对网络的输入上做点小处理,就可以改变DNN的输出结果.本文分析了一种极限条件下的攻击情形,只改变一个输入中的一个像素使网络的输出发生改变.本文提出了一个基于差分进化生成单像素的对抗性扰动.可以以最小攻击信息的条件下,对更多类型的网络进行欺骗.结果表明,CIFAR-10测试集上…
论文源址:https://arxiv.org/abs/1512.02325 tensorflow代码:https://github.com/balancap/SSD-Tensorflow 摘要 SSD也为单阶段的网络,在feature map的每个feature map像素上生成一系列不同尺寸与大小的默认框,预测时,网络输出的分数代表每个默认框中目标物的类别,同时,调整框的大小与目标物的外形更加匹配.针对不同尺寸大小的物体,网络结合不同的网络层(具有不同的分辨率)的预测值.相对于提取目标prop…
论文源址:https://arxiv.org/abs/1506.02640 tensorflow代码:https://github.com/nilboy/tensorflow-yolo 摘要 该文提出一种新的目标检测网络,yolo,以前的目标检测问题偏向于分类,而本文将目标检测看作是带有类别分数的回归问题.yolo从整张图上预测边界框和类别分数.是单阶段网络,可以进行端到端的训练.yolo处理速度十分迅速,每秒处理45帧图片.yolo在准确率上有待提升,但很少预测出假正的样例. 介绍 yolo的…
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要 深度卷积网络需要输入固定尺寸大小的图片(224x224),这引入了大量的手工因素,同时,一定程度上,对于任意尺寸的图片或者子图会降低识别的准确率.SPP-net对于任意大小的图片,可以生成固定长度的特征表述.SPP-net对于变形的图片仍有一定的鲁棒性.基于上述优点,SPP-net会提高基于CNN的图像分类的效果. S…