hard-negative mining 及伪代码实现】的更多相关文章

 Fast RCNN 中将与 groud truth 的 IoU 在 [0.1, 0.5) 之间标记为负例, [0, 0.1) 的 example 用于 hard negative mining. 在训练时一般输入为N=2张图片, 选择 128 个 RoI, 即每张图片 64 个 RoI. 每张图片, 按照1:3的比例来抽取的 RoI 的话, 要在负例中抽取 48 个, Fast RCNN 采用 random sampling 策略. hard negative example 首先我们看看…
Histogram of Oriented Gradients and Object Detection 获得 records 对于目标检测(object detection)问题,所谓的 hard-negative mining 针对的是训练集中的 negative training set(对于目标检测问题就是图像中非不存在目标的样本集合),对该负样本集中的每一副图像(的每一个可能的尺度),应用滑窗(sliding window)技术.对每次滑窗捕获的图像区域,计算该区域的 HOG 描述子,…
对于hard negative mining的解释,引用一波知乎: 链接:https://www.zhihu.com/question/46292829/answer/235112564来源:知乎 先要理解什么是hard negative R-CNN关于hard negative mining的部分引用了两篇论文: [17] P. Felzenszwalb, R. Girshick, D. McAllester, and D. Ramanan. Object detection with dis…
通过https://github.com/amdegroot/ssd.pytorch,结合论文https://arxiv.org/abs/1512.02325来理解ssd. ssd由三部分组成: base extra predict base原论文里用的是vgg16去掉全连接层. base + extra完成特征提取的功能.得到不同size的feature map,基于这些feature maps,我们再用不同的卷积核去卷积,分别完成类别预测和坐标预测. 基础特征提取网络 特征提取网络由两部分组…
SSD论文阅读(Wei Liu--[ECCV2016]SSD Single Shot MultiBox Detector) 目录 作者及相关链接 文章的选择原因 方法概括 方法细节 相关背景补充 实验结果 与相关文章的对比 总结 作者 intro: ECCV 2016 Oral arxiv: http://arxiv.org/abs/1512.02325 paper: http://www.cs.unc.edu/~wliu/papers/ssd.pdf slides: http://www.cs…
http://www.umiacs.umd.edu/~ejaz/ * 也是同时学习feature和metric * 输入一对图片,输出是否是同一个人 * 包含了一个新的层: include a layer that computes cross-input neighborhood differences (capture local relationships between the two input images based on midlevel features from each i…
最近在实验室和师兄师姐在做有关RCNN的研究,发现这里面坑很深呀,在网上找了一个大牛的博客,准备下来继追OPENCV同时,再来追一个RCNN的学习笔记的博文,博文地址如下:http://blog.csdn.net/column/details/ym-alanyannick.html,真的很感谢原作者提供这么好的学习资料,我就站在巨人的肩膀上总结学习下. ------------------------------------------------------------ 二次编辑: 继上次对R…
Deep Metric Learning via Lifted Structured Feature Embedding CVPR 2016 摘要:本文提出一种距离度量的方法,充分的发挥 training batches 的优势,by lifting the vector of pairwise distances within the batch to the matrix of pairwise distances. 刚开始看这个摘要,有点懵逼,不怕,后面会知道这段英文是啥意思的. 引言部分…
Is Faster R-CNN Doing Well for Pedestrian Detection? ECCV 2016   Liliang Zhang & Kaiming He 原文链接:http://arxiv.org/pdf/1607.07032v2.pdf Code : https://github.com/zhangliliang/RPN_BF/tree/RPN-pedestrian 摘要:行人检测被人 argue 说是特定课题,而不是general 的物体检测.虽然最近的深度物体…
Learning Multi-Domain Convolutional Neural Networks for Visual Tracking CVPR 2016 本文提出了一种新的CNN 框架来处理跟踪问题.众所周知,CNN在很多视觉领域都是如鱼得水,唯独目标跟踪显得有点“慢热”,这主要是因为CNN的训练需要海量数据,纵然是在ImageNet 数据集上微调后的model 仍然不足以很好的表达要跟踪地物体,因为Tracking问题的特殊性,至于怎么特殊的,且听细细道来. 目标跟踪之所以很少被 C…
Large Scale Visual Recognition Challenge 2015 (ILSVRC2015) Legend: Yellow background = winner in this task according to this metric; authors are willing to reveal the method White background = authors are willing to reveal the method Grey background…
By Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg. Introduction SSD is an unified framework for object detection with a single network. You can use the code to train/evaluate a network for o…
R-CNN论文翻译 Rich feature hierarchies for accurate object detection and semantic segmentation 用于精确物体定位和语义分割的丰富特征层次结构 2017-11-29 摘要         过去几年,在权威数据集PASCAL上,物体检测的效果已经达到一个稳定水平.效果最好的方法是融合了多种图像低维特征和高维上下文环境的复杂结合系统.在这篇论文里,我们提出了一种简单并且可扩展的检测算法,可以将mAP在VOC2012最…
SSD英文论文翻译 SSD: Single Shot MultiBoxDetector 2017.12.08    摘要:我们提出了一种使用单个深层神经网络检测图像中对象的方法.我们的方法,名为SSD,将边界框的输出空间离散化为一组默认框,该默认框在每个特征图位置有不同的宽高比和尺寸.在预测期间,网络针对每个默认框中的每个存在对象类别生成分数,并且对框进行调整以更好地匹配对象形状.另外,网络组合来自具有不同分辨率的多个特征图的预测,以适应处理各种尺寸的对象.我们的SSD模型相对于需要region…
摘要 近年来,深度学习方法在物体跟踪领域有不少成功应用,并逐渐在性能上超越传统方法.本文先对现有基于深度学习的目标跟踪算法进行了分类梳理,后续会分篇对各个算法进行详细描述. 看上方给出的3张图片,它们分别是同一个视频的第1,40,80帧.在第1帧给出一个跑步者的边框(bounding-box)之后,后续的第40帧,80帧,bounding-box依然准确圈出了同一个跑步者.以上展示的其实就是目标跟踪(visual object tracking)的过程.目标跟踪(特指单目标跟踪)是指:给出目标在…
转载请注明作者:梦里茶 Single Shot MultiBox Detector Introduction 一句话概括:SSD就是关于类别的多尺度RPN网络 基本思路: 基础网络后接多层feature map 多层feature map分别对应不同尺度的固定anchor 回归所有anchor对应的class和bounding box Model 输入:300x300 经过VGG-16(只到conv4_3这一层) 经过几层卷积,得到多层尺寸逐渐减小的feature map 每层feature m…
论文原址:https://arxiv.org/abs/1509.04874 github:https://github.com/CaptainEven/DenseBox 摘要 本文先提出了一个问题:如何将全卷积网络应用到目标检测中去?本文提出DenseBox,一个集成的FCN 框架可以直接在图像的位置上预测出目标物的边框及类别.本文两方面贡献:(1)FCN可以用于检测不同的目标(2)在多任务学习过程中结合landmark定位可以进一步提高对目标的检测的准确性. 介绍 本文只关注一个问题,即如何将…
Han Hu--[ICCV2017]WordSup_Exploiting Word Annotations for Character based Text Detection 作者和代码 caffe检测torch7识别代码 关键词 文字检测.多方向.直接回归.$$xywh\theta$$ .multi-stage.监督学习 方法亮点 采用单词.文本行的标注信息进行监督学习来辅助字符检测 在ICDAR2013数据集上F值90+,后来的方法能超过这篇文章的寥寥无几 方法概述 利用Faster RC…
XiangBai——[CVPR2017]Detecting Oriented Text in Natural Images by link Segments 目录 作者和相关链接 方法概括 方法细节 实验结果 方法的局限性 总结与收获点 作者和相关链接 作者 论文下载 石葆光, 白翔,Serge Belongie 方法概括 文章简述: 方法名字:SegLink 改进版的SSD用来解决多方向的文字检测问题 方法的性能 ICDAR15 Incidental: 0.75(f) MSRATD500: 0…
R-CNN全称为 Region-CNN,它是第一个成功地将深度学习应用到目标检测的算法,后续的改进算法 Fast R-CNN.Faster R-CNN都是基于该算法. 传统方法 VS R-CNN 传统的目标检测大多以图像识别为基础.一般是在图片上穷举出所有物体可能出现的区域框,然后对该区域框进行特征提取,运用图像识别方法进行分类,最后通过非极大值抑制输出结果. 传统方法最大的问题在特征提取部分,它基于经验驱动的人造特征范式,如haar.HOG.SIFT,并不能很好的表征样本. R-CNN思路大致…
本文是使用深度学习进行目标检测系列的第二篇,主要介绍SPP-net:Spatial Pyramid Pooling in Deep ConvolutionalNetworks for Visual Recognition,即空间金字塔池化网络,用以解决卷积神经网络中固定输入大小的问题. 一.算法动机及尝试解决的问题 1. 传统的卷积神经网络的输入通常是一个固定大小(比如\(224x224\)的图像,因此当我们任意输入一张图像时需要对其进行缩放,作者认为这种手动的缩放可能会降低识别精度: 2. 在…
目标检测(object detection)是计算机视觉中非常具有挑战性的一项工作,一方面它是其他很多后续视觉任务的基础,另一方面目标检测不仅需要预测区域,还要进行分类,因此问题更加复杂.最近的5年使用深度学习方法进行目标检测取得了很大的突破,因此想写一个系列来介绍这些方法.这些比较重要的方法可以分成两条主线,一条是基于区域候选(region proposal)的方法,即通过某种策略选出一部分候选框再进行后续处理,比如RCNN-SPP-Fast RCNN-Faster RCNN-RFCN等:另一…
论文:Working hard to know your neighbor’s margins: Local descriptor learning loss  为什么介绍此文:这篇2018cvpr文章主要是从困难样本入手,提出的一个loss,简单却很有效,在图像匹配.检索.Wide baseline stereo等都做了大量详细实验,在真实任务中真正取得了state-of-the-art的结果.代码:https://github.com/DagnyT/hardnet .上一篇博客中的论文可以和…
就是想保存下来,没有其他用意 原博文:http://blog.csdn.net/qq_26898461/article/details/53467968 3. 空间定位与检测     参考信息<基于深度学习的目标检测研究进展> 3.1 计算机视觉任务 3.2 传统目标检测方法 传统目标检测流程: 1)区域选择(穷举策略:采用滑动窗口,且设置不同的大小,不同的长宽比对图像进行遍历,时间复杂度高) 2)特征提取(SIFT.HOG等:形态多样性.光照变化多样性.背景多样性使得特征鲁棒性差) 3)分类…
原博文:http://www.cnblogs.com/soulmate1023/p/5530600.html 文章简要介绍RCNN的框架,主要包含: 原图-->候选区域生成-->对每个候选区域利用深度学习网络进行特征提取-->特征送入每一类SVM分类器中判别-->回归器修正候选框位置 经典图: 下面对每一个步骤详细分析: 1.候选区域生成: 使用Selective Search(选择性搜索)方法从一张图片中生成许多小图,Selective Search是先用过分割手段将图片完全分割…
论文源址:https://arxiv.org/abs/1512.02325 tensorflow代码:https://github.com/balancap/SSD-Tensorflow 摘要 SSD也为单阶段的网络,在feature map的每个feature map像素上生成一系列不同尺寸与大小的默认框,预测时,网络输出的分数代表每个默认框中目标物的类别,同时,调整框的大小与目标物的外形更加匹配.针对不同尺寸大小的物体,网络结合不同的网络层(具有不同的分辨率)的预测值.相对于提取目标prop…
1.       对比损失函数(Contrastive Loss function) 孪生架构的目的不是对输入图像进行分类,而是区分它们.因此,分类损失函数(如交叉熵)不是最合适的选择,这种架构更适合使用对比函数.对比损失函数如下: (以判断图片相似度为例)其中Dw被定义为姐妹孪生网络的输出之间的欧氏距离.Y值为1或0.如果模型预测输入是相似的,那么Y的值为0,否则Y为1.m是大于0的边际价值(margin value).有一个边际价值表示超出该边际价值的不同对不会造成损失. Siamese网络…
项目地址 Abstract 该技术报告主要介绍了作者对 YOLOv1 的一系列改进措施(注意:不是对YOLOv2,但是借鉴了YOLOv2中的部分改进措施).虽然改进后的网络较YOLOv1大一些,但是检测结果更精确,运行速度依然很快.在输入图像分辨率为320*320时,YOLOv3运行耗时22ms,mAP达到28.2,这和SSD一样精确,但是速度比SSD快三倍.当我们使用旧的检测指标0.5 IOU mAP(IOU阈值取为0.5,然后比较mAP)时,YOLOv3依旧表现得相当好.在一个 Titan…
作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 以前的CNNs都要求输入图像尺寸固定,这种硬性要求也许会降低识别任意尺寸图像的准确度.为避免这个问题,何凯明等人在该论文中提出了一种池化策略,"spatial pyramid pooling(SSP)",即空间金字塔池化.带有该池化层的网络被称为SPPnet,对任何尺寸的输入图像都能生成固定长度的特征表示.由此可见,理论上SPPnet可以改进所有基于CNN的图像分类等方法中…
作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik 该论文提出了一种简单且可扩展的检测算法,在VOC2012数据集上取得的mAP比当时性能最好的算法高30%.算法主要结合了两个key insights: (1)可以将高容量的卷积神经网络应用到自底向上的Region proposals(候选区域)上,以定位和分割目标 (2)当带标签的训练数据稀少时,可以先使用辅助数据集进行有监督的预训练,然后再使用训练集对网络的特定范围进行微调,…