目录 0. 前言 1. 博客一 2.. 博客二 0. 前言   这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里转了两篇比较好的博客作为备忘. 1. 博客一 这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享. 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.031…
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的基本组件.但由于金字塔表征的特征需要消耗较多的内存及计算资源,因此,深度学习尽量避免使用金字塔特征.本文利用深度卷积网络中自带的多尺寸信息构建特征金字塔.本文搭建了具有横向连接的自上而下的结构FPN,从而在所有尺寸上构建高层次的语义特征.本文在Faster R-CNN的基础结构上增加了FPN结构,并…
https://vitalab.github.io/deep-learning/2017/04/04/feature-pyramid-network.html Feature Pyramid Networks for Object Detection Reviewed on Apr 4, 2017 by Frédéric Branchaud-Charron • https://arxiv.org/pdf/1612.03144.pdf Reference : T. Lin, P. Dollár,…
对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度.FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可以和经典网络组合提升原网络效果. 一.问题背景 网络的深度(对应到感受野)与总stride通常是一对矛盾的东西,常用的网络结构对应的总stride一般会比较大(如32),而图像中的小物体甚至会小于stride的大小,造成的结果就是小物体的检测性能急剧下降. 传统解决这个问题的思路包括: (1)多尺度…
Feature Pyramid Networks for Object Detection 特征金字塔网络用于目标检测 论文地址:https://arxiv.org/pdf/1612.03144.pdf 论文背景: 特征金字塔是用于检测不同尺寸物体的识别系统的基本组成部分.但是最近的深度学习目标检测方法避免了使用金字塔表示,部分原因在于它是计算和内存密集型的.Fast R-CNN和Faster R-CNN主张使用单一尺度计算特征,因为它提供了精确度与速度之间良好的折中,然而多尺度检测仍然表现更好…
论文地址:https://arxiv.org/pdf/1612.03144v2.pdf 代码地址:https://github.com/unsky/FPN 概述 FPN是FAIR发表在CVPR 2017上的一篇文章,采用特征金字塔的方法进行目标检测.文中利用深层卷积网络固有的多尺度金字塔层次结构,高效地构造特征金字塔.文章提出了FPN——一种具有横向连接的自顶向下的结构,来构建所有尺度上的高级语义特征映射. 网络结构 下图展示了几种不同的利用特征的方式:(a)为图像金字塔,就是对图像resize…
FPN-Feature Pyramid Networks for Object Detection 标签(空格分隔): 深度学习 目标检测 这次学习的论文是FPN,是关于解决多尺度问题的一篇论文.记录下论文笔记,欢迎交流.转载请注明网址:http://www.cnblogs.com/alanma/p/6884121.html 动机: 特征金字塔是多尺度目标检测系统的一个基本组成部分.但是,在最近的深度学习目标检测上,考虑到特征金字塔花费的计算和存储代价,都选择避免使用特征金字塔.问题的关键是寻找…
多尺度的object detection算法:FPN(feature pyramid networks). 原来多数的object detection算法都是只采用顶层特征做预测,但我们知道低层的特征语义信息比较少,但是目标位置准确:高层的特征语义信息比较丰富,但是目标位置比较粗略.另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,而本文不一样的地方在于预测是在不同特征层独立进行的. 下图FIg1展示了4种利用特征的形式: (a)图像金字塔,即将图像做成不同的scal…
Relation Networks for Object Detection笔记  写在前面:关于这篇论文的背景知识,请参考我前面的两篇随笔(<关于目标检测>和<关于注意力机制>) 摘要: 所有最先进的物体检测系统仍然依赖于单独识别物体实例, 在学习过程中并没有利用它们的关系.(背景) 这个工作提出了一个目标关系模块.它通过它们的外观特征和几何图形之间的交互来同时处理一组物体,从而对它们之间的关系进行建模.它是轻量级的和就地(in-place)这里的relation module是…
小目标检测很难,为什么难.想象一下,两幅图片,尺寸一样,都是拍的红绿灯,但是一副图是离得很近的拍的,一幅图是离得很远的拍的,红绿灯在图片里只占了很小的一个角落,即便是对人眼而言,后者图片中的红绿灯也更难识别. 说回到cnn,不断地卷积以后,feature map的尺寸变小.这时候feature map所代表的语义信息已经很丰富了,如果绘图绘制出来,可能会看见代表的是某种形状,颜色,或更高级的更抽象的概念了.但是由于feature map尺寸减小,所以检测小目标困难. 我们可以用同一图片,不同尺寸…
目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Tech report 1. Architecture: Region proposals: 使用selective search获取region proposals,对于每一幅图像获取约2000个region proposals,并将每一个proposal wrap到需要的size,论文中为224*2…
Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik 引用: Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation…
在上计算机视觉这门课的时候,老师曾经留过一个作业:识别一张 A4 纸上的手写数字.按照传统的做法,这种手写体或者验证码识别的项目,都是按照定位+分割+识别的套路.但凡上网搜一下,就能找到一堆识别的教程,分割的文章次之,而定位的文章就少之又少了.这其中的缘由也很简单:识别目前来说已经不是什么难事了,所以容易写,但分割和定位却仍然是一个头疼不已的问题,不同场景方法不同,甚至同一场景也要结合多种图像处理方法,因此很难有通用的解决策略.在深度学习火起来之后,很多研究人员开始尝试用深度学习的特征提取能力来…
Rich feature hierarchies for accurate object detection and semantic segmentation Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik UC Berkeley 丰富多级特征用于精准对象检测和语义分割 --------------------------------------------------------------------------------…
论文标题:Rich feature hierarchies for accurate object detection and semantic segmentation 标题翻译:丰富的特征层次结构,可实现准确的目标检测和语义分割 论文作者:Ross Girshick Jeff Donahue Trevor Darrell Jitendra Mali 论文地址:http://fcv2011.ulsan.ac.kr/files/announcement/513/r-cnn-cvpr.pdf RC…
前言 本来想按照惯例来一个overview的,结果看到1篇十分不错而且详细的介绍,因此copy过来,自己在前面大体总结一下论文,细节不做赘述,引用文章讲得很详细,另外这篇paper引用十分详细,如果做detection可以从这篇文章去读更多不同类型的文章. 论文概述   卷积网络具有较好的平移不变性,但是对尺度不变性有较差的泛化能力,现在网络具有的一定尺度不变性.平移不变性往往是通过网络很大的capacity来"死记硬背",小目标物体难有效的检测出来,主要原因有:1.物体尺度变化很大,…
转载请注明作者:梦里茶 Object Detection,顾名思义就是从图像中检测出目标对象,具体而言是找到对象的位置,常见的数据集是PASCAL VOC系列.2010年-2012年,Object Detection进展缓慢,在DPM之后没有大的进展,直到CVPR2014,RBG大神(Ross Girshick)把当时爆火的CNN结合到Detection中,将PASCAL VOC上的准确率提高到53.7%,本文为你解读RBG的CVPR2014 paper: Rich feature hierar…
作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik 该论文提出了一种简单且可扩展的检测算法,在VOC2012数据集上取得的mAP比当时性能最好的算法高30%.算法主要结合了两个key insights: (1)可以将高容量的卷积神经网络应用到自底向上的Region proposals(候选区域)上,以定位和分割目标 (2)当带标签的训练数据稀少时,可以先使用辅助数据集进行有监督的预训练,然后再使用训练集对网络的特定范围进行微调,…
多数的object detection算法都是只采用顶层特征做预测,但我们知道低层的特征语义信息比较少,但是目标位置准确:高层的特征语义信息比较丰富,但是目标位置比较粗略.另外虽然也有些算法采用多尺度特征融合的方式,但是一般是采用融合后的特征做预测,而FPN不一样的地方在于预测是在不同特征层独立进行的. 图 a 图像金字塔.将图像做成不同的scale,然后不同scale的图像生成对应的不同scale的特征.这种方法的缺点在于增加了时间成本.有些算法会在测试时候采用图像金字塔. 图 b 仅采用网络…
学习目标 Understand the challenges of Object Localization, Object Detection and Landmark Finding Understand and implement non-max suppression Understand and implement intersection over union Understand how we label a dataset for an object detection appli…
目录 0. 前言 1. 第一篇 2. 第二篇 3. 第三篇keras实现 4. 一篇关于U-Net的改进 0. 前言   今天读了U-Net觉得很不错,同时网上很多很好很详细的讲解,因此就不再自己写一个overview了,互联网的意义就是给了我们相互学习,相互借鉴的黄金机会(懒惰完美的接口). 1. 第一篇 1. 按论文章节回顾具体内容 1. Abstract   在本文中我们提出了一种网络结构和训练策略,它依赖于充分利用数据增强技术来更高效地使用带有标签的数据.在U-net的结构中,包括捕获一…
1 介绍(INTRODUCTION) 本文主要对最近的 proposal 检测方法做一个总结和评价.主要是下面这些方法.  2 Detection Proposal 方法(DETECTION PROPOSAL METHODS) 作者将 Detection Proposal 分为两类,grouping method (将图片分为碎片,最后聚合)和 window scoring method (对分成的大量窗口打分). 2.1 分组 proposal 方法(Grouping proposal met…
摘要 目前检测的准确率受物体视频中变化的影响,如运动模糊,镜头失焦等.现有工作是想要在框的级别上寻找时序信息,但这样的方法通常不能端到端训练.我们提出了flow-guided feature aggregation,一个用于视频物体检测的端到端学习框架.在特征级别上利用时序信息,通过相邻帧的运动路径提高每帧的特征,从而提高检测的准确率. 简介 特征提取网络提取出每帧的feature maps.为了enhance被处理帧的特征,用一个光流网络(flownet)预测相邻帧和该帧之间的motions.…
0 - 背景 该论文是2014年CVPR的经典论文,其提出的模型称为R-CNN(Regions with Convolutional Neural Network Features),曾经是物体检测领域的state-of-art模型. 1 - 相关知识补充 1.1 - Selective Search 该算法用来产生粗选的regions区域,在我的另一篇博文Selective Search for Object Recognition(理解)中进行详细讲解. 1.2 - 无监督预训练&有监督预训…
0 - Abstract 深度神经网络(DNNs)最近在图像分类任务上表现出了突出的性能.在这篇文章中,我们进一步深入探究使用DNNs进行目标检测的问题,这个问题不仅需要对物体进行分类,并且还需要对各种各样类别的物体进行精确定位.我们提出了简单但依然有效的将目标检测问题形式化为回归问题从而来对物体边界框进行定位.我们提出了一个多尺度推理程序(模型?),它可以通过应用少量网络层来产生高分辨率的具有小误差的目标检测.并在Pascal VOC上展示了当前最好方法的效果. 1 - Introductio…
论文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要 在PASCAL VOC数据集上,最好的方法的思路是将低级信息与较高层次的上下文信息进行结合.该文的两个亮点:(1)将CNN应用到region proposals 用于对目标物体的定位.(2)对于较少数量的标签数据,先在规模较大的数据集上进行有监督的预训练,然后针对特定场景进行微调,发现性能提升的较大.R-CNN:region with CNN features 介绍 特征问题:视觉…
R-CNN总结 不总结就没有积累 R-CNN的全称是 Regions with CNN features.它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统的SIFT.SURF的特征.同时,还利用了AlexNet本来的功能:分类,这时所得的分类结果相当于预分类.最后,由于每个Region是有边界的,使用SVM对其进行分类得到一个score,定位每个物体的bounding box. 预处理: 先看一看AlexNet的网络结构 可以看到,它的输入图像是一个…
背景 在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红.既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢.本文就是用convNet解决目标检测任务的首次探索.在PASCAL VOC 2010上的mAP达到了53.7%. 方法 模型一共分为三个模块. (1)region proposals(区域推荐)).在一张整图上面产生很…
发表时间:2013 发表作者:(Google)Szegedy C, Toshev A, Erhan D 发表刊物/会议:Advances in Neural Information Processing Systems(NIPS) 本文实现了一种利用DNN来做目标检测的方法.当时,CNN等深度学习在识别上面做的还挺好,但是在目标检测上面没有特别突出的结果.本文中作者把目标检测看做一个回归问题,回归目标窗口(BoundingBox)的位置,寻找一张图片当中目标类别和目标出现的位置. 作者在Imag…
论文网址: https://arxiv.org/abs/1311.2524 RCNN利用深度学习进行目标检测. 摘要 可以将ImageNet上的进全图像分类而训练好的大型卷积神经网络用到PASCAL的目标检测中? 答案是肯定的,并且结果是简单的,可扩展的,相对于可变部件模型(DPM)将平均精度提高了40%以上(在VOC 2007年达到最终的mAP为48%).我们的网络框架结合强大的产生自下而上的候选区域的计算机视觉技术和在学习高容量卷积神经网络中的最新进展.我们称之为R-CNN:具有CNN特征的…