摘要 目前检测的准确率受物体视频中变化的影响,如运动模糊,镜头失焦等.现有工作是想要在框的级别上寻找时序信息,但这样的方法通常不能端到端训练.我们提出了flow-guided feature aggregation,一个用于视频物体检测的端到端学习框架.在特征级别上利用时序信息,通过相邻帧的运动路径提高每帧的特征,从而提高检测的准确率. 简介 特征提取网络提取出每帧的feature maps.为了enhance被处理帧的特征,用一个光流网络(flownet)预测相邻帧和该帧之间的motions.…
先说一下,我觉得近两年最好的工作吧.其他的,我就不介绍了,因为我懂得少. 微软的jifeng dai的工作. Deep Feature Flow   github: https://github.com/msracver/Deep-Feature-Flow Flow-guided Feature Aggregation.  Flow-Guided Feature Aggregation for Video Object Detection   github: https://github.com…
目录 0. 前言 1. 博客一 2.. 博客二 0. 前言   这篇论文提出了一种新的特征融合方式来解决多尺度问题, 感觉挺有创新性的, 如果需要与其他网络进行拼接,还是需要再回到原文看一下细节.这里转了两篇比较好的博客作为备忘. 1. 博客一 这篇论文是CVPR2017年的文章,采用特征金字塔做目标检测,有许多亮点,特来分享. 论文:feature pyramid networks for object detection 论文链接:https://arxiv.org/abs/1612.031…
AdaScale: Towards real-time video object detection using adaptive scaling 2019-02-18 16:14:17 Paper: https://www.sysml.cc/papers.html 本文提出一种新的技术,AdaScale,来改善视频中物体检测的尺度问题,在提升速度的同时,改善了精度. 作者的实验发现在降低图像分辨率的时候,部分图像的识别精度就会得到改善,并且给出了结果展示: 那么是什么原因导致这种情况呢?作者给…
Parallel Feature Pyramid Network for Object Detection ECCV2018 总结: 文章借鉴了SPP的思想并通过MSCA(multi-scale context aggregation)模块进行特征融合从而提出PFPNet(Parallel Feature Pyramid Network)算法来提升目标检测的效果. 1.使用spp模块通过扩大网络宽度而不是增加深度来生成金字塔形特征图 2.提出msca模块,有效地结合了大不相同规模的上下文信息 3…
Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik 引用: Girshick, Ross, et al. "Rich feature hierarchies for accurate object detection and semantic segmentation…
https://vitalab.github.io/deep-learning/2017/04/04/feature-pyramid-network.html Feature Pyramid Networks for Object Detection Reviewed on Apr 4, 2017 by Frédéric Branchaud-Charron • https://arxiv.org/pdf/1612.03144.pdf Reference : T. Lin, P. Dollár,…
在上计算机视觉这门课的时候,老师曾经留过一个作业:识别一张 A4 纸上的手写数字.按照传统的做法,这种手写体或者验证码识别的项目,都是按照定位+分割+识别的套路.但凡上网搜一下,就能找到一堆识别的教程,分割的文章次之,而定位的文章就少之又少了.这其中的缘由也很简单:识别目前来说已经不是什么难事了,所以容易写,但分割和定位却仍然是一个头疼不已的问题,不同场景方法不同,甚至同一场景也要结合多种图像处理方法,因此很难有通用的解决策略.在深度学习火起来之后,很多研究人员开始尝试用深度学习的特征提取能力来…
对用卷积神经网络进行目标检测方法的一种改进,通过提取多尺度的特征信息进行融合,进而提高目标检测的精度,特别是在小物体检测上的精度.FPN是ResNet或DenseNet等通用特征提取网络的附加组件,可以和经典网络组合提升原网络效果. 一.问题背景 网络的深度(对应到感受野)与总stride通常是一对矛盾的东西,常用的网络结构对应的总stride一般会比较大(如32),而图像中的小物体甚至会小于stride的大小,造成的结果就是小物体的检测性能急剧下降. 传统解决这个问题的思路包括: (1)多尺度…
目标检测系列 --- RCNN: Rich feature hierarchies for accurate object detection and semantic segmentation Tech report 1. Architecture: Region proposals: 使用selective search获取region proposals,对于每一幅图像获取约2000个region proposals,并将每一个proposal wrap到需要的size,论文中为224*2…
Feature Pyramid Networks for Object Detection 特征金字塔网络用于目标检测 论文地址:https://arxiv.org/pdf/1612.03144.pdf 论文背景: 特征金字塔是用于检测不同尺寸物体的识别系统的基本组成部分.但是最近的深度学习目标检测方法避免了使用金字塔表示,部分原因在于它是计算和内存密集型的.Fast R-CNN和Faster R-CNN主张使用单一尺度计算特征,因为它提供了精确度与速度之间良好的折中,然而多尺度检测仍然表现更好…
Rich feature hierarchies for accurate object detection and semantic segmentation Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik UC Berkeley 丰富多级特征用于精准对象检测和语义分割 --------------------------------------------------------------------------------…
论文标题:Rich feature hierarchies for accurate object detection and semantic segmentation 标题翻译:丰富的特征层次结构,可实现准确的目标检测和语义分割 论文作者:Ross Girshick Jeff Donahue Trevor Darrell Jitendra Mali 论文地址:http://fcv2011.ulsan.ac.kr/files/announcement/513/r-cnn-cvpr.pdf RC…
论文源址:https://arxiv.org/abs/1612.03144 代码:https://github.com/jwyang/fpn.pytorch 摘要 特征金字塔是用于不同尺寸目标检测中的基本组件.但由于金字塔表征的特征需要消耗较多的内存及计算资源,因此,深度学习尽量避免使用金字塔特征.本文利用深度卷积网络中自带的多尺寸信息构建特征金字塔.本文搭建了具有横向连接的自上而下的结构FPN,从而在所有尺寸上构建高层次的语义特征.本文在Faster R-CNN的基础结构上增加了FPN结构,并…
作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik 该论文提出了一种简单且可扩展的检测算法,在VOC2012数据集上取得的mAP比当时性能最好的算法高30%.算法主要结合了两个key insights: (1)可以将高容量的卷积神经网络应用到自底向上的Region proposals(候选区域)上,以定位和分割目标 (2)当带标签的训练数据稀少时,可以先使用辅助数据集进行有监督的预训练,然后再使用训练集对网络的特定范围进行微调,…
一.简单介绍 目标检测(Objection Detection)算是计算机视觉任务中比较常见的一个任务,该任务主要是对图像中特定的目标进行定位,通常是由一个矩形框来框出目标. 在深度学习CNN之前,传统的做法一般是借助图像处理技术提取图像中目标的特征(如最常见的SIFT.LBP.HOG等),然后采用机器学习的方法(如SVM等)来训练识别,在实现上通常是采用不同尺度的矩形窗口在图像上滑动提取特征在进行识别(有点像是小尺寸图像分类识别的意思). 在深度学习和CNN爆红之后,很多研究者就开始用用CNN…
Adversarial Examples for Semantic Segmentation and Object Detection (语义分割和目标检测中的对抗样本) 作者:Cihang Xie, Jianyu Wang, Zhishuai Zhang, Yuyin Zhou, Lingxi Xie, Alan Yuille, Department of Computer Science, The Johns Hopkins University, Baltimore, MD 21218 U…
http://www.ee.columbia.edu/ln/dvmm/publications/17/zhang2017visual.pdf Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang† , Zawlin Kyaw‡ , Shih-Fu Chang† , Tat-Seng Chua‡ †Columbia University, ‡National University of Si…
0 - 背景 该论文是2014年CVPR的经典论文,其提出的模型称为R-CNN(Regions with Convolutional Neural Network Features),曾经是物体检测领域的state-of-art模型. 1 - 相关知识补充 1.1 - Selective Search 该算法用来产生粗选的regions区域,在我的另一篇博文Selective Search for Object Recognition(理解)中进行详细讲解. 1.2 - 无监督预训练&有监督预训…
论文源址:http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要 在PASCAL VOC数据集上,最好的方法的思路是将低级信息与较高层次的上下文信息进行结合.该文的两个亮点:(1)将CNN应用到region proposals 用于对目标物体的定位.(2)对于较少数量的标签数据,先在规模较大的数据集上进行有监督的预训练,然后针对特定场景进行微调,发现性能提升的较大.R-CNN:region with CNN features 介绍 特征问题:视觉…
论文地址:https://arxiv.org/pdf/1612.03144v2.pdf 代码地址:https://github.com/unsky/FPN 概述 FPN是FAIR发表在CVPR 2017上的一篇文章,采用特征金字塔的方法进行目标检测.文中利用深层卷积网络固有的多尺度金字塔层次结构,高效地构造特征金字塔.文章提出了FPN——一种具有横向连接的自顶向下的结构,来构建所有尺度上的高级语义特征映射. 网络结构 下图展示了几种不同的利用特征的方式:(a)为图像金字塔,就是对图像resize…
背景 在2012 Imagenet LSVRC比赛中,Alexnet以15.3%的top-5 错误率轻松拔得头筹(第二名top-5错误率为26.2%).由此,ConvNet的潜力受到广泛认可,一炮而红.既然convNet在图像分类任务上能取得好成绩,是不是也能放到目标检测任务上呢.本文就是用convNet解决目标检测任务的首次探索.在PASCAL VOC 2010上的mAP达到了53.7%. 方法 模型一共分为三个模块. (1)region proposals(区域推荐)).在一张整图上面产生很…
论文网址: https://arxiv.org/abs/1311.2524 RCNN利用深度学习进行目标检测. 摘要 可以将ImageNet上的进全图像分类而训练好的大型卷积神经网络用到PASCAL的目标检测中? 答案是肯定的,并且结果是简单的,可扩展的,相对于可变部件模型(DPM)将平均精度提高了40%以上(在VOC 2007年达到最终的mAP为48%).我们的网络框架结合强大的产生自下而上的候选区域的计算机视觉技术和在学习高容量卷积神经网络中的最新进展.我们称之为R-CNN:具有CNN特征的…
论文地址:https://arxiv.org/pdf/1311.2524.pdf 翻译请移步: https://www.cnblogs.com/xiaotongtt/p/6691103.html https://blog.csdn.net/v1_vivian/article/details/78599229 背景: 1.近10年以来,以人工经验特征为主导的物体检测任务mAP[物体类别和位置的平均精度]提升缓慢: 2.随着ReLu激励函数.dropout正则化手段和大规模图像样本集ILSVRC的出…
https://zhuanlan.zhihu.com/p/23006190?refer=xiaoleimlnote http://blog.csdn.net/bea_tree/article/details/51659263 http://blog.csdn.net/liyaohhh/article/details/50824226 http://blog.csdn.net/WoPawn/article/details/52133338    最好的 http://blog.csdn.net/u…
R-CNN总结 不总结就没有积累 R-CNN的全称是 Regions with CNN features.它的主要基础是经典的AlexNet,使用AlexNet来提取每个region特征,而不再是传统的SIFT.SURF的特征.同时,还利用了AlexNet本来的功能:分类,这时所得的分类结果相当于预分类.最后,由于每个Region是有边界的,使用SVM对其进行分类得到一个score,定位每个物体的bounding box. 预处理: 先看一看AlexNet的网络结构 可以看到,它的输入图像是一个…
arxiv上放出的物体检测的文章,在Pascal voc数据集上排第二.源码也已放出(https://github.com/sanghoon/pva-faster-rcnn),又可以慢慢把玩了.这篇文章遵循faster-rcnn"CNN feature extraction + region proposal + RoI classification"的pipeline,重新设计了feature extraction的网络结构."The devil is in details…
概述 STDN是收录于CVPR 2018的一篇目标检测论文,提出STDN网络用于提升多尺度目标的检测效果.要点包括:(1)使用DenseNet-169作为基础网络提取特征:(2)提出Scale-transfer Layer,在几乎不增加参数量和计算量的情况下生成大尺度的feature map. STDN介绍 Figure 1回顾了目标检测算法对feature map的利用情况: (a)是只使用单一尺度的feature map进行检测,这种方法利用的特征层较少,检测效果一般,代表性的算法如Fast…
何凯明大佬 ICCV 2017 best student paper 作者提出focal loss的出发点也是希望one-stage detector可以达到two-stage detector的准确率,同时不影响原有的速度.one-stage detector的准确率不如two-stage detector的原因,作者认为原因是:样本的类别不均衡导致的.因此针对类别不均衡问题,作者提出一种新的损失函数:focal loss,这个损失函数是在标准交叉熵损失基础上修改得到的.这个函数可以通过减少易…
参考:https://www.jianshu.com/p/1ed2d9ce6a88 安装 安装conda+tensorflow库 下载protoc linux x64版,https://github.com/protocolbuffers/protobuf/releases 将下载的zip文件,进入解压后的文件,将里面的bin/protoc文件复制到/usr/bin/protoc sudo cp bin/protoc /usr/bin/protoc 下载models仓库 git clone ht…