论文阅读:Prominent Object Detection and Recognition: A Saliency-based Pipeline  如上图所示,本文旨在解决一个问题:给定一张图像,我们最应该关注哪些区域?怎么将其分割出来?这是一个什么东东?这三个子问题为一体. Problem formulation: Given an image, determine the most influential item in the scene in terms of region of i…
P. Felzenszwalb, R. Girshick, D. McAllester, D. RamananObject Detection with Discriminatively Trained Part Based ModelsIEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, Sep. 2010 读本文,不是因为DPM,而是因为训练SVM的hard negative minin…
相关论文:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks 概论 用于人脸检测和对齐. 本文提出的unified cascaded CNNs by multi-task learning,包含三个阶段: 1) 利用一个浅层的CNN快速产生候选窗口 2) 利用一个更复杂的CNN排除掉大量非人脸窗口 3) 利用一个更强大的CNN进一步改善结果,并输出人脸关键点位置. 本文的贡献: 1…
CVPR2016: You Only Look Once:Unified, Real-Time Object Detection 转载请注明作者:梦里茶 YOLO,You Only Look Once,摒弃了RCNN系列方法中的region proposal步骤,将detection问题转为一个回归问题 网络结构 输入图片:resize到448x448 整张图片输入卷积神经网络(24层卷积+2层全连接,下面这张示意图是Fast YOLO的) 将图片划分为SxS个格子,S=7 输出一个SxS大小的…
转载请注明作者:梦里茶 Single Shot MultiBox Detector Introduction 一句话概括:SSD就是关于类别的多尺度RPN网络 基本思路: 基础网络后接多层feature map 多层feature map分别对应不同尺度的固定anchor 回归所有anchor对应的class和bounding box Model 输入:300x300 经过VGG-16(只到conv4_3这一层) 经过几层卷积,得到多层尺寸逐渐减小的feature map 每层feature m…
本文为您解读SPP-net: Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Motivation 神经网络在计算机视觉方面的成功得益于卷积神经网络,然而,现有的许多成功的神经网络结构都要求输入为一个固定的尺寸(比如224x224,299x299),传入一张图像,需要对它做拉伸或者裁剪,再输入到网络中进行运算. 然而,裁剪可能会丢失信息,拉伸会使得图像变形,这些因素都提高了视觉任务的门槛,…
转载请注明作者:梦里茶 Faster RCNN在Fast RCNN上更进一步,将Region Proposal也用神经网络来做,如果说Fast RCNN的最大贡献是ROI pooling layer和Multi task,那么RPN(Region Proposal Networks)就是Faster RCNN的最大亮点了.使用RPN产生的proposals比selective search要少很多(300vs2000),因此也一定程度上减少了后面detection的计算量. Introducti…
Fast RCNN是对RCNN的性能优化版本,在VGG16上,Fast R-CNN训练速度是RCNN的9倍, 测试速度是RCNN213倍:训练速度是SPP-net的3倍,测试速度是SPP-net的3倍,并且达到了更高的准确率,本文为您解读Fast RCNN. Overview Fast rcnn直接从单张图的feature map中提取RoI对应的feature map,用卷积神经网络做分类,做bounding box regressor,不需要额外磁盘空间,避免重复计算,速度更快,准确率也更高…
作者:Ross Girshick,Jeff Donahue,Trevor Darrell,Jitendra Malik 该论文提出了一种简单且可扩展的检测算法,在VOC2012数据集上取得的mAP比当时性能最好的算法高30%.算法主要结合了两个key insights: (1)可以将高容量的卷积神经网络应用到自底向上的Region proposals(候选区域)上,以定位和分割目标 (2)当带标签的训练数据稀少时,可以先使用辅助数据集进行有监督的预训练,然后再使用训练集对网络的特定范围进行微调,…
Selective Search for Object Recoginition surgewong@gmail.com http://blog.csdn.net/surgewong       在前一段时间在看论文相关的工作,没有时间整理对这篇论文的理解.在前面的一篇博客[1]中有提到Selective Search[2],其前期工作利用图像分割的方法得到一些原始区域(具体内容请查看[1]),然后使用一些合并策略将这些区域合并,得到一个层次化的区域结构,而这些结构就包含着可能需要的物体.  …