重在图像的定位和检测的内容。

一张图片中只有一种给定类别标签的对象,定位则是图像中有对象框;再这些类中,每一个训练目标都有一个类和许多的图像内部对应类的位置选框。

猜想的仅是类标签,不如说它们是位置选框。正确的位置选框,代表你的结果很接近分割的准确率。

研究定位的简单有用基础的范式,就是回归。

这张图片经过一系列的处理过程,最终生成四个代表选框大小的实数,有很多不同的参数来描述选框,人们常用的是用XY坐标定位选框的左上角

、宽度和高度,还有一些ground truth(真实准确的选框),计算欧式损失。

训练流程:

1.用ground truth边框对许多批样本进行抽样,and forward

2.get the loss between the predicted results and ground truth. and carry out the backward

3.download  the trained models like VGG、AlexNet. and get the FC layers of class scores

4.现在在这个网络里再接上一些新的全连接层,称为回归网络(regression head),输出的是一些实数。

5.训练这一个回归网络像训练分类网络一样,唯一的区别就是class scores 和class 的损失替换成了L2 loss 和

ground true 选框。

6. finally get the classification network and the regression network

Detail note:在进行回归时一共有两种主要方式,不定类回归(class-logostic regress ) :全连接层都使用相同的结构和权值来得到边界框(bounding box)

and 特定类回归(class- specific regress) :输出的是C * 4个数字,相当于每种类别有一个边界框。

两种回归的Discussion: 对一只猫和对火车确定边界总是有一些不同,你需要网络中有不同的处理来应对这个问题,

它稍微改变了计算损失的方式,它不仅仅是使用ground truth class 来计算损失。

网络在哪一个位置进行回归?

我们可以用这个框架对不止一种物体来划定边界框,输入一张图片,你需要提前知道固定数量的物体进行划定边界框,回归层

输出对于每个物体的边界框,同样训练。

应用于人类姿势判别:需要去找到人类的特定的关节,能够在XY轴上找每个关节的位置,从而让我们对这个人的姿势进行预测。

Idea 2: sliding window

思路:和之前的方法相比不只是运行一次,而是在不同的位置多次进行,再将不同的位置进行聚合。

Overfeat的结构:

过程:输入图片,在图片左上方进行分类和定位,进而得到类的分数和相应的边界框。重复这个操作,使用相同的分类和

定位网络,在这个图片的四个角落都运行一次,最终得到四个边界框,对于每个位置都有一个边界框和类的分数,并使用一些方法对边界框和分数进行合并,组合和据集不同位置的边界框可以帮助这个模型进行错误修正。

1.在实际操作中要使用远对于四个的边界框;

2.进行回归时,输出的是表示边界框的四个数字,这个数字理论上可能出现在任何地方,他不一定在图片内部,当你在用

sliding window 方法进行训练的时候,你对不同位置进行操作时坐标轴为进行一些改变,事实上,它们选取的位置对于四种.

Discussion: 高效的方法; 网络通常包含卷积网络和全连接网络,一个全连接网络由4096个数字构成,是一个vector,如果不把他看成一个vector,而将他看成另一个卷积的特征映射,这个方法是将全连接层转换成了卷积层,我们得到一个卷积特征映射;考虑通过一个5*5的卷积层,而不是特征特征映射。之后将全连接层转换为1*1的卷积。

我们使用了卷积运算替换了原先的全连接层,优势:网络只由卷积层和池化层的元素构成了,我们就可以使用不同尺寸的图片来运行网络,就可以处理不同尺寸的图片了,在不同大小的图片上使用相同的计算过程。

Discussion:

1、ResNet使用了另外一种定位算法叫RPN(region proposal network)

2、在L2损失值有一个极端值时,是很不好的,所以人们一般不用L2,也可以使用L1损失值,帮助解决极端值的问题,用一个平滑L1函数(Huber损失),看起来和普通的L1差不多,但在接近0的时候更像二次函数,但是里面有噪声的话就不会那么有效。

3.不要选取非反向传播的网络; 

4.因为在测试环节,你用的类和训练环节一样,在训练中也需要测试,我们不要求去做不同类之间的泛化,这太难了。

5.实际上人们有时候使用同一个网络,同时训练;有时候人们会分开,用一个网络训练回归,用另一个网络训练分类,两种都可以。

(Review cs231n) Spatial Localization and Detection(classification and localization)的更多相关文章

  1. AI - TensorFlow - 分类与回归(Classification vs Regression)

    分类与回归 分类(Classification)与回归(Regression)的区别在于输出变量的类型.通俗理解,定量输出称为回归,或者说是连续变量预测:定性输出称为分类,或者说是离散变量预测. 回归 ...

  2. HoG feature for human detection(HoG 行人识别)

    本文大部分内容总结于其他文章 1.介绍 HOG(Histogram of Oriented Gradient)是2005年CVPR会议上,法国国家计算机科学及自动控制研究所的Dalal等人提出的一种解 ...

  3. 【数字图像分析】基于Python实现 Canny Edge Detection(Canny 边缘检测算法)

    Canny 边缘检测算法 Steps: 高斯滤波平滑 计算梯度大小和方向 非极大值抑制 双阈值检测和连接 代码结构: Canny Edge Detection | Gaussian_Smoothing ...

  4. 深度学习论文翻译解析(十一):OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

    论文标题:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 标题翻译: ...

  5. (Review cs231n) Object Detection

    目标:我们有几个类别,然后我们要在这张图中找到这些类的所有实例 解决思路:是否可以按照回归的思路进行求解呢? 但是受限制于确定的种类输出问题. 方法:分类和回归是解决问题的两个套路,我们现在对于目标的 ...

  6. 项目笔记《DeepLung:Deep 3D Dual Path Nets for Automated Pulmonary Nodule Detection and Classification》(三)(上)结果评估

    在(一)中,我将肺结节检测项目总结为三阶段,这里我要讲讲这个项目的第三阶段,至于第二阶段,由于数据增强部分的代码我始终看不大懂,先不讲. 结果评估的程序在evaluationScript文件夹下,这个 ...

  7. [Localization] R-CNN series for Localization and Detection

    CS231n Winter 2016: Lecture 8 : Localization and Detection CS231n Winter 2017: Lecture 11: Detection ...

  8. 论文笔记:OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

    2014 ICLR 纽约大学 LeCun团队 Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Rob Fergus, Yann ...

  9. 【转载】细粒度图像识别Object-Part Attention Driven Discriminative Localization for Fine-grained Image Classification

    细粒度图像识别Object-Part Attention Driven Discriminative Localization for Fine-grained Image Classificatio ...

随机推荐

  1. 构建MHA实现MySQL高可用集群架构

    一.MHA简介 MHA(Master HighAvailability)目前在MySQL高可用方面是一个相对成熟的解决方案,它由日本DeNA公司youshimaton(现就职于Facebook公司)开 ...

  2. myeclipse 无法启动Tomcat(程序未设置断点)This kind of launch is configured to open the Debug perspective ...

    myeclipse 中在新建一个项目之后想要运行一下,可是却提示This kind of launch is configured to open the Debug perspective,下面是我 ...

  3. Java 中的字符串转为二进制

    /** * 将字符串转为二进制 */ public class StrConversion { public static void main(String args[]) { String str ...

  4. 转 MYSQL SELECT ... FOR UPDATE and SELECT ... LOCK IN SHARE MODE Locking Reads

    原文: http://dev.mysql.com/doc/refman/5.0/en/innodb-locking-reads.html In some circumstances, a consis ...

  5. 变量类型-Set

    教程:    集合是一个无序不重复元素的序列,它的特点是:有的可变,有的不可变,元素无序不可重复! 一:集合的创建 (1)使用花括号 set={value1, values2}             ...

  6. word/pdf互转的链接

    参考链接 http://www.greenxf.com/soft/98467.html

  7. 洛谷P3385 【模板】负环

    题目描述 暴力枚举/SPFA/Bellman-ford/奇怪的贪心/超神搜索 寻找一个从顶点1所能到达的负环,负环定义为:一个边权之和为负的环. 输入输出格式 输入格式: 第一行一个正整数T表示数据组 ...

  8. 一个LinkedBlockingQueue线程安全的例子

    一个LinkedBlockingQueue线程安全的例子 package llj.mf.ace; import java.util.ArrayList; import java.util.HashSe ...

  9. 电子产品使用感受之——为什么我那么喜欢2015年的11.6寸MacBook Air?

    2018年Mac笔记本产品线得到了一次更新,Mac book Pro, MacBook Air更新后的Mac 产品线变得更加让人摸不着头脑,价格昂贵不说,产品分类细化到如此程度,让一个选择困难症的消费 ...

  10. 源码编译vim

    目录 获取最新版 vim 源码 1 git仓库clone 2, 源码包下载,里面有各个版本的vim压缩包 vim 配置选项 配置示例 参考文章 tip 获取最新版 vim 源码 1 git仓库clon ...