Link of the Paper: https://arxiv.org/abs/1411.4389 Main Points: A novel Recurrent Convolutional Architecture ( CNN + LSTM ): both Spatially and Temporally Deep. The recurrent long-term models are directly connected to modern visual convnet models and…
Spatial pyramid pooling in deep convolutional networks for visual recognition 作者: Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 引用: He, Kaiming, et al. "Spatial pyramid pooling in deep convolutional networks for visual recognition." IEEE…
Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun  The 13th European Conference on Computer Vision (ECCV), 2014 声明:本文所有图片均来自原始文章,自己的理解也未必正确,请查看原图并拍砖 本文的两个亮点: 1. 多尺度训练CN…
http://www.dengfanxin.cn/?p=403 原文地址 我对物体检测的一篇重要著作SPPNet的论文的主要部分进行了翻译工作.SPPNet的初衷非常明晰,就是希望网络对输入的尺寸更加灵活,分析到卷积网络对尺寸并没有要求,固定尺寸的要求完全来源于全连接层部分,因而借助空间金字塔池化的方法来衔接两者,SPPNet在检测领域的重要贡献是避免了R-CNN的变形.重复计算等问题,在效果不衰减的情况下,大幅提高了识别速度.   用于视觉识别的深度卷积网络空间金字塔池化方法 Spatial…
论文标题:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 标题翻译:用于视觉识别的深度卷积神经网络中的空间金字塔池 论文作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 论文地址:https://arxiv.org/pdf/1406.4729.pdf SPP的GitHub地址:https://github.com/yueruc…
论文源址:https://arxiv.org/abs/1406.4729 tensorflow相关代码:https://github.com/peace195/sppnet 摘要 深度卷积网络需要输入固定尺寸大小的图片(224x224),这引入了大量的手工因素,同时,一定程度上,对于任意尺寸的图片或者子图会降低识别的准确率.SPP-net对于任意大小的图片,可以生成固定长度的特征表述.SPP-net对于变形的图片仍有一定的鲁棒性.基于上述优点,SPP-net会提高基于CNN的图像分类的效果. S…
论文地址:https://arxiv.org/pdf/1406.4729.pdf 论文翻译请移步:http://www.dengfanxin.cn/?p=403 一.背景: 传统的CNN要求输入图像尺寸是固定的(因为全连接网络要求输入大小是固定的) crop处理,可能不包含整个物体,还会丢失上下文信息 warping处理,会导致图像变形 以上都会导致CNN对不同scale/size泛化能力不强   于是SPP做了如下改进,即将SPP层加在最后一个卷积层后面,然后再送入FC网络.  优点 不管输入…
背景 用ConvNet方法解决图像分类.检测问题成为热潮,但这些方法都需要先把图片resize到固定的w*h,再丢进网络里,图片经过resize可能会丢失一些信息.论文作者发明了SPP pooling(空间金字塔池化)层,让网络可以接受任意size的输入. 方法 首先思考一个问题,为什么ConvNet需要一个固定size的图片作为输入,我们知道,Conv层只需要channel固定(彩色图片3,灰度图1),但可以接受任意w*h的输入,当然输出的w*h也会跟着变化:然而,后面的FC层却需要固定长度的…
1. https://www.cnblogs.com/gongxijun/p/7172134.html (SPP 原理) 2.https://www.cnblogs.com/chaofn/p/9305374.html (SPP原理) 3.https://blog.csdn.net/wait_ButterFly/article/details/81461988 (卷积核参数计算)…
Two-Stream Convolutional Networks for Action Recognition in Videos & Towards Good Practices for Very Deep Two-Stream ConvNets Note here: it's a learning note on the topic of video representations. This note incorporates two papers about popular two-s…
Re3 : Real-Time Recurrent Regression Networks for Visual Tracking of Generic Objects 2019-10-04 14:42:54 Paper:https://arxiv.org/pdf/1705.06368.pdf Code(TensorFlow):https://gitlab.com/danielgordon10/re3-tensorflow Demo Video: https://www.youtube.com/…
http://cs231n.github.io/   里面有很多相当好的文章 http://cs231n.github.io/convolutional-networks/ Table of Contents: Architecture Overview ConvNet Layers Convolutional Layer Pooling Layer Normalization Layer Fully-Connected Layer Converting Fully-Connected Laye…
Table of Contents: Architecture Overview ConvNet Layers Convolutional Layer Pooling Layer Normalization Layer Fully-Connected Layer Converting Fully-Connected Layers to Convolutional Layers ConvNet Architectures Layer Patterns Layer Sizing Patterns C…
Introduction 这是斯坦福计算机视觉大牛李菲菲最新开设的一门关于deep learning在计算机视觉领域的相关应用的课程.这个课程重点介绍了deep learning里的一种比较流行的模型:Convolutional Neural Networks,简称CNN,主要利用CNN来做visual recognition,或者说是image classification,object recognition等.我自己在学习的过程中,一边翻译一边总结,整理出这些中文版的lecture not…
Convolutional Neural Networks (CNNs / ConvNets) 前面做了如此漫长的铺垫,现在终于来到了课程的重点.Convolutional Neural Networks, 简称CNN,与之前介绍的一般的神经网络类似,CNN同样是由可以学习的权值与偏移量构成,每一个神经元接收一些输入,做点积运算加上偏移量,然后选择性的通过一些非线性函数,整个网络最终还是表示成一个可导的loss function,网络的起始端是输入图像,网络的终端是每一类的预测值,通过一个ful…
Setting up the data and the model 前面我们介绍了一个神经元的模型,通过一个激励函数将高维的输入域权值的点积转化为一个单一的输出,而神经网络就是将神经元排列到每一层,形成一个网络结构,这种结构与我们之前介绍的线性模型不太一样,因此score function也需要重新定义,神经网络实现了一系列的线性映射与非线性映射,这一讲,我们主要介绍神经网络的数据预处理以及score function的定义. data processing 给定一个训练集,S={xi∈RD|i…
Linear Classification 在上一讲里,我们介绍了图像分类问题以及一个简单的分类模型K-NN模型,我们已经知道K-NN的模型有几个严重的缺陷,第一就是要保存训练集里的所有样本,这个比较消耗存储空间:第二就是要遍历所有的训练样本,这种逐一比较的方式比较耗时而低效. 现在,我们要介绍一种更加强大的图像分类模型,这个模型会很自然地引申出神经网络和Convolutional Neural Networks(CNN),这个模型有两个重要的组成部分,一个是score function,将原始…
Link of the Paper: https://arxiv.org/pdf/1504.06692.pdf Innovations: The authors propose the Novel Visual Concept learning from Sentences ( NVCS ) task. In this task, methods need to learn novel concepts from sentence descriptions of a few images. Th…
Two Simple Examples softmax classifier 后,我们介绍两个简单的例子,一个是线性分类器,一个是神经网络.由于网上的讲义给出的都是代码,我们这里用公式来进行推导.首先看softmax classifier 的例子.给定输入X∈RN×D,权值W∈RD×K,偏移量b∈R1×K,我们可以得到分类器对每个样本的预测分数:f=XW+b,我们可以用softmax 函数将预测分数转为概率:pi=efi∑jefj,pi 表示样本属于第i类的概率,fi,fj表示线性函数对样本属于…
1. 生物学家做实验发现脑皮层对简单的结构比如角.边有反应,而通过复杂的神经元传递,这些简单的结构最终帮助生物体有了更复杂的视觉系统.1970年David Marr提出的视觉处理流程遵循这样的原则,拿到图像后,先提取角.边.曲线等等简单的几何元素,然后再用深度信息.表面信息等更高层的复杂信息,最后是更高层的更抽象的表达. 深度学习也是遵循这样的基本思想,从最简单的特征出发,通过多层函数传递,实现复杂的功能. 2. Image-Net比赛,2012年突破性的变化,AlexNet用卷积神经网络大幅提…
作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun 以前的CNNs都要求输入图像尺寸固定,这种硬性要求也许会降低识别任意尺寸图像的准确度.为避免这个问题,何凯明等人在该论文中提出了一种池化策略,"spatial pyramid pooling(SSP)",即空间金字塔池化.带有该池化层的网络被称为SPPnet,对任何尺寸的输入图像都能生成固定长度的特征表示.由此可见,理论上SPPnet可以改进所有基于CNN的图像分类等方法中…
网易云课堂上有汉化的视频:http://study.163.com/course/courseLearn.htm?courseId=1003223001#/learn/video?lessonId=1003705493&courseId=1003223001 笔记:http://weibo.com/1402400261/C0fOrnof0?u=2097796245&m=3935460336857237&cu=2097796245&ru=1402400261&rm=3…
https://zhuanlan.zhihu.com/p/28522637 https://zhuanlan.zhihu.com/p/21930884 mark…
-###Learning 前面,我们介绍了神经网络的构成,数据的预处理,权值的初始化等等.这一讲,我们将要介绍神经网络参数学习的过程. Gradient Checks 梯度的运算,在理论上是简单的,但是在实际的应用中,却非常容易出错,梯度的运算常见的有如下两种形式: 形式一: df(x)dx=f(x+h)−f(x)h h是一个很小的常数,实际运算的时候,h大概等于1e−5,但我们通常会用下面这种形式计算梯度: 形式二: df(x)dx=f(x+h)−f(x−h)2h 利用这个表达式,需要我们对l…
Modeling one neuron 下面我们开始介绍神经网络,我们先从最简单的一个神经元的情况开始,一个简单的神经元包括输入,激励函数以及输出.如下图所示: 一个神经元类似一个线性分类器,如果激励函数是sigmoid 函数(σ(x)=1/(1+e−x)),那么σ(∑iwixi+b)相当于是求该输入所对应的输出为1的概率,P(y=1|xi;w),那么该输入所对应的输出为0的概率为 P(y=0|xi;w)=1−P(y=1|xi;w).在神经网络中,常用的激励函数一个是sigmoid函数,另一个是…
Gradient Computing 前面我们介绍过分类器模型一般包含两大部分,一部分是score function,将输入的原始数据映射到每一类的score,另外一个重要组成部分是loss function,计算预测值 与实际值之间的误差,具体地,给定一个线性分类函数:f(xi;W)=Wxi,我们定义如下的loss function: L=1N∑i∑j≠yi[max(0,f(xi,W)j−f(xi,W)yi+1)]+αR(W) 我们看到L与参数W有关,所以我们需要找到一个合适的W使得L尽可能小…
论文的三个贡献 (1)提出了two-stream结构的CNN,由空间和时间两个维度的网络组成. (2)使用多帧的密集光流场作为训练输入,可以提取动作的信息. (3)利用了多任务训练的方法把两个数据集联合起来. Two stream结构 视屏可以分成空间与时间两个部分,空间部分指独立帧的表面信息,关于物体.场景等:而时间部分信息指帧间的光流,携带着帧之间的运动信息.相应的,所提出的网络结构由两个深度网络组成,分别处理时间与空间的维度. 可以看到,每个深度网络都会输出一个softmax层,最后会通过…
1. Introduction 人脸识别受到各种因素影响,其中最重要的两个影响是 pose 和 expression, 这两个因素会对 intra-person 变化产生极大的影响, 有时候甚至会超过 inter-person 变化的影响.面对这两个挑战,许多工作可以大体被划分为两种: feature level normalization 和 image level normalization. Feature级的normalization重点在于设计对pose和expression变化更鲁棒…
1. 生物学家做实验发现脑皮层对简单的结构比如角.边有反应,而通过复杂的神经元传递,这些简单的结构最终帮助生物体有了更复杂的视觉系统.1970年David Marr提出的视觉处理流程遵循这样的原则,拿到图像后,先提取角.边.曲线等等简单的几何元素,然后再用深度信息.表面信息等更高层的复杂信息,最后是更高层的更抽象的表达. 深度学习也是遵循这样的基本思想,从最简单的特征出发,通过多层函数传递,实现复杂的功能. 2. Image-Net比赛,2012年突破性的变化,AlexNet用卷积神经网络大幅提…
地址:https://arxiv.org/pdf/2006.11538.pdf github:https://github.com/iduta/pyconv 目前的卷积神经网络普遍使用3×3的卷积神经网络,通过堆叠3×3的卷积核和下采样层,会在减少图像的大小的同时增加感受野,使用小尺度的卷积核存在两个问题: 实际感受野的大小比理论上的感受野大小要小得多. 在没有获得足够的上下文信息之前就对输入图像进行下采样,会影响学习过程和网络的识别性能.由于感受野不足够大来捕获场景中不同的依赖,以至于有用的细…