在这篇论文中,作者提出了一种更加通用的池化框架,以核函数的形式捕捉特征之间的高阶信息.同时也证明了使用无参数化的紧致清晰特征映射,以指定阶形式逼近核函数,例如高斯核函数.本文提出的核函数池化可以和CNN网络联合优化. Network Structure Overview Kernel Pooling Method The illustration of the tensor product A summary of pooling strategies Experiment Evaluation…
Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking  arXiv Paper Project Page:http://guanghan.info/projects/ROLO/ GitHub:https://github.com/wangxiao5791509/ROLO 摘要:本文提出了一种新的方法进行空间监督 RCNN 来进行目标跟踪.我们通过深度神经网络来学习到  loc…
ShuffleNet: An Extremely Efficient Convolutional Neural Network for MobileDevices…
UC Berkeley的Deepak Pathak 使用了一个具有图像级别标记的训练数据来做弱监督学习.训练数据中只给出图像中包含某种物体,但是没有其位置信息和所包含的像素信息.该文章的方法将image tags转化为对CNN输出的label分布的限制条件,因此称为 Constrained convolutional neural network (CCNN). 该方法把训练过程看作是有线性限制条件的最优化过程: 其中是一个隐含的类别分布,是CNN预测的类别分布.目标函数是KL-divergen…
这篇论文提出了AlexNet,奠定了深度学习在CV领域中的地位. 1. ReLu激活函数 2. Dropout 3. 数据增强 网络的架构如图所示 包含八个学习层:五个卷积神经网络和三个全连接网络,并且使用了最大池化. RELU非线性层 传统的神经网络的输出包括$tanh$ 和 $ y = (1+e^{-x})^{-1}$,namely sigmoid. 在训练阶段的梯度下降的过程中, 饱和的非线性层比非饱和的非线性层下降得更慢. -- RELU 可以加快训练的速度,与饱和非线性函数相比达到相同…
1. 生物学家做实验发现脑皮层对简单的结构比如角.边有反应,而通过复杂的神经元传递,这些简单的结构最终帮助生物体有了更复杂的视觉系统.1970年David Marr提出的视觉处理流程遵循这样的原则,拿到图像后,先提取角.边.曲线等等简单的几何元素,然后再用深度信息.表面信息等更高层的复杂信息,最后是更高层的更抽象的表达. 深度学习也是遵循这样的基本思想,从最简单的特征出发,通过多层函数传递,实现复杂的功能. 2. Image-Net比赛,2012年突破性的变化,AlexNet用卷积神经网络大幅提…
1. 生物学家做实验发现脑皮层对简单的结构比如角.边有反应,而通过复杂的神经元传递,这些简单的结构最终帮助生物体有了更复杂的视觉系统.1970年David Marr提出的视觉处理流程遵循这样的原则,拿到图像后,先提取角.边.曲线等等简单的几何元素,然后再用深度信息.表面信息等更高层的复杂信息,最后是更高层的更抽象的表达. 深度学习也是遵循这样的基本思想,从最简单的特征出发,通过多层函数传递,实现复杂的功能. 2. Image-Net比赛,2012年突破性的变化,AlexNet用卷积神经网络大幅提…
通过训练多层神经网络可以将高维数据转换成低维数据,其中有对高维输入向量进行改造的网络层.梯度下降可以用来微调如自编码器网络的权重系数,但是对权重的初始化要求比较高.这里提出一种有效初始化权重的方法,允许自编码器学习低维数据,这种降维方式比PCA表现效果更好. 降维有利于高维数据的分类.可视化.通信和存储.简单而普遍使用的降维方法是PCA(主要成分分析)--首先寻找数据集中方差最大的几个方向,然后用数据点在方向上的坐标来表示这条数据.我们将PCA称作一种非线性生成方法,它使用适应性的.多层"编码&…
论文阅读([CVPR2018]Jinshan Pan - Learning Dual Convolutional Neural Networks for Low-Level Vision) 本文针对低层视觉问题,提出了一般性的用于解决低层视觉问题的对偶卷积神经网络.作者认为,低层视觉问题,如常见的有超分辨率重建.保边滤波.图像去雾和图像去雨等,这些问题经常涉及到估计目标信号的两个成分:结构和细节.因此,文章提出DualCNN,它包含两个平行的分支来分别恢复结构和细节信息. 具体内容参见https…
论文地址:MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications 本文提出的模型叫MobileNet,主要用于移动和嵌入式视觉应用.该模型具有小巧.低延迟的特点.MobileNet在广泛的应用场景中具有有效性,包括物体检测,细粒度分类,人脸属性和大规模地理定位. MobileNet架构 深度可分解卷积(Depthwise Separable Convolution) MobileNet模…