Deep TEN: Texture Encoding Network

纹理特征，材料分类（Material Classification），在MINC-2500、Flickr Material Database、KTH-TIPS-2b、4D-Light-Field-Material、GTOS上state-of-the-art（2017年）。

思想主要来源是：传统图片分类方法都是提取人工设计的特征（SIFT等）然后使用BOW进行编码，再用SVM进行分类，后面BOW被VLAD、Fisher Vector编码替换并融合CNN特征可以达到sota的效果。然而这样的方法有缺点，就是编码和特征的学习并不是end-to-end的，所以作者设计了一个learnable residual encoding layer。作者还提到一般的CNN的方法虽然在图片分类和物体识别上有比较好的效果，但是在纹理识别上表现并不理想，给出的理由是：

``` recognizing textures needs for a spatially invariant representation describing the feature distributions instead of concatenation ```

这篇论文的主要贡献：

1. learnable residual encoding layer。能够生成鲁棒的残差编码例如（VLAD和Fisher Vector），能接收任意的输入分辨率，并且生成固定长度的特征表示，这种编码方式非常适合pretrained feature的迁移。关于该层的一个后向传播可以看论文的附录A，给了很清楚的推导。一个前向计算如下公式：

2.将feature extraction, dictionary learning, encoding 融合成一个end-to-end的形式。

整个网络模型结构：

开源代码：

Pytorch：https://github.com/zhanghang1989/PyTorch-Encoding-Layer

FisherVector的教程：http://www.vlfeat.org/api/fisher-fundamentals.html

VLAD的教程：http://www.vlfeat.org/api/vlad-fundamentals.html

Deep TEN: Texture Encoding Network的更多相关文章

论文笔记：Person Re-identification with Deep Similarity-Guided Graph Neural Network
Person Re-identification with Deep Similarity-Guided Graph Neural Network 2018-07-27 17:41:45 Paper: ...
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1
3.Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1 http://blog.csdn.net/sunbow0 ...
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.2
3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.2 http://blog.csdn.net/sunbow0 ...
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.3
3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3 http://blog.csdn.net/sunbow0 ...
论文翻译：2020_DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
论文地址:DCCRN:用于相位感知语音增强的深度复杂卷积循环网络论文代码:https://paperswithcode.com/paper/dccrn-deep-complex-convolutio ...
通过Visualizing Representations来理解Deep Learning、Neural network、以及输入样本自身的高维空间结构
catalogue . 引言 . Neural Networks Transform Space - 神经网络内部的空间结构 . Understand the data itself by visua ...
Deep learning与Neural Network
深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本.深度学习是无监督学习的一种. 深度学习的概念源于人工神经网络的 ...
Speech Enhancement via Deep Spectrum Image Translation Network
文中提出了一种深度网络来解决单通道语音增强问题. 链接:https://arxiv.org/abs/1911.01902 简介因为背景噪声和混响的存在,录音通常会被扭曲,会对后端的语音识别等技术产生 ...
论文笔记 CVPR-2014 DeepReID Deep filter pairing neural network for person re-identification
1. 摘要第一篇用深度学习做Reid的文章,提出的FPNN采用端到端的训练方式,解决行人再识别的不对齐,光照,姿态等问题. 建立了一个新的带benchmark的数据集CUHK03,表现性能良好. 2 ...

随机推荐

kaggle比赛之悟
一.模型与特征哪个重要? 参与Sberbank Russian Housing Market比赛,一开始使用sklearn的岭回归函数Ridge(),残差值一直是0.37左右,然后同样的特征又使用了X ...
python进行机器学习（二）之特征选择
毫无疑问,解决一个问题最重要的是恰当选取特征.甚至创造特征的能力,这叫做特征选取和特征工程.对于特征选取工作,我个人认为分为两个方面: 1)利用python中已有的算法进行特征选取. 2)人为分析各个 ...
SQL Workbench/J
最近测试segment, 使用了一个新的DB--SQL Workbench/J, 参考文档:http://docs.aws.amazon.com/redshift/latest/mgmt/connec ...
H5对安卓WeView开发中的影响
1.body,或者html 高度为100% 会导致下拉直接触发原生的刷新控件,而不是webView滑动到顶部后刷新,以及不会执行onScrollChanged 方法,并且getScrollY 总是返 ...
【bzoj4530】大融合（LCT的子树维护）
LCT维护子树并没有想象中的那么难,在这里只是复习下. (其他的维护子树的题目,可见:“共价大爷游长沙”) 只要记录下虚边连接的信息就好了. #include<bits/stdc++.h> ...
tomcat组成介绍和调优方案
1.tomcat组成介绍 1.1 目录组成介绍 1.2 启动tomcat中遇到的问题 a.启动过程中出现很多异常:因为端口被占用了解决方式1:修改Tomcat\conf\server.xml中的默认 ...
Linux命令--more
more命令,功能类似 cat ,cat命令是整个文件的内容从上到下显示在屏幕上. more会以一页一页的显示方便使用者逐页阅读,而最基本的指令就是按空白键(space)就往下一页显示,按 b 键就会 ...
【Android开发日记】之基础篇（一）——TextView+SpannableStringBuilder
TextView是控件中最最基础的一个控件,也是最简单的一个控件.但如果仅此,我不会专门为TextView写一篇文章.最近发现了Android中有趣的一个类,那就是标题上写的SpannableStri ...
leetcode 之Plus One（9）
这题需要注意的是最后的进位 vector<int> plusOne(vector<int>& nums,int num) { add(nums, num); } voi ...
elasticsearch批量索引数据示例
示例数据文件document.json(index表示在索引中增加或替换现有文档,create表示如果文档不存在则添加文档,delete表示删除文档): { "index": { ...

Deep TEN: Texture Encoding Network

Deep TEN: Texture Encoding Network的更多相关文章

随机推荐

热门专题