Deep TEN: Texture Encoding Network

纹理特征，材料分类（Material Classification），在MINC-2500、Flickr Material Database、KTH-TIPS-2b、4D-Light-Field-Material、GTOS上state-of-the-art（2017年）。

思想主要来源是：传统图片分类方法都是提取人工设计的特征（SIFT等）然后使用BOW进行编码，再用SVM进行分类，后面BOW被VLAD、Fisher Vector编码替换并融合CNN特征可以达到sota的效果。然而这样的方法有缺点，就是编码和特征的学习并不是end-to-end的，所以作者设计了一个learnable residual encoding layer。作者还提到一般的CNN的方法虽然在图片分类和物体识别上有比较好的效果，但是在纹理识别上表现并不理想，给出的理由是：

``` recognizing textures needs for a spatially invariant representation describing the feature distributions instead of concatenation ```

这篇论文的主要贡献：

1. learnable residual encoding layer。能够生成鲁棒的残差编码例如（VLAD和Fisher Vector），能接收任意的输入分辨率，并且生成固定长度的特征表示，这种编码方式非常适合pretrained feature的迁移。关于该层的一个后向传播可以看论文的附录A，给了很清楚的推导。一个前向计算如下公式：

2.将feature extraction, dictionary learning, encoding 融合成一个end-to-end的形式。

整个网络模型结构：

开源代码：

Pytorch：https://github.com/zhanghang1989/PyTorch-Encoding-Layer

FisherVector的教程：http://www.vlfeat.org/api/fisher-fundamentals.html

VLAD的教程：http://www.vlfeat.org/api/vlad-fundamentals.html

Deep TEN: Texture Encoding Network的更多相关文章

论文笔记：Person Re-identification with Deep Similarity-Guided Graph Neural Network
Person Re-identification with Deep Similarity-Guided Graph Neural Network 2018-07-27 17:41:45 Paper: ...
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1
3.Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.1 http://blog.csdn.net/sunbow0 ...
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.2
3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.2 http://blog.csdn.net/sunbow0 ...
Spark MLlib Deep Learning Convolution Neural Network (深度学习-卷积神经网络)3.3
3.Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3 http://blog.csdn.net/sunbow0 ...
论文翻译：2020_DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement
论文地址:DCCRN:用于相位感知语音增强的深度复杂卷积循环网络论文代码:https://paperswithcode.com/paper/dccrn-deep-complex-convolutio ...
通过Visualizing Representations来理解Deep Learning、Neural network、以及输入样本自身的高维空间结构
catalogue . 引言 . Neural Networks Transform Space - 神经网络内部的空间结构 . Understand the data itself by visua ...
Deep learning与Neural Network
深度学习是机器学习研究中的一个新的领域,其动机在于建立.模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本.深度学习是无监督学习的一种. 深度学习的概念源于人工神经网络的 ...
Speech Enhancement via Deep Spectrum Image Translation Network
文中提出了一种深度网络来解决单通道语音增强问题. 链接:https://arxiv.org/abs/1911.01902 简介因为背景噪声和混响的存在,录音通常会被扭曲,会对后端的语音识别等技术产生 ...
论文笔记 CVPR-2014 DeepReID Deep filter pairing neural network for person re-identification
1. 摘要第一篇用深度学习做Reid的文章,提出的FPNN采用端到端的训练方式,解决行人再识别的不对齐,光照,姿态等问题. 建立了一个新的带benchmark的数据集CUHK03,表现性能良好. 2 ...

随机推荐

【shell】shell编程(六)-shell函数的应用
linux shell 可以用户定义函数,然后在shell脚本中可以随便调用. shell中函数的定义格式如下: [ function ] funname [()] { action; [return ...
关于Linux下s、t、i、a权限
文件权限除了r.w.x外还有s.t.i.a权限: 首先我们利用umask查看系统的权限为四位,首位就是特殊权限位,SetUID为4,SetGID为2,t为1 [root@iz2ze46xi6pjjj6 ...
document.onclick在ios上不触发的解决方法与touchstart点击穿透处理
document.onclick = function (e) { var e = e ? e : window.event; var tar = e.srcElement || e.target; ...
Vue组件-动态组件
动态组件通过使用保留的 <component> 元素,动态地绑定到它的 is 特性,可以让多个组件使用同一个挂载点,并动态切换: <div id="app6"& ...
WA时查错点
这篇文章旨在总结可能出错的原因,想到时随时会补充. 查看调试输出语句是否删除查看数组是否清零查看是否使用long long 查看是否有的常量应开LL(如1LL << (32) ) 查看 ...
关于自适应屏幕，设置子元素浮动，父div不能包裹子div，子元素中内容溢出的问题。
设置HTML适应不同分辨率的屏幕. 需求结构如下: HTML结构代码如下(只是其中一条): <body> <div class="content">< ...
【转载】Web开发技术发展历史-版本2
原文在这里. Web开发的发展史导读:Arunr 把过去 15 年以来,Web开发从最初的纯 HTML 到 CGI.PHP\JSP\ASP.Ajax.Rails.NodeJS 这个过程简要地进行了介 ...
SQLiScanner：又一款基于SQLMAP和Charles的被动SQL 注入漏洞扫描工具
https://blog.csdn.net/qq_27446553/article/details/52610095
Java学习笔记（七）——获取类中方法的信息,java的LinkedList
[前面的话] 在实际项目中学习知识总是最快和最有效的,既能够较好的掌握知识,又能够做出点东西,还是简单的知识总结,最近一直在总结笔记,写的东西还是比较水,希望慢慢可以写出一些干货. 学习过程中的小知识 ...
Visual Studio for Mac 安装时无法连接到网络等问题
问题: 1.下载 vs for mac 离线安装包离线下载地址https://download.microsoft.com/download/3/d/4/3d42f40f-4f0a-4613-920 ...

Deep TEN: Texture Encoding Network

Deep TEN: Texture Encoding Network的更多相关文章

随机推荐

热门专题