Learning in the Frequency Domain 解读

论文：Learning in the Frequency Domain， CVPR 2020

实际的图像尺寸比较大，无法直接输入到CNN处理。因此，各类CNN模型都把图像首先下采样的224x224，然后再处理。但是，这样会引起信息损失并影响准确率。因此，阿里巴巴的研究人员提出新的方法，把RGB图像变换到DCT频率域，而不是直接下采样。该模型不需要改变现有网络结构，因此可以应用于任何CNN网络。

该方法总体思路：高分辨率RGB图像首先转换到YCbCr颜色空间，然后转换为DCT频域。这样就产生多个通道。某些通道对于分类识别的影响较大，因此，只保留重要的通道输入到CNN处理即可。

具体来说，将图像按8x8分块，在Y通道每个块会得到64个DCT信号，对应64个不同的频率分量。对于尺寸为W x H的原始图像, 会有W/8 x H/8 个块。每个块中相同位置的频率分量可以组成一个尺寸为W/8 x H/8 的feature map，这样会产生8x8=64个feature map。对于Cb和Cr通道，也可以各自产生64个feature map。总共产生了64x3=192个feature map。假设W=H=448, 那么现有的基于频域的feature map的尺寸为56x56x192。

对于ResNet-50，输入为224x224，经过一次卷积和pooling后， feature map 尺寸为 56x56。这样我们可以把 56x56x192 的 feature map 放在这里即可。

时间有限，没有仔细阅读代码，有时间补上代码的解析。

Learning in the Frequency Domain 解读的更多相关文章

数字图像处理实验（9）：PROJECT 04-05，Correlation in the Frequency Domain 标签：图像处理MATLAB 2017-05-25 10:14
实验要求: Objective: To know how to implement correlation of 2 functions in the frequency domain and, us ...
convolution in frequency domain
https://blog.csdn.net/myjiayan/article/details/72427995 convolution in frequency domain convolution ...
FFT快速傅立叶变换：解析wav波频图、Time Domain、Frequency Domain
您好,此教程将教大家使用scipy.fft分析wav文件的波频图.Time Domain.Frequency Domain. 实际案例:声音降噪,去除高频. 结果: 波频图: Time Domain:
Relationship between frequency domain and spatial domain in digital images
今天又复习了一遍<<Digital Image Processing>>的第四章,为了加深对频域的理解,我自己用PS画了一张图.如下: 然后做FFT,得到频谱图如下: 从左到右 ...
Speex回声消除代码分析
先说明下,这里的代码流程是修改过的Speex流程,但与Speex代码差异不大,应该不影响阅读. (1)用RemoveDCoffset函数进行去直流 (2)远端信号预加重后放入x[i+frame_s ...
Speex回声消除原理深度解析
这里假设读者具有自适应滤波器的基础知识.Speex的AEC是以NLMS为基础,用MDF频域实现,最终推导出最优步长估计:残余回声与误差之比.最优步长等于残余回声方差与误差信号方差之比,这个结论可以记下 ...
CVPR 2020 全部论文分类汇总和打包下载
CVPR 2020 共收录 1470篇文章,根据当前的公布情况,人工智能学社整理了以下约100篇,分享给读者. 代码开源情况:详见每篇注释,当前共15篇开源.(持续更新中,可关注了解). 算法主要领域 ...
CVPR 2020论文收藏（转知乎：https://zhuanlan.zhihu.com/p/112337176）
CVPR 2020 共收录 1470篇文章,根据当前的公布情况,人工智能学社整理了以下约100篇,分享给读者. 代码开源情况:详见每篇注释,当前共15篇开源.(持续更新中,可关注了解). 算法主要领域 ...
论文翻译：2019_Deep Neural Network Based Regression Approach for A coustic Echo Cancellation
论文地址:https://dl.acm.org/doi/abs/10.1145/3330393.3330399 基于深度神经网络的回声消除回归方法摘要声学回声消除器(AEC)的目的是消除近端传声器 ...

随机推荐

openstack Rocky 社区版部署1.2 安装ntp service
一.controller节点安装ntp 1 安装ntp服务 yum install chrony 2 Edit the chrony.conf file and add, change, or rem ...
django项目常见报错集
1.mysqlclient 目前不支持高版本python3 django.core.exceptions.ImproperlyConfigured: mysqlclient 1.3.13 or new ...
113资讯网——NGINX 502 Bad Gateway——解决方案
NGINX 502 Bad Gateway错误出现的原因较多,对于后端连接PHP服务的场景下,常见的原因有php服务响应超时,php进程不足等引起的一类服务器错误. 发生原因: PHP FastCGI ...
Logstash7.6.2同步Mysql数据到ElasticSearch
1.准备工作:存在的mysql的数据库表.创建好的elasticsearch索引 2.下载mysql-connector 下载地址:https://dev.mysql.com/downloads/co ...
finally 关键字
异常处理的时侯出现的关键字finally 不论在 try 代码块中是否出现发生了异常时间, catch语句是否执行,catch语句是否有异常,catch语句中是否return关键字 ,f ...
Least Cost Bracket Sequence，题解
题目链接题意: 给你一个含有(,),?的序列,每个?变成(或)有一定的花费,问变成课匹配的括号的最小花费. 分析: 首先如果能变成匹配的,那么就有右括号的个数始终不多于左括号且左右括号数量相等,那就 ...
诊断Java线程死锁
比如我们有运行这样一个程序: 了解多线程的小伙版都知道,这段代码不会有打印结果,因为发生了死锁.我们在服务器上运行试试,没有输出,对应的进程是 32752. 使用 “jstack 32752”排查,后 ...
Jmeter系列（36）- 详解 Loop Controller 循环控制器
如果你想从头学习Jmeter,可以看看这个系列的文章哦 https://www.cnblogs.com/poloyy/category/1746599.html 前言这应该是最简单的控制器了,我们快 ...
C#字符串拼接
var name = "李哈哈"; var t = $"我是{name}";
机器学习实战基础（九）：sklearn中的数据预处理和特征工程（二）数据预处理 Preprocessing & Impute 之数据无量纲化
1 数据无量纲化在机器学习算法实践中,我们往往有着将不同规格的数据转换到同一规格,或不同分布的数据转换到某个特定分布的需求,这种需求统称为将数据“无量纲化”.譬如梯度和矩阵为核心的算法中,譬如逻辑回 ...

Learning in the Frequency Domain 解读

Learning in the Frequency Domain 解读的更多相关文章

随机推荐

热门专题