摘要

有损压缩是一个优化问题，其优化目标是率失真，优化对象是编码器、量化器和解码器（同时优化）。

Lossy image compression can be formulated as a joint rate-distortion optimization to learn encoder, quantizer, and decoder.
其中，量化器和离散熵预测（discrete entropy estimation）是不可差分的，因此要将压缩系统用CNN替换是很困难的。
作者认为，我们可以根据图像的局部内容，来决定图像中每一个区域的重要性，从而控制每一个区域的码率分配，从而替换掉离散熵估计。
此外，作者还采用了一个二元机（binarizer）来实现量化功能。为了让二元机在BP过程中可差分，作者引入了一个代理函数（proxy function），在BP中代替二元操作。
此时，编码器、解码器、二元机和权重图是可以端到端优化的。
为了实现无损压缩，作者还引入了卷积熵编码器。
实验发现，在低码率图像压缩条件下，算法的SSIM指标超过了JPEG和JPEG 2000。

故事要点

一个图像压缩系统通常需要包括以下三个组分：编码器（encoder），量化器（quantizer）和解码器（decoder）。这才能组成一个编解码器（codec）。
JPEG和JPEG 2000为什么不够好呢【有哪些提升空间呢】？首先，它们都依赖于主观设计的图像变换方法，并且需要对各组分独立优化。从效果上，在低码率压缩时二者表现都很差，会产生模糊、振铃和块效应等。
CNN为什么有取而代之的潜力呢？因为：复杂的非线性分析和生成变换过程，都可以用几层CNN实现。此外，CNN结构还可以让编码器和解码器联合优化。
尽管基于深度学习的工作很多，但仍有许多问题亟待解决。首先，我们如何解决量化器的不可差分特性？其次，由于我们的学习目标是同时最小化压缩率和失真，因此我们要衡量熵率（entropy rate）。如何连续地近似用离散码元定义的离散熵率？
因此，本文的目标就是解决（1）量化和（2）熵率预测问题。
现有的深度学习方法，为每一个位置都分配相同长度的码元。显然，局部信息量（local informative content）是空域变化的，因此比特率也应该是空域变化的。因此作者提出了一个基于内容权重的重要性图（content-weighted importance map）。其输出一个与输入同尺寸的图。每一个点的值是一个非负数值，指示编码长度。此时，重要性图各点求和，就可以作为压缩率的连续预测，进而作为压缩率控制器。此时，我们就不再需要预测熵率了。
二元机很简单：首先对特征图取sigmoid函数，输出大于0.5的则归为1，否则为0。在反向传播时，该二元机被一个代理函数近似。
此时，整体网络就可以联合优化。如图：
注意：在传统方法中，编码是基于上下文（context）的。为此，作者采用了[14]提出的基于上下文的自适应二进制算术编码方法CABAC，进一步压缩二进制码元和重要性图。

本来我是想看一看重要性图怎么生成的。看到上图就知道了，就是简单的CNN网络。因此方法没再细看。

以我的经验，这种方案最难的是训练。我们直接看看作者怎么训练的。

模型训练

前面提到了，我们要同时最小化压缩率和失真。因此损失函数设为两个加权组合：
\[
loss = MSE + \gamma R
\]
其中，MSE是从解码器解码出来的图像，与原图像的\(L_2\)范数。R是码率损失。作者设置了一个阈值\(r\)，若重要性图的求和大于\(r\)，则损失为和；否则为0。总的损失是batch中每一张图像损失的总和。

在实际训练时，作者先抛开重要性图，让编码器解码器主体先收敛；然后按三个阶段训练，学习率分别是\(1e^{-4}\)、\(1e^{-5}\)和\(1e^{-6}\)。每个阶段都训练到损失函数不再下降为止。

\(\gamma\)和\(r\)根据需要可调。

Paper | Learning convolutional networks for content-weighted image compression的更多相关文章

Paper | U-Net: Convolutional Networks for Biomedical Image Segmentation
目录故事背景 U-Net 具体结构损失数据扩充发表在2015 MICCAI.原本是一篇医学图像分割的论文,但由于U-Net杰出的网络设计,得到了8k+的引用. 摘要 There is larg ...
Paper Reading - Convolutional Sequence to Sequence Learning ( CoRR 2017 ) ★
Link of the Paper: https://arxiv.org/abs/1705.03122 Motivation: Compared to recurrent layers, convol ...
【论文笔记】Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs 2018-01-17 21:41:57 [Introduction] 这篇 paper 是发表在 ...
FlowNet: Learning Optical Flow with Convolutional Networks
作者:嫩芽33出处:http://www.cnblogs.com/nenya33/p/7122701.html 版权:本文版权归作者和博客园共有转载:欢迎转载,但未经作者同意,必须保留此段声明:必须 ...
Paper | Densely Connected Convolutional Networks
目录黄高老师190919在北航的报告听后感故事背景网络结构 Dense block DenseNet 过渡层成长率瓶颈层细节实验发表在2017 CVPR. 摘要 Recent work ...
Deep Learning 33：读论文“Densely Connected Convolutional Networks”-------DenseNet 简单理解
一.读前说明 1.论文"Densely Connected Convolutional Networks"是现在为止效果最好的CNN架构,比Resnet还好,有必要学习一下它为什么 ...
How to do Deep Learning on Graphs with Graph Convolutional Networks
翻译: How to do Deep Learning on Graphs with Graph Convolutional Networks 什么是图卷积网络图卷积网络是一个在图上进行操作的神经网 ...
模型压缩-Learning Efficient Convolutional Networks through Network Slimming
Zhuang Liu主页:https://liuzhuang13.github.io/ Learning Efficient Convolutional Networks through Networ ...
[论文理解] Learning Efficient Convolutional Networks through Network Slimming
Learning Efficient Convolutional Networks through Network Slimming 简介这是我看的第一篇模型压缩方面的论文,应该也算比较出名的一篇吧 ...

随机推荐

DevExpress启动时的全屏SplashScreen
使用DevExpress启动时弹出"正在加载"的Logo,而且是全屏,这种感觉不太好. 原因是使用了DocmentManager控件,当DocmentManager初始化如果耗时较 ...
IT兄弟连 Java语法教程流程控制语句循环结构语句3
while循环 Java中的另外一种循环是while循环.while循环的语法格式如下: while(条件表达式){ 循环体; } 其中条件表达式定义了控制循环的条件,可以使任何有效的boolean表 ...
12-UA池和代理池
一.UA池和代理池 1.UA池 scrapy的下载中间件: 下载中间件(Downloader Middlewares) 位于s ...
JVM GC系列 — GC算法
一.前言从本篇文章开始,将开始一个新的系列JVM.JVM是一个非常庞大且复制的技术体系,但是对于程序猿的升级,走向更高阶所必要经历的,曾经也下决心要好好学习一番,然而毅力不足都中途放弃. GC的作用 ...
vue-列表动画
实现列表动画 li { border: 1px dashed #999; margin: 5px; line-height: 35px; padding-left: 5px; font-size: 1 ...
Java生鲜电商平台-订单配送模块的架构与设计
Java生鲜电商平台-订单配送模块的架构与设计生鲜电商系统最终的目的还是用户下单支付购买, 所以订单管理系统是电商系统中最为复杂的系统,其作为中枢决定着整个商城的运转, 本文将对于生鲜类电商平台的订 ...
合格的施工图是如何绘制的？必须要get这四点，大多数人都不知道
对于工程设计师来说加班通宵赶图改图是常有的事情,如何绘制一套合格的施工图?这是很多工程设计师都会问的问题. 绘制一套合格的施工图,你需要注意以下四点: 一.明确施工图的作用和目的 1. 工程设计的细化 ...
CSS3 2D变形 transform---移动 translate(x, y), 缩放 scale(x, y), 旋转 rotate(deg), transform-origin, 倾斜 skew(deg, deg)
transform是CSS3中具有颠覆性的特征之一,可以实现元素的位移.旋转.倾斜.缩放,甚至支持矩阵方式,配合过渡和即将学习的动画知识,可以取代大量之前只能靠Flash才可以实现的效果. 变形转换 ...
Android O的通知渠道适配
在 Android O 以后,Google引入了通知通道的概念,如果目标API大于 Android O ,不直指定通知渠道是不能发送通知的. 这里放一个我写好的通知方法,大家可以适当的改改再用,*当 ...
element-ui修改表单自带验证的样式
1.比如重写在表单自带验证的样式 .el-form-item__error是对应是的文字的类名,图标我是通过伪元素插进去的下面是伪元素代码基本上要重写样式的,到控制台看样式名,因为是封装的,所以有 ...

Paper | Learning convolutional networks for content-weighted image compression

摘要

故事要点

模型训练

Paper | Learning convolutional networks for content-weighted image compression的更多相关文章

随机推荐

热门专题