Context Encoder论文及代码解读

经过秋招和毕业论文的折磨，提交完论文終稿的那一刻总算觉得有多余的时间来搞自己的事情。

研究论文做的是图像修复相关，这里对基于深度学习的图像修复方面的论文和代码进行整理，也算是研究生方向有一个比较好的结束。好啦，下面开始进入正题～

所有的image inpainting的介绍在这里：基于深度学习的Image Inpainting（论文+代码）

Context encoders for image generation
1. Encoder-decoder pipeline
网络结构是一个简单的编码器-解码器结构，中间采用Channel-wise fully-connected layer来连接编码器和解码器，网络结构如图。

1.1 编码器：采用AlexNet网络作为baseline，五个卷积加上池化pool5，若输入图像为227x227，可以得到一个6x6x256的特征图。

1.2 Channel-wise fully-connected layer：减少网络参数，若使用全连接层，输入特征图为mxnxn，输出也为mxnxn，则需要m²n⁴的参数，而使用channel-wise仅需要mn⁴的参数，使用步长为1的卷积来将信息在通道之间传递。

1.3 解码器：就是一系列的五个上卷积的操作，使其恢复到与原图一样的大小。

2. Loss function

包含reconstruction(l2) loss和adversarial loss。

2.1 重建L2 loss主要是捕获缺失区域的整体结构，但是容易在预测输出中平均多种模式；

M作为二值化的掩码，没看懂最外面的M是干啥用。。

2.2 而adv loss则从多种可能的输出模式中选择一种，也可以说是进行特定模式选择，使得预测结果看起来更真实。

2.3 两种loss结合到一起，既具备结构性，也具备真实语义性。

对于任意区域的图像修复网络结构图如下。

我觉得这篇论文的创新点有以下两点：

1. 使用编码-解码器结构来完成图像修复的任务，并改用channel-wise的方式连接，节省了一定的参数。

2. 使用联合损失函数，结合重建l2 loss和对抗式adv loss，使得修复图像更加真实。

代码解读：train.lua

---------------------------------------------------------------------------

-- Adversarial discriminator net

---------------------------------------------------------------------------

local netD = nn.Sequential()

if opt.conditionAdv then

    local netD_ctx = nn.Sequential()

    -- input Context: (nc) x 128 x 128, going into a convolution

    netD_ctx:add(SpatialConvolution(nc, ndf, 5, 5, 2, 2, 2, 2))

    -- state size: (ndf) x 64 x 64

    local netD_pred = nn.Sequential()

    -- input pred: (nc) x 64 x 64, going into a convolution

    netD_pred:add(SpatialConvolution(nc, ndf, 5, 5, 2, 2, 2+32, 2+32))      -- 32: to keep scaling of features same as context

    -- state size: (ndf) x 64 x 64

    local netD_pl = nn.ParallelTable();

    netD_pl:add(netD_ctx)

    netD_pl:add(netD_pred)

    netD:add(netD_pl)

    netD:add(nn.JoinTable(2))

    netD:add(nn.LeakyReLU(0.2, true))

    -- state size: (ndf * 2) x 64 x 64

    netD:add(SpatialConvolution(ndf*2, ndf, 4, 4, 2, 2, 1, 1))

    netD:add(SpatialBatchNormalization(ndf)):add(nn.LeakyReLU(0.2, true))

    -- state size: (ndf) x 32 x 32

else

    -- input is (nc) x 64 x 64, going into a convolution

    netD:add(SpatialConvolution(nc, ndf, 4, 4, 2, 2, 1, 1))

    netD:add(nn.LeakyReLU(0.2, true))

    -- state size: (ndf) x 32 x 32

end

train.lua中分别得到生成器和判别器的网络结构，然后准备数据，进行训练。这里选择判别器的网络结构代码分析。

网络结构中用到了nn.ParallelTable()，向介绍下torch中nn.Sequential，nn.Concat/ConcatTable，nn.Parallel/PararelTable之间的区别。

Torch-nn学习：Table Layer

Parallel Table和 ConcatTable

那么为什么生成器和判别器都需要用到nn.ParallelTable呢？即对每个成员模块应用与之对应的输入(第i个模块应用第i个输入)

我的理解：生成器需要将输入图像和noise输入到生成器中得到预测的图像；而判别器需要将真实的图像和预测的图像输入到判别器中。

Context Encoder论文及代码解读的更多相关文章

sort论文和代码解读
流程:1.detections和trackers用匈牙利算法进行匹配 2.把匹配中iou < 0.3的过滤成没匹配上的(1.2步共同返回匹配上的,没匹配上的trackers,没匹配上的detec ...
CVPR2018: Generative Image Inpainting with Contextual Attention 论文翻译、解读
注:博主是大四学生,翻译水平可能比不上研究人员的水平,博主会尽自己的力量为大家翻译这篇论文.翻译结果仅供参考,提供思路,翻译不足的地方博主会标注出来,请大家参照原文,请大家多多关照. 转载请务必注明出 ...
Android MVP模式谷歌官方代码解读
Google官方MVP Sample代码解读关于Android程序的构架, 当前(2016.10)最流行的模式即为MVP模式, Google官方提供了Sample代码来展示这种模式的用法. Repo ...
[ZZ]计算机视觉、机器学习相关领域论文和源代码大集合
原文地址:[ZZ]计算机视觉.机器学习相关领域论文和源代码大集合作者:计算机视觉与模式注:下面有project网站的大部分都有paper和相应的code.Code一般是C/C++或者Matlab代码 ...
weex官方demo weex-hackernews代码解读(上)
一.介绍 weex 是阿里出品的一个类似RN的框架,可以使用前端技术来开发移动应用,实现一份代码支持H5,IOS和Android.最新版本的weex已默认将vue.js作为前端框架,而weex-hac ...
代码解读 | VINS 视觉前端
本文作者是计算机视觉life公众号成员蔡量力,由于格式问题部分内容显示可能有问题,更好的阅读体验,请查看原文链接:代码解读 | VINS 视觉前端 vins前端概述在搞清楚VINS前端之前,首先要搞 ...
《T-GCN: A Temporal Graph Convolutional Network for Trafﬁc Prediction》代码解读
论文链接:https://arxiv.org/abs/1811.05320 博客原作者Missouter,博客链接https://www.cnblogs.com/missouter/,欢迎交流. 解读 ...
优秀开源代码解读之JS与iOS Native Code互调的优雅实现方案
简介本篇为大家介绍一个优秀的开源小项目:WebViewJavascriptBridge. 它优雅地实现了在使用UIWebView时JS与ios 的ObjC nativecode之间的互调,支持消息发 ...
SoftmaxLayer and SoftmaxwithLossLayer 代码解读
SoftmaxLayer and SoftmaxwithLossLayer 代码解读 Wang Xiao 先来看看 SoftmaxWithLoss 在prototext文件中的定义: layer { ...

随机推荐

MySQL中使用union all获得并集的排序
项目中有时候因为某些不可逆转的原因使得表中存储的数据难以满足在页面中的展示要求.之前的项目上有文章内容的展示功能,文章分为三个状态待发布.已发布.已下线.他们在数据表中判断状态的字段(PROMOTE_ ...
[转]OpenStreetMap/Google/百度/Bing瓦片地图服务(TMS)
转自:https://blog.csdn.net/youngkingyj/article/details/23365849 开源与成熟商业的瓦片地图服务(TMS 2 WMTS),都有如下共同的特性 ...
NetBus —— 让你的 App 内部随处感知网络的变化
简介 NetBus 是一个实时监听网络状态的一个框架,接入简单.只需要几步就可以在 Activity 和 Fragment 以及其他要观测的类中很方便的收到网络状态变化的通知. 愿景可以在 App ...
雷林鹏分享：url中加号引发的错误
刚发现了博客的一个bug,标签页中一些标签带有空格,在url输出中使用了 urlencode 函数进行处理,导致空格被转换成了加号(+),这时通过url访问时会出现错误: 临时解决方法是在urlcod ...
[冷知识] 连字符-减号-横杠的区别 difference between hyphen-minus-dash
因为早期打印机等宽的原因, 连字符和减号都是 -, 叫做hyphen-minus ,对应Unicode: U+002D(ASCII也是). 现在减号可以是:U+2212, 但编程语言中还是习惯使用U+ ...
RobotFramework自动化测试框架-Selenium Web自动化(-)-Open Browser和Close Browser
Selenium出来已经有很多年了,从最初的Selenium1到后来的Selenium2,也变得越来越成熟,而且也已经被很多公司广泛使用.Selenium发展的过程中,分了很多模块,这里我们主要介绍W ...
js判断输入的input内容是否为数字
有时候我们输入的input的内容需要判断一下是否是数字,所以为了更好的客户体验,在前端先处理一下: <input type="text" name="val&quo ...
CSS设计模式
关于web设计的网站 https://www.smashingmagazine.com/
springcloud-zuul路由网关
路由网关(zuul) 在微服务架构中,需要多个基础的服务治理组件,包括服务注册与发现.服务消费.负载均衡.断路器.智能路由.配置管理等,由这个基础组件相互协作,共同组建了一个简单的微服务系统.一个简 ...
This application failed to start because it could not find or load the Qt platform plugin异常
双击项目Release文件夹下的exe程序无法启动: 解决办法: 1.将用到的QT组件拷贝到程序目录: 2.将D:\Qt\Qt5.3.2\5.3\msvc2013_64_opengl\plugins目 ...

Context Encoder论文及代码解读

Context Encoder论文及代码解读的更多相关文章

随机推荐

热门专题