基于三端卷积网络的在线视频目标分割

针对半监督视频目标分割任务，作者采取了和MaskTrace类似的思路，以optical flow为主。

本文亮点在于：

1. 使用共享backbone，三输出的自编码器。

2. 对一些视频中确定性像素建模，分割前后景。

3. 对被遮挡又重新出现的物体使用前后景GMMs损失建模识别，增加正确率。

摘要

半监督的在线视频目标分割任务就是给定第一帧的Mask，然后分割后续的帧。我们可以使用optical flow向量传递前面帧的分割效果到后续帧，但是这样会产生错误。因此作者提出了一个三端网络(CTN)——输出分割概率，确定性前景概率和确定性后景概率，然后使用马尔科夫随机场优化得到最终结果。

Proposed Algorithm

算法流程如下：

1. 首先输入当前帧 t 和前一帧 t-1 的分割mask，前一帧的分割mask在optcal flow的指导下预测出 t 帧的大致样子。

2. 同时对 t 帧和传播后的mask进行crop截取path。经过前景后景抽取的mask和crop后的 t 帧输入到网络得到三张概率map。

3. 对概率图进行MRF优化得到第 t 帧的分割效果。

Propagation of Segmentation Labels

对于像素点p=[x, y]^T，从I^(t-1)到I^(t)的label传播为：

其中S^(t-1)为前一帧的分割label图。[u, v]为I^(t)到I^(t-1)的后向optical flow向量。

Network Architecture

编码结构采用VGG-16，224x224x3为输入，由13个卷积层，3个全链接层和5个池化层组成。

分割概率需要精准风格边界，所以需要shortcut结构获取低层特征信息。确定性前景或后景只判断最可能确定的像素点，所以不需要细节信息。前景后景的输入resize到14x14和VGG输出对齐，因为只是估计确定性像素点，所以相当于低通滤波的resize可以这么设计。卷积层加BN+ReLU。

Training Phase

介绍完网络结构，接下来要说怎么训练，因为原始数据集一般都只带有label mask。

给定输入图片（a），根据边距进行裁剪，与图片的形状大小成正比。然后对mask降质(degrade)，对masked区域填充[0.5)的随机强度，然后遮盖部分或圆形噪声点（e）。对降质后的图片进行高斯smoothing和阈值化得到两个Ground truth。

推理阶段，截取图片和传播后的H输入网络，H需要多截取50像素点然后resize。

Markov Random Field Optimization

优化目标函数：。

其中前景后景的作用点在于一元能量函数：

Reappearing Object Detection

如何定义不连续的像素点来检测重新出现的目标，作者定义了像素点的不连续性

。假设前一帧的像素点为 p_head ，当前帧为 p，大于某阈值即为不连续。

对第一帧和第（t-1）帧使用前景和后景的GMMs。那么一个属于重新出现部分的不连续点的前景高斯损失就会低于后景高斯损失。高斯损失定义在公式（3）。

Experimental Results

作者又提出了一个Fast版本。

实验结果图：

[CVPR2017]Online Video Object Segmentation via Convolutional Trident Network的更多相关文章

泡泡一分钟:SceneCut: Joint Geometric and Object Segmentation for Indoor Scenes
张宁 SceneCut: Joint Geometric and Object Segmentation for Indoor Scenes "链接:https://pan.ba ...
论文笔记：AdaScale: Towards real-time video object detection using adaptive scalingAdaScale
AdaScale: Towards real-time video object detection using adaptive scaling 2019-02-18 16:14:17 Paper: ...
PaperNotes Instance-Level Salient Object Segmentation
title: PaperNotes Instance-Level Salient Object Segmentation comments: true date: 2017-12-20 13:53:1 ...
论文笔记：Capsules for Object Segmentation
Capsules for Object Segmentation 2018-04-16 21:49:14 Introduction: ----
video object detection
先说一下,我觉得近两年最好的工作吧.其他的,我就不介绍了,因为我懂得少. 微软的jifeng dai的工作. Deep Feature Flow github: https://github.co ...
Relation-Shape Convolutional Neural Network for Point Cloud Analysis(CVPR 2019)
代码:https://github.com/Yochengliu/Relation-Shape-CNN 文章:https://arxiv.org/abs/1904.07601 作者直播:https:/ ...
1 - ImageNet Classification with Deep Convolutional Neural Network （阅读翻译）
ImageNet Classification with Deep Convolutional Neural Network 利用深度卷积神经网络进行ImageNet分类 Abstract We tr ...
论文笔记：（CVPR2019）Relation-Shape Convolutional Neural Network for Point Cloud Analysis
目录摘要一.引言二.相关工作基于视图和体素的方法点云上的深度学习相关性学习三.形状意识表示学习 3.1关系-形状卷积建模经典CNN的局限性变换:从关系中学习通道提升映射 3.2性 ...
论文翻译：2020_FLGCNN: A novel fully convolutional neural network for end-to-end monaural speech enhancement with utterance-based objective functions
论文地址:FLGCNN:一种新颖的全卷积神经网络,用于基于话语的目标函数的端到端单耳语音增强论文代码:https://github.com/LXP-Never/FLGCCRN(非官方复现) 引用格式 ...

随机推荐

python2.7练习小例子（十九）
19):题目:一球从100米高度自由落下,每次落地后反跳回原高度的一半:再落下,求它在第10次落地时,共经过多少米?第10次反弹多高? #!/usr/bin/python # -*- codi ...
CDH,CM下载
wget -c -r -nd -np -k -L -A rpm http://archive-primary.cloudera.com/cdh5/parcels/latest/ http://arch ...
Ubantu E325 错误的解决办法
这个错误是由于未正确关闭文本编辑器导致的: 图一解决办法:退出后输入 sudo vim /etc/hosts 图二直接输入 D 即可! 注意:退出文本编辑器的正确方式是:ESC键 + :wq. 我 ...
lessJs
lessJs下载地址 ======== 简介 lessJs主要提供页面切换,页面管理的一个框架:less-ui.css 和 less-ui.js 是独立于less.js的,他们提供的是一组ui,包括消 ...
tomcat 异常
Removing obsolete files from server... Could not clean server of obsolete files: null java.lang.Null ...
Fiddler 4 实现手机App的抓包
Fiddler不但能截获各种浏览器发出的HTTP请求, 也可以截获各种智能手机发出的HTTP/HTTPS请求. Fiddler能捕获IOS设备发出的请求,比如IPhone, IPad, MacBook ...
玩玩自动化测试之selenium篇
现如今社会科技发展太快了,纯功能点点点已经落后别人好几条街了,所以为了让自己多点职业生涯年限,得挺起肩,傲起头.自动化测试,其本质是用代码程序测试程序,所以其实第一步应该学好编程语言,后再自己开发自动 ...
browsersync的安装与基本使用
browser-sync启动命令 Browsersync能让浏览器实时.快速响应您的文件更改(html.js.css.sass.less等)并自动刷新页面. 官网文档:http://www.brows ...
python 网络篇(计算机网络基础)
计算机网络的发展及基础网络概念广播主机之间“一对所有”的通讯模式,网络对其中每一台主机发出的信号都进行无 ...
Laxcus大数据管理系统2.0（3）- 第一章基础概述 1.2 产品特点
1.2 产品特点 Laxcus大数据管理系统运行在计算机集群上,特别强调软件对分布资源可随机增减的适应性.这种运行过程中数据动态波动和需要瞬时感知的特点,完全不同与传统的集中处理模式.这个特性衍生出一 ...

[CVPR2017]Online Video Object Segmentation via Convolutional Trident Network