论文笔记: Mutual Learning to Adapt for Joint Human Parsing and Pose Estimation

Mutual Learning to Adapt for Joint Human Parsing and Pose Estimation

2018-11-03 09:58:58

Paper: http://openaccess.thecvf.com/content_ECCV_2018/papers/Xuecheng_Nie_Mutual_Learning_to_ECCV_2018_paper.pdf

Code: https://github.com/NieXC/pytorch-mula

Related Paper: Deep mutual learning Code: https://github.com/YingZhangDUT/Deep-Mutual-Learning

1. Background and Motivation:

本文提出一种模型 MuLA（Mutual Learning to Adapt）来调整模型，来更好的完成行人解析和姿态估计的问题。之所以会这么做，是因为这两个任务是可以相互协助，互相补充的：Human pose can offer structured information for body part segmentation and lebelling, and on the other hand human parsing can facilitate localizing body joints in difficult scenarios，如图 1 所示：

图 1 给出了案例，考虑到这两个任务之间的 mutual guidance information，可以有效的协助改善 parsing 和 localization 的精度。

受到该观察的启发，已经有工作开始借助这种引导信息，来改善这两个任务的性能。但是，现有的方法通常分别训练一个特定的模型，并且用这种引导信息来作为后期处理，从而有如下几个劣势：

1). 严重依赖于手工设计的特征；

2). 仅在 inference procedure 利用该 guidance information，而在 training stage 并没有增强模型的 capacity；

3). 前人工作都是 one-stop solutions，而不能迭代的增强模型，从而改善结果；

4). 这些模型都不是 end-to-end learning。

为了解决上述问题，本文提出一种 Mutual Learning to Adapt （MuLA）model 来充分，系统的探索 mutual guidance information。流程图如下所示，该 Mutual Adaptation Module 可以是一个迭代的过程，从而可能会学习到更好的表达。

2. The Details of MuLA：

本文采用来表示 parsing 和 pose models。带有星号 * 的下标表示 the parameters are adaptable to other task。然后本文所提出的 MuLA 模型可以表达成如下迭代学习的形式：

其中，t 表示的迭代次数。$\hat(S)$ 和 $\hat{J}$ 是 parsing 和 pose annotations，F 表示提取出来的特征。如图 2 所示，MuLA 是由三个部分构成的：a representation encoding module, a mutual adaptation module and a classification module。具体来说，the representation encoding module 是由两个 encoders 对特征进行转换，得到 high-level preliminary representations。the mutual adaptation module 的目标是调整参数，通过两个任务的辅助引导信息，使其增强原始的特征表达。受到 “Learning to Learn” framework 的启发，为了达到快速和高效的 adaptation，在函数 g'(*), h'(*) 的内部，我们设计了两个可学习的 adapters ，来学习预测这些 adaptive parameters。对于可靠和鲁棒的参数预测，我们从中得到最高层的表达，作为 mutual guidance information。也就是说，所设计的两个 adapters 将特征作为输入，然后输出调整后的参数，即：

此处，可以通过结合两个任务之间的互引导信息（mutual guidance information），制作原始的表达，以得到更好的解析和姿态估计的结果，并且用来解码推导出来的 adaptive encoders in MuLA。The mutual adaptation module allows for dynamic interaction and cooperation between two tasks within MuLA for fully exploiting their mutual benefits。

MuLA 利用两个分类器根据 mutual adaptation module 来预测行人解析结果 $S_{(t)}$ 和姿态估计结果 $J_{(t)}$。为了迭代的探索 mutual guidance information，我们设计了两个 mapping modules 来特征表达以及预测结果映射到下一个阶段的输入，即：

为了训练 MuLA，我们在 human parsing 和 pose estimation 的任务上利用 GT 监督信息，并且定义了如下的损失函数：

其中，T 是 MuLA 的总迭代次数。第一个和第二项损失函数，分别是 human parsing 和 pose estimation 的损失函数。

3. Experimental Results：

论文笔记: Mutual Learning to Adapt for Joint Human Parsing and Pose Estimation的更多相关文章

【论文笔记】Learning Fashion Compatibility with Bidirectional LSTMs
论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.0 ...
论文笔记: Deep Learning based Recommender System: A Survey and New Perspectives
(聊两句,突然记起来以前一个学长说的看论文要能够把论文的亮点挖掘出来,合理的进行概括23333) 传统的推荐系统方法获取的user-item关系并不能获取其中非线性以及非平凡的信息,获取非线性以及非平 ...
深度学习论文笔记-Deep Learning Face Representation from Predicting 10,000 Classes
来自:CVPR 2014 作者:Yi Sun ,Xiaogang Wang,Xiaoao Tang 题目:Deep Learning Face Representation from Predic ...
论文笔记：Learning wrapped guidance for blind face restoration
这篇论文主要是讲人脸修复的,所谓人脸修复,其实就是将低清的,或者经过压缩等操作的人脸图像进行高清复原.这可以近似为针对人脸的图像修复工作.在图像修复中,我们都会假设退化的图像是高清图像经过某种函数映射 ...
SfMLearner论文笔记——Unsupervised Learning of Depth and Ego-Motion from Video
1. Abstract 提出了一种无监督单目深度估计和相机运动估计的框架利用视觉合成作为监督信息,使用端到端的方式学习网络分为两部分(严格意义上是三个) 单目深度估计多视图姿态估计解释性网络( ...
论文笔记：Learning Attribute-Specific Representations for Visual Tracking
Learning Attribute-Specific Representations for Visual Tracking AAAI-2019 Paper:http://faculty.ucmer ...
论文笔记：Learning regression and verification networks for long-term visual tracking
Learning regression and verification networks for long-term visual tracking 2019-02-18 22:12:25 Pape ...
论文笔记：Learning Dynamic Memory Networks for Object Tracking
Learning Dynamic Memory Networks for Object Tracking ECCV 2018Updated on 2018-08-05 16:36:30 Paper: ...
论文笔记：Learning how to Active Learn: A Deep Reinforcement Learning Approach
Learning how to Active Learn: A Deep Reinforcement Learning Approach 2018-03-11 12:56:04 1. Introduc ...

随机推荐

浏览器(或客户端)触发，后台运行php脚本
既我从浏览器这端触发服务器上的php脚本,要想让服务器端的php脚本一直执行,我得把该网页一直开着,这样就达不到我不开电脑不开网页进行爬取的目的,因此查找了些资料,得知 ignore_user_abo ...
JBPM工作流（一）——实现一个简单的工作流例子
一.JBPM定义 JBPM,全称是Java Business Process Management(业务流程管理),它是覆盖了业务流程管理.工作流.服务协作等领域的一个开源的.灵活的.易扩展的可执行流 ...
java学习之路--简单基础的面试题
1.面向对象的特征有哪些方面? 答:面向对象的特征主要有以下几个方面: 1)抽象:抽象是将一类对象的共同特征总结出来构造类的过程,包括数据抽象和行为抽象两方面.抽象只关注对象有哪些属性和行为,并不关注 ...
如果报错，使用 journalctl -f -t etcd 和 journalctl -u etcd 来定位问题。
如果报错,使用 journalctl -f -t etcd 和 journalctl -u etcd 来定位问题.
CodeForces 570D - Tree Requests - [DFS序+二分]
题目链接:https://codeforces.com/problemset/problem/570/D 题解: 这种题,基本上容易想到DFS序. 然后,我们如果再把所有节点分层存下来,那么显然可以根 ...
JavaScript面向对象之get和set设置读写属性
之前我们通过this和prototype申明的属性都是可读写的属性,如果想实现单独控制,就必须使用get和set存取期. 基本方法的步骤一般包含两个步骤,1,使用var关键字定义一个私有属性作为中间 ...
npm笔记
#执行npm start时是运行的哪个js文件? 打开package.json看看scripts属性中start配置的是什么运行脚本,这里配置的就是你执行npm start时跑的脚本 #设置npm的源 ...
关于SQL Server将一列的多行内容拼接成一行的问题讨论【转】
原文链接:https://blog.csdn.net/rolamao/article/details/7745972 比如表中有两列数据 : ep_classes ep_name AAA ...
spring拦截器-过滤器的区别
1. 理解拦截器 :是在面向切面编程的时候,在你的 service 或者一个方法前调用一个方法,或者在方法后调用一个方法:比如动态代理就是拦截器的简单实现,在你调用方法前打印出字符串(或者做其它业 ...
如何知道网页浏览器cookie是什么？
一直有网友问网页cookie如何获取,其实想知道自己访问网页时的cookie没那么难,用Chrome内核浏览器的debug功能就能看到,怎么查看呢?随ytkah一起来看看吧! 打开网页,按F12键,选 ...

论文笔记: Mutual Learning to Adapt for Joint Human Parsing and Pose Estimation

论文笔记: Mutual Learning to Adapt for Joint Human Parsing and Pose Estimation的更多相关文章

随机推荐

热门专题