【论文笔记】Leveraging Datasets with Varying Annotations for Face Alignment via Deep Regression Network
參考文献:
Zhang J, Kan M, Shan S, et al. Leveraging Datasets With Varying Annotations for Face Alignment via Deep Regression Network[C]//Proceedings of the IEEE International Conference on Computer Vision. 2015: 3801-3809.
简单介绍
眼下网上发布的人脸关键点的数据集非常多,但标注标准却往往不统一、标定点数也不尽同样。将这些数据合并起来非常重要,可是训练一个统一的模型却比較困难。ICCV 2015的这篇文章提出了一种基于深度回归网络(deep regression network)和稀疏形状回归方法,可以在不同点数的数据集上训练一个统一的关键点检測模型。同一时候可以取得比单个训练集更好的结果。
算法介绍
1. 算法总流程
算法流程如图所看到的:
如果有若干不同点数、不同图片的人脸关键点数据集。(1)H 表示稀疏形状回归模型,它能将预计每一个数据集中相对于全部数据集关键点类型总和的未标注的关键点; (2)将每一个数据集的关键点个数通过 H 补齐后, F 表示深度回归网络,训练和检測图片中全部的关键点的检測模型。(1)(2)过程是一个重复迭代更新的过程。
通过这种一个训练过程,就能训练一个可以合并全部不同数据集的人脸关键点检測模型。
如果有 n 个人脸关键点数据集{D1,D2,...,Dn},每一个数据集包括了不同点数pi的关键点 Si∈Rpi×2。作者目标是建立一个深度回归网络 F,可以检測全部关键点类型的合集 S=S1∪S2∪...∪Sn。这样就须要依据ground truth和初始化形状 S¯,求解满足下面公式的 F:
F∗=argmin F∑I∈D||S−(F(ϕ(I,S¯))+S¯)||22
当中 I 为数据集D D 中的人脸图片,ϕ 为特征提取函数。
数据集 Di 仅仅有第 i类型的关键点,其他类型的关键点并不存在。可是可以依据不同类型关键点之间的相关性。使用其他数据集的关键点来预计当前数据集的关键点。
作者使用了稀疏表达模型 H 来预计这些并不存在的关键点,因此以上公式就演变为:
{F∗,H∗}=argminF∑I∈D||SH(I)−(F(ϕ(I,S¯))+S¯)||22
当 I∈Di时,H 第 i 种类型的关键点是已经标注好的,而其他 n−1 种类型的关键点则使用 H 预计生成。
2. 方法流程细节
2.1 深度回归模型
与 SDM/LBF相似,作者也使用了回归方法训练和測试图像特征到关键点位置的映射。差别是使用深度回归网络从初始形状開始回归 (深度学习已经占据各领域,不能被落下呀):
ΔS=F(I)=(fl(fl−1(...f1(ϕ(I,S¯)))))
当中 fl 为深度回归网络的第l 层隐层。
2.2 稀疏回归模型
尽管各个数据集 Di的关键点定义并不同样,可是之间有着非常强的关联,作者使用了稀疏矩阵依据其他数据集的关键点类型来预计当前数据集上未标记的关键点, H=[Sˆ1;Sˆ2;⋅⋅⋅;Sˆi−1;Si;Sˆi+1;⋅⋅⋅;Sˆn]∈Rp×2:
Sjˆ=Hij∗Si
当中 Hij∈Rpj×pi是 一个 预计 Di 数据集中未标记的关键点 Sj^∈Rpj×2 的稀疏矩阵。
这样总流程的公式,可以写为还有一种形式:
{F∗,H∗}=argminF,H∑ni=1∑I∈Di||Hi∗Si(I)−(F(ϕ(I,S¯))+S¯)||22
2.3 训练模型
上述公式有两个模型參数须要训练,作者採用了固定一个參数,训练还有一个的迭代循环直到收敛的方法来求最优解。
每次迭代过程,作者採用了 L-BFGS 方法 (On optimization methods for deep learning,这个以后细看)解决。
与以往算法的不同
(1)“Collaborative facial landmark localization for transferring annotations across datasets”论文中提到的算法。须要依据训练集和測试集全部图片的关系预计映射关系。再对測试集全部图片进行关键点检測,并且训练过程中,也是针对各个数据集分别训练不同的模型。
而本论文算法是将全部的数据集整合进行统一关键点数模型的训练,终于得到一个检測模型,可以方便地对一张图片进行单独检測。
(2)“Transferring landmark annotations for cross-dataset face alignment”论文中的算法 transductive alignment method (TCR)须要不同数据集的关键点的交集作为相互关联,并且在预计未标记的关键点之后,不会再有更新。而本文则不须要关键点的交集作为关联,并且在模型參数训练的过程中。预计的关键点在每次迭代过程中都会随着模型的变化而更新,因而也更加准确。
实验结果
1、作者将不同的数据集相整合进行模型训练。比基于不同的训练集单独训练的模型的精度有所提高,但比真实的数据略差些(这也在情理之中):
2、作者将DRN和SSR方法相结合,进一步提高了DRN的准确率:
3、作者又将DRN-SSR与之前的SDM、RCPR进行了比較。实验结果均优于这些算法:
总结
作者通过 DRN和SSR将多类人脸关键点数据融合。取得了比单个数据集训练模型更好的结果。终于的模型也较为有用(可为我所用。毕竟手头数据多。如何整合一直比較头疼)。
PS
前一段时间因为操作失误,将这篇博客不小心删除(同一时候小吐槽下csdn的博客设置)。我这里没有备份,准备重写时无意发现网络上有人转载了我这篇文章(当然没有写明出处,公式也是乱码),我就拿过来回笼了一篇。
这也算是盗版给原作者的贡献了,哈哈。
【论文笔记】Leveraging Datasets with Varying Annotations for Face Alignment via Deep Regression Network的更多相关文章
- 论文笔记(6):Weakly-and Semi-Supervised Learning of a Deep Convolutional Network for Semantic Image Segmentation
这篇文章的主要贡献点在于: 1.实验证明仅仅利用图像整体的弱标签很难训练出很好的分割模型: 2.可以利用bounding box来进行训练,并且得到了较好的结果,这样可以代替用pixel-level训 ...
- 论文笔记:SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks
SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks 2019-04-02 12:44:36 Paper:ht ...
- 论文笔记:Visual Object Tracking based on Adaptive Siamese and Motion Estimation Network
Visual Object Tracking based on Adaptive Siamese and Motion Estimation 本文提出一种利用上一帧目标位置坐标,在本帧中找出目标可能出 ...
- 论文笔记之:Natural Language Object Retrieval
论文笔记之:Natural Language Object Retrieval 2017-07-10 16:50:43 本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别.大致流程图如下 ...
- 【论文笔记系列】AutoML:A Survey of State-of-the-art (下)
[论文笔记系列]AutoML:A Survey of State-of-the-art (上) 上一篇文章介绍了Data preparation,Feature Engineering,Model S ...
- 【论文笔记】SamWalker: Social Recommendation with Informative Sampling Strategy
SamWalker: Social Recommendation with Informative Sampling Strategy Authors: Jiawei Chen, Can Wang, ...
- 【论文笔记】用反事实推断方法缓解标题党内容对推荐系统的影响 Click can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issue
Click can be Cheating: Counterfactual Recommendation for Mitigating Clickbait Issue Authors: 王文杰,冯福利 ...
- Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现(转)
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
- 论文笔记之:Visual Tracking with Fully Convolutional Networks
论文笔记之:Visual Tracking with Fully Convolutional Networks ICCV 2015 CUHK 本文利用 FCN 来做跟踪问题,但开篇就提到并非将其看做 ...
随机推荐
- JSP中动态INCLUDE与静态INCLUDE的区别?
动态INCLUDE用jsp:include动作实现 它总是会检查所含文件中的变化,适合用于包含动态页面,并且可以带参数 静态INCLUDE用include伪码实现,定不会检查所含文件的变化,适用于包含 ...
- TCP的那些事-2
这篇文章是下篇,所以如果你对TCP不熟悉的话,还请你先看看上篇<TCP的那些事儿(上)> 上篇中,我们介绍了TCP的协议头.状态机.数据重传中的东西.但是TCP要解决一个很大的事,那就是要 ...
- django常见问题小结,细节容易忽视
中文URL:这个其实是很常识的东西,但是之前做web一直没注意过,在使用HttpResponseRedirect的时候,如果Redirect的URL中带中文的话,会报UnicodeEncodeErro ...
- Highcharts实现走势图
Highcharts 是一个用纯JavaScript编写的一个图表库, 能够很简单便捷的在web网站或是web应用程序添加有交互性的图表,并且免费提供给个人学习.个人网站和非商业用途使用.HighCh ...
- mysql总是无故退出, InnoDB: mmap(68681728 bytes) failed; errno 12
最近发现mysql总是无故退出,(vim /var/log/mysqld.log)查看日志报下面错误: InnoDB: mmap(68681728 bytes) failed; errno 12 开启 ...
- redis_安装
前面几章内容简单介绍了NoSql的概念,以及NoSql的几种分类,本文开始后面开始学习KV数据库Redis. 一.Redis是什么? Redis:REmote DIctionary Server(远程 ...
- [BZOJ1032][P1840] 祖玛 记忆化搜索 动态规划
描述 Description 某天,小x在玩一个经典小游戏——zumo.zumo游戏的规则是,给你一段长度为n的连续的彩色珠子,珠子的颜色不一定完全相同,但是,如果连续相同颜色的珠子大 ...
- BZOJ 2938 [Poi2000]病毒(AC自动机)
[题目链接] http://www.lydsy.com/JudgeOnline/problem.php?id=2938 [题目大意] 给出一些病毒串,问是否存在不包含任何病毒串的无限长的字符串 [题解 ...
- bzoj 1654: [Usaco2006 Jan]The Cow Prom 奶牛舞会 -- Tarjan
1654: [Usaco2006 Jan]The Cow Prom 奶牛舞会 Time Limit: 5 Sec Memory Limit: 64 MB Description The N (2 & ...
- ajax请求数据填充表格———使用art-template模板提高效率
一.为什么要用art-template模板 在实习的一次项目中,因为需求中展示表格的字段有很多个,后端返回的也是json数据,这时候如果还是使用之前的字符串拼接,这样会开发得比较慢,而且容易出错,而且 ...