Learning Invariant Deep Representation for NIR-VIS Face Recognition

查找异质图像匹配的过程中，发现几篇某组的论文，都是关于NIR-VIS的识别问题，提到了许多处理异质图像的处理方法，网络结构和idea都很不错，记录其中一篇。

其余两篇：

Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition

A Light CNN for Deep Face Representation with Noisy Labels

摘要

VIS-NIR（可见光与近红外）面部识别仍然是异质图像识别中的挑战。本文只用一个网络来映射NIR和VIS图像至一个紧凑的欧式空间。网络的低级层仅仅在大规模VIS数据中训练。每个卷积层由简单的maxout operator实现。网络的高级层被划分为两个正交的子空间，分别包括模态不变身份信息（modality-invariant identity information）和模态变化光谱信息（modality-variant spectrum information）。我们的联合公式在训练时引导交替最小化方法得到深度表示，测试时高效计算异质数据。实验证明了在CASIA NIR-VIS 2.0面部识别数据中实现94 percent的正确率，仅仅有64D大小的表示，比之前低了58 percent的错误率。

1. 介绍

NIR图像提供了廉价且简单的方式来提高在低光照情况下的面部识别能力。对于光照变换没有VIS那么敏感，所以被广泛应用于安检等。在真实应用中，NIR往往需要和VIS一起使用，导致了两者之间的匹配问题。这个问题可称为：NIR-VIS 异质面部识别问题。

NIR与VIS属于不同光谱，自然有很大的外表差异。所以深度网络在VIS数据训练后不含有NIR光谱信息，所以无法很好的解决NIR问题。怎样利用大规模VIS面部数据来探索NIR和VIS面部模态不变表示值得思考。得益于网络数据，我们可以容易获得大量VIS面部数据，然而成对的NIR数据难以获得。怎样在小规模NIR-VIS数据中学习也是一个中心问题。

之前的NIR-VIS匹配方法经常利用trick来减轻外观差异，通过移除一些可能含有光谱信息的主子空间。Chen在2012提出面部外观由身份信息（identity information）和变化信息(variation information eg.,lighting,poses,expressions)组成。受启发于此，本文提出一个网络来学习Invariant Deep Representation (IDR)同时包含NIR和VIS人脸信息，利用一个单一网络来将NIR和VIS图像同时映射到一个压缩后的欧式空间，使得NIR和VIS图像在嵌入空间embedding space中可以直接对应到面部相似性。

我们的网络首先在大规模VIS数据中训练，卷积层和全连接由简化形式的maxout operator实现。这个网络使得我们学习的到的表示对于类内个体变化很鲁棒。然后，网络底层固定，微调NIR数据。高层划分为两个正交子空间：模态不变身份信息（modality-invariant identity information）和模态变化光谱信息（modality-variant spectrum information）。这个正交限制和maxout operator在高层可以缩减参数空间，因此避免了在小的NIR-VIS数据集上的过拟合。本文提出的IDR达到了SOTA，贡献如下：

一个高效深度网络结构学习模态不变表示，交替最小化高效优化。这个结构可以自然结合之前的不变特征提取和子空间学习到一个统一网络。
两个正交子空间嵌入网络中来建模身份和光谱信息。使得可以提取压缩后的表示，减小了小数据中的过拟合问题。
在数据集CASIA NIR-VIS 2.0面部数据上以64维的表示达到SOTA。

2. 相关工作

许多工作提出来减轻异质图像的外观差异。大多数方法可以分为三类：image synthesis, subspace learning、invariant feature extraction。

1）Image synthesis

主要从一个模态合成面部图像到另一个模态使得异质图像可在同一距离空间比较。

2）subspace learning

学习映射异质数据到一个共同的空间。当前sota方法是通过移除一些主子空间成分来解决。

3）Invariant feature extraction

即寻找模态不变特征使得对光照鲁棒。传统方法较多。

尽管很多方法，NIR-VIS识别表现仍然很low。远不如VIS数据结果好。很少有dl方法处理NIR-VIS，所以本文用DL方法来解决。

3. Invariant Deep Representation

本节介绍子空间分解和不变性特征提取，来学习模态不变深度表示。

注意到移除光谱信息有助于提高NIR-VIS识别表现。我们进一步三个映射矩阵（W，P,见上图）来建模身份不变信息和不变光谱信息。所以特征表示可以表示如下：

WX和PX分别代表共享特征和独立特征。考虑到子空间分解特性关于矩阵W和P：我们进一步提出一个正交限制使他们互相无关：

利用softmax函数来训练整个网络：

优化方法：

上式包含一些非凸变量，我们利用一种交替优化方法来最小化目标函数。首先根据朗格朗日乘子，重写上述函数：

待优化参数有网络参数、W、P。利用交替优化更新，网络参数初始化利用Xavier，W和P初始化：

网络结构：lightened CNN B network（同作者另一作品：A Light CNN for Deep Face Representation with Noisy Labels）网络包括9个卷积层+4个最大池化层+全连接。Dropout设为0.7。初始学习率0.001，降到0.00001。基于该网络实现本文，特征层用来映射低级特征到两个正交子空间。

4. 其他要点

算法分析：分析本文提出的不变性深度表征: invariant deep representation (IDR)

我们实现了两种版本的IDR：DR表示IDR没有NIR特征和VIS特征。即仅仅训练卷积网络，没有子空间分解。这会导致大量参数在全连接和特征层，导致在小数据NIR-VIS上过拟合。特征层的maxout operator也有助于减少过拟合。因此，IDRm表示IDR没有maxout operator在特征层。

上图表明IDR是最好的结果。对比IDR和IDRm，注意到maxout operator在最后一个卷积层可进一步降低equal error rate，并提高表现。

最后再附两张碾压性能图：

Learning Invariant Deep Representation for NIR-VIS Face Recognition的更多相关文章

论文笔记之：UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS
UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS ICLR 2 ...
Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition
承接上上篇博客,在其基础上,加入了Wasserstein distance和correlation prior .其他相关工作.网络细节(maxout operator).训练方式和数据处理等基本和前 ...
（转）Understanding, generalisation, and transfer learning in deep neural networks
Understanding, generalisation, and transfer learning in deep neural networks FEBRUARY 27, 2017 Thi ...
A Gentle Introduction to Transfer Learning for Deep Learning | 迁移学习
by Jason Brownlee on December 20, 2017 in Better Deep Learning Transfer learning is a machine learni ...
[译]深度神经网络的多任务学习概览(An Overview of Multi-task Learning in Deep Neural Networks)
译自:http://sebastianruder.com/multi-task/ 1. 前言在机器学习中,我们通常关心优化某一特定指标,不管这个指标是一个标准值,还是企业KPI.为了达到这个目标,我 ...
paper 124：【转载】无监督特征学习——Unsupervised feature learning and deep learning
来源:http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio c ...
论文笔记之：Learning Cross-Modal Deep Representations for Robust Pedestrian Detection
Learning Cross-Modal Deep Representations for Robust Pedestrian Detection 2017-04-11 19:40:22 Moti ...
转：无监督特征学习——Unsupervised feature learning and deep learning
http://blog.csdn.net/abcjennifer/article/details/7804962 无监督学习近年来很热,先后应用于computer vision, audio clas ...
Incentivizing exploration in reinforcement learning with deep predictive models
Stadie, Bradly C., Sergey Levine, and Pieter Abbeel. "Incentivizing exploration in reinforcemen ...

随机推荐

Hadoop ha CDH5.15.1-hadoop集群启动后，集群容量不正确，莫慌，这是正常的表现！
Hadoop ha CDH5.15.1-hadoop集群启动后,集群容量不正确,莫慌,这是正常的表现! 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.集群启动顺序 1>. ...
Hbase_02、Hbase的常用的shell命令&Hbase的DDL操作&Hbase的DML操作(转)
阅读目录前言一.hbase的shell操作 1.1启动hbase shell 1.2执行hbase shell的帮助文档 1.3退出hbase shell 1.4使用status命令查看hbase ...
ActiveMQ详细入门使用教程
ActiveMQ介绍 MQ是消息中间件,是一种在分布式系统中应用程序借以传递消息的媒介,常用的有ActiveMQ,RabbitMQ,kafka.ActiveMQ是Apache下的开源项目,完全支持JM ...
cmd 开启热点
开启热点,需要先打开Wifi,ssid 为 WiFi 名称,key 为密码 netsh wlan set hostednetwork mode=allow ssid=123 key=12345678 ...
Kafka权威指南读书笔记之（一）初识Kafka
发布与订阅消息系统数据(消息)的发送者(发布者)不会直接把消息发送给接收者,这是发布与订阅消息系统的一个特点.发布者以某种方式对消息进行分类,接收者(订阅者)订阅它们, 以便接收特定类型的消息.发布 ...
Linux记录-JMX监控Tomcat上传到falcon
1.登录测试服务器xxxxxx xxxxxx su root输入xxxx 2.先修改Tomcat的启动脚本,(linux下为catalina.sh),添加以下内容: CATALINA_OPTS=&qu ...
服务发现 - consul 的介绍、部署和使用
什么是服务发现相关源码: spring cloud demo 微服务的框架体系中,服务发现是不能不提的一个模块.我相信了解或者熟悉微服务的童鞋应该都知道它的重要性.这里我只是简单的提一下,毕竟这不是 ...
从word得到表格数据插入数据库（6位行业代码）
复制表格到excel 点击表格左上角选中全部表格,然后crtl+c,再贴到excel中可以发现,大类代码,单元格往下走,碰到下一个有值的之前,都是上一个的范围填充空白单元格 1.选中前四列,然后c ...
opencv实现坐标旋转（教你框住小姐姐）
一.项目背景最近在做一个人脸检测项目,需要接入百度AI的系统进行识别和检测.主要流程就是往指定的URL上post图片上去,之后接收检测结果就好了. 百度的检测结果包含这样的信息: left - 人脸 ...
【python小练】0005
第 0005 题:你有一个目录,装了很多照片,把它们的尺寸变成都不大于 iPhone5 分辨率的大小. 首先,iphone5的分辨率是1136x640. if条件句判断横(纵)向是否大于对应的ipho ...

Learning Invariant Deep Representation for NIR-VIS Face Recognition

Learning Invariant Deep Representation for NIR-VIS Face Recognition的更多相关文章

随机推荐

热门专题