Improved RGB-D-T based Face Recognition 论文笔记

本文将基于深度学习的卷积神经网络（CNN）应用于基于RGB-D-T的多模态人脸识别问题。此外，引入了基于CNN的识别模块与各种纹理特征（LBP，HOG，HAAR，HOGOM）的后期融合，在基准RGB-D-T数据库上展示了更好的识别性能。本文得到的结果表明，经典的纹理特征和基于CNN的特征可以相互补充以达到识别的目的。

已经开发了几种用于面部识别的算法来处理这些挑战。这些算法的例子包括但不限于主成分分析（PCA），线性判别分析（LDA），局部二元模式（LBP），定向梯度直方图（HOG），Haarlike矩形特征（HAAR）和直方图Gabor有序度量（HOGOMs）。

在为人脸识别开发更好的特征和分类器的同时，多模式也被用作开发系统的解决方案。总体思路是，不同的模式应该对识别过程起补充作用。

最近在[18]中引入了包含同步RGB，深度和热量（以下称为RGB-D-T）图像的数据库，其中包括具有不同旋转，照明和表达的面部图像。

2.1 多模态人脸识别系统

深度图像可以在一定程度上处理由不同姿势引起的变化，但它们易受表情变化的影响。对于热图像，它们对周围环境的温度变化敏感。深度信息已被广泛用于使用不同技术的人脸识别[3]。距离图像是在3D应用程序中使用的常见表示。基于3D的技术确实比2D模型更适合描述面部特征，从而增强了视点和光线变化的稳健性。这种RGB-D相机通常提供颜色和深度的同步图像。彩色图像表征人脸的外观和纹理信息，而深度图像提供每个像素距相机的距离，从而在一定程度上表示人脸的几何形状。

热红外图像记录物体发射的红外辐射量。辐射量随着温度的增加而增加，因此，这种图像可以让我们看到温度的变化。热图像提供了一种有希望的替代强度图像的方法，用于处理由于照明改变而导致的面部外观的变化[2]。在[18]中，收集了一个RGB-D-T人脸数据库，使用同步的RGB，深度和热图像进行人脸识别。

2.2 基于深度学习的人脸识别系统

面部识别有不同的深度学习技巧。主要基于使用深度卷积神经网络（CNN）的想法。大约二十年前，CNN已被用于人脸识别。

2.3 基于HOGOM的人脸识别

区分面部特征应该描述不同个体之间的差异并且在同一个体的变化期间保持稳定。Gabor滤波器可以提取面部的区别性局部纹理，但对于大型表情和光照变化不具有鲁棒性。为了增强Gabor特征的鲁棒性，Chai等人最近通过使用有序度量（OMs）对Gabor滤波响应进行编码，Gabor有序度量（GOMs）。

GOM首先使用Gabor滤波器对面部图像进行卷积，然后使用OM对二进制数据的幅度，相位，实数和虚数滤波响应进行二值化。之后，OM二进制代码被编码为可以被视为纹理基元的整数。这些纹理基元在不同块中的统计分布被连接起来以形成最终的GOM特征，并且以GOM的直方图（HOGOM）的形式使用。

HOGOM的纹理特征结和通过深度学习获得的面部特征。实验结果表明，当应用于多模态人脸识别数据集时，这种融合可以提高这两种特征的性能。

3、核心系统

通过融合具有不同权重的WNNC和CNN分类器来获得最终的分类器。

HOGOM描述符具有维度DHOGOM = Nscales×Norientation×Nbins×Nblocks。在我们的实验中，我们使用了Nscales = 5，Norientations = 8，Nbins = 16和大小为32×32像素的块，将图像分成12个块。然后特征向量首先被归一化。然后，使用（主成分分析）PCA将其维数减少一半。

面部的RGB，深度和热量捕获用于训练模态特定的CNN，以决定两个样本是否来自同一个人。结果与HOGOM训练的WNNC和SVM融合。

所提出的CNN方法被实现为预测两个输入图像是否对应于同一个人的二元分类问题。

图像的预处理首先通过将每个模态的面部边界框变换成平方区域来完成。较窄的尺寸被扩大以匹配另一个尺寸，之后裁剪平方区域并将其重新缩放到100×100像素的尺寸。

在每个时期应用分层采样来随机选择训练实例的子集，使得正面和负面实例的数量相等，并且正面和负面实例的每个主题的实例数量相等。

扩充用于增加可用训练实例的数量。在每个时期，采样对被随机地以0.5的概率水平翻转。此外，每对的每个单独的帧在垂直和水平方向上随机移位±5％，引入±0.05范围内的随机噪声。

CNN选择的拓扑结构如图2所示。它由三个卷积层组成，每个卷积层都有一个2×2的最大池。第一卷积层C1具有8个大小为9×9的卷积掩模，第二层C2具有16个大小为7×7的掩模，第三层C3具有16个大小为5×5的掩模。最后，有一个100单位的完全连接图层和一个带有单个神经元的输出图层，可以预测两幅图像是否来自同一个主体。拓扑中的所有神经元都是整流线性单位（ReLu）

4、实验结果

在[18]中首次引入的多模态RGB-D-T人脸数据集进行了实验。该数据集由51人组成，大多数为20至40岁的高加索人。在受控的实验室环境下，在不同的旋转，照明和面部表情条件下捕捉面部（参见图3）。微软Kinect被用来捕捉RGB和Depth，而AXIS Q1922传感器被用来捕捉热图像。整个数据集总共45900张图像。

用HOGOM训练的WNNC和SVM分类器的结果与之前在[18]中使用的描述符相比是相对适中的。为了简洁和易于理解，我们只提供训练样本数量最多的结果。在表1至表4中，我们显示了每种模态的等误差率（EER），

由于脸部外观的变化很大，在旋转的情况下产生最高的EER。关于模式，深度模式的误差通常较高。

在将训练样本的数量增加到25时，用HOGOM训练的线性SVM的情况下，分类错误实际上减少到零。

在CNN情况下，单独的形态预测在大多数情况下胜过WNNC提取的所有描述符，但与SVM方法相比具有更高的误差。

尽管HOGOM是用于旋转和表情模式变异的性能最差的描述子，但当与特定于模态的CNN融合时，获得最低的误差。

实验结果续

数据集：在[18]中首次引入的多模态RGB-D-T人脸数据集进行了实验。该数据集由51人组成，大多数为20至40岁的高加索人。在不同的旋转，照明和面部表情条件下捕捉面部图像。微软Kinect被用来捕捉RGB和Depth，而AXIS Q1922传感器被用来捕捉热图像。整个数据集总共45900张图像。

使用2,5,10或25个均匀间隔的样本进行训练。 50个样品用于测试。为了简洁和易于理解，我们只提供训练样本数量最多的结果。在表1至表4中，我们显示了每种模态的等误差率（EER）。在图4和图5中，我们显示了错误动态取决于训练样本的数量。

由于脸部外观的变化很大，在旋转的情况下产生最高的EER。关于模式，深度模式的误差通常较高。

而模态融合不能系统地降低低于所有其他单独模态的误差。 在将训练样本的数量增加到25时，用HOGOM训练的线性SVM的情况下，分类错误实际上减少到零（表3）。

在CNN情况下，单独的形态预测在大多数情况下胜过WNNC提取的所有描述符，但与SVM方法相比具有更高的误差。（表4）.

不用SVM的原因：然而，重要的是要注意，用于SVM模型的“一对多”方法不能处理新的看不见的主题。已发现加权后期融合可显着降低使用CNN时三种变化模式的误差，特别是对于照明变化。

本文工作：

 通过结合LBP，HOG，HAAR和HOGOM等经典方法提取的面部特征，通过进行大量实验找出这些特征的互补性。这些实验表明，这些经典的面部特征中的至少一个，特别是HOGOM [4]，可以互补地贡献于通过基于深度学习的面部特征获得的识别性能。

上面提到的面部特征融合已经应用于文献[18]的多模式RGB-D-T人脸数据库，突出了提出的特征融合在提高识别结果中的作用。

创新：基于深度学习的特征与基于经典外观的面部特征的融合，特别是与HOGOM的融合，以及使用具有这种融合的三模式面部数据库，之前没有人研究过。

缺点：三模式数据集不易获得，整个论文基本是以实验结果来推动的，为了降低EER而进行各种模式融合实验，缺乏有效的理论支持。

Improved RGB-D-T based Face Recognition 论文笔记的更多相关文章

Selective Search for Object Recognition 论文笔记【图片目标分割】
这篇笔记,仅仅是对选择性算法介绍一下原理性知识,不对公式进行推倒. 前言: 这篇论文介绍的是,如果快速的找到的可能是物体目标的区域,不像使用传统的滑动窗口来暴力进行区域识别.这里是使用算法从多个维度对 ...
Deep Residual Learning for Image Recognition论文笔记
Abstract We present a residual learning framework to ease the training of networks that are substant ...
Multi-task Pose-Invariant Face Recognition 论文笔记
摘要: 在不受限制的环境中拍摄的人脸图像通常包含显著的姿态变化,这会显著降低设计用于识别正面的算法的性能.本文提出了一种新颖的面部识别框架,能够处理±90°偏航范围内的全方位姿势变化.所提出的框架首先 ...
论文笔记：CNN经典结构1（AlexNet，ZFNet，OverFeat，VGG，GoogleNet，ResNet）
前言本文主要介绍2012-2015年的一些经典CNN结构,从AlexNet,ZFNet,OverFeat到VGG,GoogleNetv1-v4,ResNetv1-v2. 在论文笔记:CNN经典结构2 ...
Self-paced Clustering Ensemble自步聚类集成论文笔记
Self-paced Clustering Ensemble自步聚类集成论文笔记 2019-06-23 22:20:40 zpainter 阅读数 174 收藏更多分类专栏: 论文版权声明 ...
Deep Learning论文笔记之（四）CNN卷积神经网络推导和实现（转）
Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文, ...
Deep Learning论文笔记之（八）Deep Learning最新综述
Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...
Deep Learning论文笔记之（六）Multi-Stage多级架构分析
Deep Learning论文笔记之(六)Multi-Stage多级架构分析 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些 ...
论文笔记(1)：Deep Learning.
论文笔记1:Deep Learning 2015年,深度学习三位大牛(Yann LeCun,Yoshua Bengio & Geoffrey Hinton),合作在Nature ...

随机推荐

Python 案例一（计算人体体脂率）
#计算人体体脂率 #输入部分 #身高 personHeight = input("请输入你的身高(m):") personHeight = float(personHeight) ...
thinkphp 的 Action 控制器中的系统常量总结
THINK_PATH // ThinkPHP系统目录 APP_PATH // 当前项目目录 APP_NAME // 当前项目名称 CONTROLLER_NAME // 当前控制器名称 MODULE_N ...
EntityFramework 学习一 Lazy Loading
延迟加载:延迟加载相关的数据 using (var ctx = new SchoolDBEntities()) { //Loading students only IList<Student&g ...
linux raid技术
一.概念磁盘阵列(Redundant Arrays of Independent Disks,RAID),有“独立磁盘构成的具有冗余能力的阵列”之意.是为了提高文件在磁盘上的读写速度而研究出来的. ...
英语发音规则---Z字母
英语发音规则---Z字母一.总结一句话总结:字母Z的名称zed /zed/,美式英语的称zee /zi:/,少数方言(如香港)读izzard /'izəɹd/. 1.字母Z在单词中发[z]? pu ...
代码题（3）— 最小的k个数、数组中的第K个最大元素、前K个高频元素
1.题目:输入n个整数,找出其中最小的K个数. 例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4. 快排思路(掌握): class Solution { public ...
PHP不用第三变量交换2个变量的值的解决方法
以前做过一道php面试题是这样的:不使用第三个变量实现交换两个变量的值.一般都是借助第三个中间变量来实现原来两个变量的值交换,但是这道题却要求不能使用中间变量,这对于初学者来说也算是一个难题了.网上找 ...
2017各银行贷款利息表及P2P平台贷款利率比较
银行贷款利息是多少?2017各银行贷款利息表及P2P平台贷款利率比较发表时间: 2017-02-17 作者: 一.2017央行贷款基准率各个银行的贷款利率是以中国银行的人民币贷款基准率为标准进行上 ...
关于avpicture_fill 和 sws_scale的关系
avpicture_fill((AVPicture *) pFrameRGB, buffer, PIX_FMT_RGB565, pCodecCtx->width, pCodecCtx->h ...
[冬令营模拟]GTSG2018
上学期没有去 GTSG,于是今天老师让我们来做一下 GTSG2018 Day1 & Day3 Day1 在上午当成一场考试来搞了,Day3 由于锅太多而且 T3 玄学而被放到下午自学... 上 ...

Improved RGB-D-T based Face Recognition 论文笔记

Improved RGB-D-T based Face Recognition 论文笔记的更多相关文章

随机推荐

热门专题