MTCNN自己的学习理解

MTCNN 流程
经过三个网络 P-Net,R-Net,O-Net

对于P-Net：
P-Net是一个全卷积层，不涉及到全连接层，所以我们的输入图像的尺寸可以是不固定的。
对于P-Net来说，我们的输入图像是图像金字塔，也就是说对于一张图片，根据不同的factor进行图像的缩小。这里的尺寸不固定的意思是说，我们可以使用图像金字塔中的不同图像作为输入。
在P-Net网络中，我们首席那会设置最小的人脸检测尺寸，minsize=20(这里)[https://www.cnblogs.com/shine-lee/p/10066049.html]。人脸尺寸小于这个的，我们是不考虑的。
P-Net网络是1212大小的框来检测是否具有人脸。这个时候如果我们假设输入图像尺寸为100120，这样我们能够接受的最小的人脸图像尺寸就是2020，最大就是100100.
如果想要把最小的20*20缩小到可以被P-Net来识别，我们就需要设定第一个缩小因子为12/20=0.6。同时我们设定图像金字塔相邻层缩放比例一致为0.7，这样大概就是
[0.6,0.42419999999999997,0.29990939999999994,0.2120359458,0.14990941368059996,0.10598595547218417,0.0749320705188342,0.05297697385681578,0.03745472051676876]。
在这个过程中，我们需要保证图像最小边长度的大于12.

P-Net返回两个结果，一个是分类结果，是否含有人脸。一个是回归结果，返回四个偏移量。在推断阶段，两个结果同时生成，我们首先对分类结果进行处理，对于大于threshold的值（
这个是我们认为规定的，认为大于这个值的才认为含有人脸），然后我们使用NMS进行候选框的排除（在每个缩放比例的条件下生成的候选框我们都会进行NMS），随后我们把所有缩放比例之下生成的额候选框进行一个NMS，随后我们结合offsets对筛选之后的筛选框进行调整。

R-Net
我们把从P-Net中获得的候选框进行resize到24*24. 然后我们进行卷积核全连接，对每一个候选框进行分类和回归。首先对候选框进行NMS，然后结合回归结果进行回归调整。

O-net
将R-Net的候选框进行resize到48*48,返回三个结果：关键点位置，回归结果，分类结果

人脸检测--MTCNN从头到尾的详解 - 丘学文的文章 - 知乎这篇文章对于推理过程讲解的很好
https://zhuanlan.zhihu.com/p/58825924

MTCNN自己的学习理解的更多相关文章

MTCNN算法与代码理解—人脸检测和人脸对齐联合学习
目录写在前面算法Pipeline详解如何训练损失函数训练数据准备多任务学习与在线困难样本挖掘预测过程参考博客:blog.shinelee.me | 博客园 | CSDN 写在前面主 ...
全面学习理解TLB（Translation Look-aside Buffer）地址变换高速缓存
全面学习理解TLB(Translation Look-aside Buffer)地址变换高速缓存前言: 本文学习思路是:存在缘由 --> 存在好处 --> 定义性质 --> 具 ...
MLT的学习理解
MLT的学习理解 MLT是一个开源的多媒体库,我们的音视频编辑工具,是使用它作为底层支持,某司的'快剪辑'pc版和安卓版,也是用的它. MLT简介它的GitHub地址,这个库比较老了,现在只有一个作 ...
菜鸟之路——机器学习之SVM分类器学习理解以及Python实现
SVM分类器里面的东西好多呀,碾压前两个.怪不得称之为深度学习出现之前表现最好的算法. 今天学到的也应该只是冰山一角,懂了SVM的一些原理.还得继续深入学习理解呢. 一些关键词: 超平面(hyper ...
batch normalization学习理解笔记
batch normalization学习理解笔记最近在Andrew Ng课程中学到了Batch Normalization相关内容,通过查阅资料和原始paper,基本上弄懂了一些算法的细节部分,现 ...
Source Xref 与 JavaDocs 学习理解
最近学习Mybatis的官方文档,看到了[项目文档]一节有很多内容没有见过,做个笔记,理解一下. 没找到java相关代码的解释,其实用下面这个php版本解释,也非常不错. What is SOURCE ...
TLD网络资源汇总--学习理解之（四）
原文:http://blog.csdn.net/mysniper11/article/details/8726649 引文地址:http://www.cnblogs.com/lxy2017/p/392 ...
TLD算法概述--学习理解之（一）
liuyihai@126.com http://www.cnblogs.com/liuyihai/ TLD(Tracking-Learning-Detection)是英国萨里大学的一个捷克籍博士生Zd ...
face recognition[翻译][深度学习理解人脸]
本文译自<Deep learning for understanding faces: Machines may be just as good, or better, than humans& ...

随机推荐

网络爬虫之记一次js逆向解密经历
1 引言数月前写过某网站(请原谅我的掩耳盗铃)的爬虫,这两天需要重新采集一次,用的是scrapy-redis框架,本以为二次爬取可以轻松完成的,可没想到爬虫启动没几秒,出现了大堆的重试提示,心里顿时 ...
css相关知识
display: block; "块级元素". display: inline; "行内元素". display: none; "在不删除元素的情况下 ...
GridView相同内容合并单元格
using System;using System.Data;using System.Configuration;using System.Collections;using System.Web; ...
ElasticSearch：华为云搜索CSS 之POC操作记录
2019/03/06 09:00 ES文档官方:https://support.huaweicloud.com/usermanual-es/es_01_0024.html 华为云区域:华北北京1 ES ...
[LeetCode]10. Regular Expression Matching正则表达式匹配
Given an input string (s) and a pattern (p), implement regular expression matching with support for ...
【干货】Html与CSS入门学习笔记12-14【完】
十二.HTML5标记现代HTML html5新增的元素:header nav footer aside section article time 这些新增元素使页面结构更清晰,取代<div i ...
Hyper-V 2016 配置管理系列（应用篇）
远程连接到Hyper-V HOST 为了日常运维管理操作,使用远程PowerShell工作.Windows 10上安装了RSAT(远程管理工具 ).然后安装了Hyper-V控制台: 在能够远程连接到H ...
UVA1363 - Joseph's Problem（数学，迷之优化）
题意:给出n和k,1≤n,k≤1e9,计算切入点是k/i 和 k/(i+1)差距不大.令pi = k/i, ri = k%i.如果pi+1 == pi,那么ri+1 == k - pi(i+1) = ...
a low memory warning should only destroy the layer’s bitmap
https://stablekernel.com/view-controller-in-ios-6/ Some of you may have noticed that your view contr ...
geoNear查询 near查询的升级版
geoNear查询可以看作是near查询点进化版 geoNear查询使用runCommand命令进行使用,常用使用如下: db.runCommand({ geoNear:<collection& ...

MTCNN自己的学习理解

MTCNN自己的学习理解的更多相关文章

随机推荐

热门专题