MTCNN人脸检测附完整C++代码

人脸检测识别一直是图像算法领域一个主流话题。

前年 SeetaFace 开源了人脸识别引擎，一度成为热门话题。

虽然后来SeetaFace 又放出来 2.0版本，但是，我说但是。。。

没有训练代码，想要自己训练一下模型那可就犯难了。

虽然可以阅读源码，从前向传播的角度，反过来实现训练代码，

但是谁有那个闲功夫和时间，去折腾这个呢？

有的时候还是要站在巨人的肩膀上，你才能看得更远。

而SeetaFace 不算巨人，只是当年风口上的猪罢了。

前年，为了做一个人脸项目，也是看遍了网上各种项目。

林林总总，各有优劣。

不多做评价，很多东西还是要具体实操，实战才能见真知。

有一段时间，用SeetaFace的人脸检测来做一些小的演示demo，

也花了一点小时间去优化它的算法。

不过很明显我只是把他当成玩具看待。

毕竟不能自己训练模型，这是很大的诟病。

直到后来深度学习大放异彩，印象最深刻莫过于MTCNN。

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Neural Networks

大合照下，人脸圈出来很准确，壮观了去，这是第一印象。

上图，大家感受一下。

MTCNN的有三个网络结构。

Stage1: Proposal Net

Stage2: Refine Net

Stage3: Output Net

具体算法思路就不展开了。

我对MTCNN感兴趣的点在于，

MTCNN的思路可以拓展到各种物体检测和识别方向。

也许唯一缺少的就是打标好的数据，

而标注五个点，足够用于适配大多数物体了。

符合小而美的理念，这个是我比较推崇的。

所以MTCNN是一个很值得品味的算法。

github上也有不少MTCNN的实现和资源。

基于mxnet 基于caffe 基于ncnn 等等。。。

很明显，mxnet 和 caffe 不符合小而美的理念。

果断抛弃了。

ncnn有点肥大，不合我心。

所以，我动了杀气。。

移除NCNN 与mtcnn无关的层，

梳理ncnn的一些逻辑代码。

简单做了一些适配和优化。

砍掉一些边边角角。

不依赖opencv等第三方库。

编写示例代码完成后，还有不少工作要做，

不过第一步感觉已经符合我的小小预期。

完整示例代码：

#include "mtcnn.h"

#include "browse.h"

#define USE_SHELL_OPEN

#ifndef  nullptr

#define nullptr 0

#endif

#if defined(_MSC_VER)

#define _CRT_SECURE_NO_WARNINGS

#include <windows.h>

#else

#include <unistd.h>

#endif

#define STB_IMAGE_STATIC

#define STB_IMAGE_IMPLEMENTATION

#include "stb_image.h"

//ref:https://github.com/nothings/stb/blob/master/stb_image.h

#define TJE_IMPLEMENTATION

#include "tiny_jpeg.h"

//ref:https://github.com/serge-rgb/TinyJPEG/blob/master/tiny_jpeg.h

#include <stdint.h>

#include "timing.h"

char saveFile[];

unsigned char *loadImage(const char *filename, int *Width, int *Height, int *Channels) {

    return stbi_load(filename, Width, Height, Channels, );

}

void saveImage(const char *filename, int Width, int Height, int Channels, unsigned char *Output) {

    memcpy(saveFile + strlen(saveFile), filename, strlen(filename));

    *(saveFile + strlen(saveFile) + ) = ;

    //保存为jpg

    if (!tje_encode_to_file(saveFile, Width, Height, Channels, true, Output)) {

        fprintf(stderr, "save JPEG fail.\n");

        return;

    }

#ifdef USE_SHELL_OPEN

    browse(saveFile);

#endif

}

void splitpath(const char *path, char *drv, char *dir, char *name, char *ext) {

    const char *end;

    const char *p;

    const char *s;

    if (path[] && path[] == ':') {

        if (drv) {

            *drv++ = *path++;

            *drv++ = *path++;

            *drv = '\0';

        }

    }

    else if (drv)

        *drv = '\0';

    for (end = path; *end && *end != ':';)

        end++;

    for (p = end; p > path && *--p != '\\' && *p != '/';)

        if (*p == '.') {

            end = p;

            break;

        }

    if (ext)

        for (s = end; (*ext = *s++);)

            ext++;

    for (p = end; p > path;)

        if (*--p == '\\' || *p == '/') {

            p++;

            break;

        }

    if (name) {

        for (s = p; s < end;)

            *name++ = *s++;

        *name = '\0';

    }

    if (dir) {

        for (s = path; s < p;)

            *dir++ = *s++;

        *dir = '\0';

    }

}

void getCurrentFilePath(const char *filePath, char *saveFile) {

    char drive[_MAX_DRIVE];

    char dir[_MAX_DIR];

    char fname[_MAX_FNAME];

    char ext[_MAX_EXT];

    splitpath(filePath, drive, dir, fname, ext);

    size_t n = strlen(filePath);

    memcpy(saveFile, filePath, n);

    char *cur_saveFile = saveFile + (n - strlen(ext));

    cur_saveFile[] = '_';

    cur_saveFile[] = ;

}

void drawPoint(unsigned char *bits, int width, int depth, int x, int y, const uint8_t *color) {

    for (int i = ; i < min(depth, ); ++i) {

        bits[(y * width + x) * depth + i] = color[i];

    }

}

void drawLine(unsigned char *bits, int width, int depth, int startX, int startY, int endX, int endY,

    const uint8_t *col) {

    if (endX == startX) {

        if (startY > endY) {

            int a = startY;

            startY = endY;

            endY = a;

        }

        for (int y = startY; y <= endY; y++) {

            drawPoint(bits, width, depth, startX, y, col);

        }

    }

    else {

        float m = 1.0f * (endY - startY) / (endX - startX);

        int y = ;

        if (startX > endX) {

            int a = startX;

            startX = endX;

            endX = a;

        }

        for (int x = startX; x <= endX; x++) {

            y = (int)(m * (x - startX) + startY);

            drawPoint(bits, width, depth, x, y, col);

        }

    }

}

void drawRectangle(unsigned char *bits, int width, int depth, int x1, int y1, int x2, int y2, const uint8_t *col) {

    drawLine(bits, width, depth, x1, y1, x2, y1, col);

    drawLine(bits, width, depth, x2, y1, x2, y2, col);

    drawLine(bits, width, depth, x2, y2, x1, y2, col);

    drawLine(bits, width, depth, x1, y2, x1, y1, col);

}

int main(int argc, char **argv) {

    printf("mtcnn face detection\n");

    printf("blog:http://cpuimage.cnblogs.com/\n");

    if (argc < ) {

        printf("usage: %s  model_path image_file \n ", argv[]);

        printf("eg: %s  ../models ../sample.jpg \n ", argv[]);

        printf("press any key to exit. \n");

        getchar();

        return ;

    }

    const char *model_path = argv[];

    char *szfile = argv[];

    getCurrentFilePath(szfile, saveFile);

    int Width = ;

    int Height = ;

    int Channels = ;

    unsigned char *inputImage = loadImage(szfile, &Width, &Height, &Channels);

    if (inputImage == nullptr || Channels != ) return -;

    ncnn::Mat ncnn_img = ncnn::Mat::from_pixels(inputImage, ncnn::Mat::PIXEL_RGB, Width, Height);

    std::vector<Bbox> finalBbox;

    MTCNN mtcnn(model_path);

    double startTime = now();

    mtcnn.detect(ncnn_img, finalBbox);

    double nDetectTime = calcElapsed(startTime, now());

    printf("time: %d ms.\n ", (int)(nDetectTime * ));

    int num_box = finalBbox.size();

    printf("face num: %u \n", num_box);

    for (int i = ; i < num_box; i++) {

        const uint8_t red[] = { , ,  };

        drawRectangle(inputImage, Width, Channels, finalBbox[i].x1, finalBbox[i].y1,

            finalBbox[i].x2,

            finalBbox[i].y2, red);

        const uint8_t blue[] = { , ,  };

        for (int num = ; num < ; num++) {

            drawPoint(inputImage, Width, Channels, (int)(finalBbox[i].ppoint[num] + 0.5f),

                (int)(finalBbox[i].ppoint[num + ] + 0.5f), blue);

        }

    }

    saveImage("_done.jpg", Width, Height, Channels, inputImage);

    free(inputImage);

    printf("press any key to exit. \n");

    getchar();

    return ;

}

效果图来一个。

项目地址:

https://github.com/cpuimage/MTCNN

参数也很简单，

mtcnn 模型文件路径图片路径

例如: mtcnn ../models ../sample.jpg

用cmake即可进行编译示例代码，详情见CMakeLists.txt。

若有其他相关问题或者需求也可以邮件联系俺探讨。

邮箱地址是:
gaozhihan@vip.qq.com

MTCNN人脸检测附完整C++代码的更多相关文章

音频自动增益与静音检测算法附完整C代码
前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用于评估一定长度音频的音量强度, 而分析之后,很多类似的需求,肯定是做音频增益,提高音量诸如此类做法. ...
音频自动增益与静音检测算法附完整C代码【转】
转自:https://www.cnblogs.com/cpuimage/p/8908551.html 前面分享过一个算法<音频增益响度分析 ReplayGain 附完整C代码示例> 主要用 ...
项目实战 - 原理讲解<-> Keras框架搭建Mtcnn人脸检测平台
Mtcnn它是2016年中国科学院深圳研究院提出的用于人脸检测任务的多任务神经网络模型,该模型主要采用了三个级联的网络,采用候选框加分类器的思想,进行快速高效的人脸检测.这三个级联的网络分别是快速生成 ...
基于RNN的音频降噪算法 (附完整C代码)
前几天无意间看到一个项目rnnoise. 项目地址: https://github.com/xiph/rnnoise 基于RNN的音频降噪算法. 采用的是 GRU/LSTM 模型. 阅读下训练代码,可 ...
音频降噪算法附完整C代码
降噪是音频图像算法中的必不可少的. 目的肯定是让图片或语音更加自然平滑,简而言之,美化. 图像算法和音频算法都有其共通点. 图像是偏向空间处理,例如图片中的某个区域. 图像很多时候是以二维数据 ...
mser 最大稳定极值区域(文字区域定位)算法附完整C代码
mser 的全称:Maximally Stable Extremal Regions 第一次听说这个算法时,是来自当时部门的一个同事, 提及到他的项目用它来做文字区域的定位,对这个算法做了一些优化. ...
经典傅里叶算法小集合附完整c代码
前面写过关于傅里叶算法的应用例子. <基于傅里叶变换的音频重采样算法 (附完整c代码)> 当然也就是举个例子,主要是学习傅里叶变换. 这个重采样思路还有点瑕疵, 稍微改一下,就可以支持多通 ...
自动曝光修复算法附完整C代码
众所周知, 图像方面的3A算法有: AF自动对焦(Automatic Focus)自动对焦即调节摄像头焦距自动得到清晰的图像的过程 AE自动曝光(Automatic Exposure)自动曝光的是为了 ...
基于傅里叶变换的音频重采样算法 (附完整c代码)
前面有提到音频采样算法: WebRTC 音频采样算法附完整C++示例代码简洁明了的插值音频重采样算法例子 (附完整C代码) 近段时间有不少朋友给我写过邮件,说了一些他们使用的情况和问题. 坦白讲, ...

随机推荐

ADO.NET之Parameter属性
在ADO.NET中, public SqlParameterCollection Parameters {get;}会得到一个SqlParameter属性.下面通过一个例子进行详细的认识吧. //例如 ...
velocity 时间显示时间格式化时间转化
思想:通过前台展现层(Velocity)中的工具(tools)方法来修改. *************** 具体修改步骤: 1.在toolbox.xml配置文件中添加以下代码: <tool> ...
Uva - 1607 - Gates
题目理解麻烦,估计提交量少(总共只有32个人...)也是因为题目比较麻烦,看起来像物理题,实际理解了还可以.整个电路的功能就4种,先判断x=0和x=1的输出是否相同,吐过相同,而整个电路是常熟,随便输 ...
FFmpeg深入分析（一）
最近在做一个关于监控的项目,要在iphone 客户端实现播放监控的实时视频以及录像视频.使用到了FFmpeg,看到这篇文章,写的非常不错.转自:http://blog.chinaunix.net/ui ...
【Android 系统开发】 Android 系统启动流程简介
作者 : 万境绝尘 (octopus_truth@163.com) 转载请注明出处 : http://blog.csdn.net/shulianghan/article/details/3889548 ...
一个简易版本的lua debugger实现
introduction 工欲善其事,必先利其器.lua作为一门动态语言,虽然我已经习惯了使用print来进行代码调试,但是还是有很多童鞋觉得一款好用的调试器能更好的进行lua代码编写.所以在以前接手 ...
【面试必备】Swift 面试题及其答案
原文:Swift Interview Questions and Answers 原作者:Antonio Bello 原作者介绍: Antonio 拥有丰富的编程经验.他开始编程的时候,内存单位还是 ...
Linux 学习笔记_12_文件共享服务_3_NFS网络文件服务
NFS网络文件服务 NFS---- Network File System 用于UNIX/Linux[UNIX类操作系统]系统间通过网络进行文件共享,用户可以把网络中NFS服务器提供的共享目录挂载到本 ...
【Unity Shaders】Diffuse Shading——创建一个自定义的diffuse lighting model（漫反射光照模型）
本系列主要参考<Unity Shaders and Effects Cookbook>一书(感谢原书作者),同时会加上一点个人理解或拓展. 这里是本书所有的插图.这里是本书所需的代码和资源 ...
再回首UML之上篇
UML,统一建模语言,是一种用来对真实世界物体进行建模的标准标记,这个建模的过程是开发面向对象设计方法的第一步,UML不是一种方法学,不需要任何正式的工作产品. UML提供多种类型的模型描述图,当在某 ...

MTCNN人脸检测 附完整C++代码

MTCNN人脸检测 附完整C++代码的更多相关文章

随机推荐

热门专题

MTCNN人脸检测附完整C++代码

MTCNN人脸检测附完整C++代码的更多相关文章