百度大脑EdgeBoard计算卡基于Resnet50/Mobile-SSD模型的性能评测

ResNet模型

前言
在上一次的测试中，我们从头开始训练了一个三个卷积层串联一个全连接层的输出，作为猫狗分类的预测的模型，这次我们自己训练一个ResNet模型，并在以下三个环境中进行性能的对比

AIStudio CPU: 2 Cores 8GB Memory
AIStudio GPU: V100 16GB VMem
Edgeboard

训练模型

模型使用AIStudio 进行训练，训练和预测代码如下

RESNET:https://aistudio.baidu.com/aistudio/projectdetail/67775
MOBILE:https://aistudio.baidu.com/aistudio/projectdetail/67776
按照之前我们的做法，导出model文件和param文件。

测试结果
我们执行预测，忽略掉预处理的速度，仅仅计算模型前向传播的时间。

对于AIstudio平台，我们计算以下代码的运行时间

label = exe.run(inference_program, feed={feed_target_names[0]: tensor_img}, fetch_list=fetch_targets)

对于Edgeboard上面的PaddleMobile,我们计算以下代码的运行时间

PaddleTensor tensor;

tensor.shape = std::vector({1, input_channel, input_width, input_height});

tensor.data = PaddleBuf(data, sizeof(data));

tensor.dtype = PaddleDType::FLOAT32;

std::vector paddle_tensor_feeds(1, tensor);



PaddleTensor tensor_out;

tensor_out.shape = std::vector({});

tensor_out.data = PaddleBuf();

tensor_out.dtype = PaddleDType::FLOAT32;

std::vector outputs(1, tensor_out);



predictor->Run(paddle_tensor_feeds, &outputs);

以下为两个模型的评测数据

ResNet

Edgeboard:

CPU:

GPU:

Mobile_Net
Edgeboard:

GPU:

CPU:

总结：
下表为两个模型预测速度的对比，从中来看，其速度相对于V100的GPU甚至还有一定的优势，让人难以相信。个人的分析是由于以下几个原因

Paddle-mobile较为启动预测，与AIstudio的完整版Paddlepaddle相比有启动效率上的优势，AIstudio启动预测可能较慢。
整个预测模型batch size相当于1，发挥不出GPU的优势。
部署预算按三年算的话，GPU V100价格大概是10万，CPU 1万， EdgeBoard 5千，性价比还是蛮高的。

我在进行模型预测的时候，使用钳表对功率进行了大概的估计（条件有限），钳表的读数在0.6A-8A之间变化。结合使用的12V适配器，我大概估计Edgeboard的功耗为8W.

以8W的功耗，在单张图片的预测速度上面领先了几十倍功耗的GPU与CPU。Edgeboard的表现还是令我比较惊喜。本来想继续移植一个前段时间的大尺度的分割网络Unet进行尝试，想继续试试他最大可以跑的模型大小，但似乎Edgeboard目前还不支持分割，存在了一定遗憾。

另外我在进行调试的时候，发现过有几个发布版本的固件不是很稳定，有些op有些问题。还发现了Edgeboard在我的两台笔记本电脑上网络不是很稳定，经常出现相互无法ping通的情况，更换PC后正常，暂时还没发现为什么。

Edgeboard是我第一款接触的嵌入式神经网络加速设备。Paddle-mobile也是我接触的第一个移动端神经网络框架，也是我接触的第一个基于FPGA实现的加速框架。从我了解这个框架到现在仅仅不到半年的时间，已经发布了多个模型转换工具，降低了开发难度，并且支持EasyDL这种方式。虽然目前仍然有一些不成熟的坑需要填，不过相信在软件的迭代下面，它能成为一个很好的嵌入式原型设计平台。

Mobile-SSD 模型

这次我们自己训练一个 Mobilenet-SSD 模型,增加了不同输入维度的情况下,模型运行效率的对比

AIStudio CPU: 2 Cores 8GB Memory
AIStudio GPU: V100 16GB VMem
Edgeboard

训练模型
模型使用AIStudio提供的官方工程进行训练，训练和预测代码如下

Mobilenet-SSD:https://aistudio.baidu.com/aistudio/projectdetail/41752
按照之前我们的做法，导出model文件和param文件。

运行预测
我们执行预测，忽略掉预处理的速度，仅仅计算模型前向传播的时间。

对于AIstudio平台，我们计算以下代码的运行时间

label = exe.run(inference_program, feed={feed_target_names[0]: tensor_img}, fetch_list=fetch_targets)

对于Edgeboard上面的PaddleMobile,我们计算以下代码的运行时间

PaddleTensor tensor;

tensor.shape = std::vector({1, input_channel, input_width, input_height});

tensor.data = PaddleBuf(data, sizeof(data));

tensor.dtype = PaddleDType::FLOAT32;

std::vector paddle_tensor_feeds(1, tensor);



PaddleTensor tensor_out;

tensor_out.shape = std::vector({});

tensor_out.data = PaddleBuf();

tensor_out.dtype = PaddleDType::FLOAT32;

std::vector outputs(1, tensor_out);



predictor->Run(paddle_tensor_feeds, &outputs);

以下图片为预测结果，由于时间有限，没有很细致去训练模型，仅仅对比了模型运行的速度。

下表为模型在不同维度下的预测速度的对比，从中来看，其速度相对于V100的GPU基本处于同一个数量级，远远领先与GPU

在之前的文章里我们提到，本来想继续移植一个前段时间的大尺度的分割网络Unet进行尝试，想继续试试他最大可以跑的模型大小，但似乎Edgeboard目前还不支持分割，所以我们更换了目标检测网络进行尝试。在mobilenet-SSD这个模型上，Edgeboard最大可以跑到700*700的输入维度，并且能保持在16fps之上（不包含输入图像的语出过程），基本上具有实时性。

之前我提到的，在我的两台笔记本电脑上网络不是很稳定，经常出现相互无法ping通的情况，目前经过试验之后，发现问题为板子的网卡在与不支持千兆的网卡进行通信时候，不能正确的协商，仍然使用千兆模式，使用以下命令固定为百兆即可正常连接

ethtool -s eth0 speed 100 duplex full

作者：Litchll

百度大脑EdgeBoard计算卡基于Resnet50/Mobile-SSD模型的性能评测的更多相关文章

百度大脑EasyEdge端模型生成部署攻略
EasyEdge是百度基于Paddle Mobile研发的端计算模型生成平台,能够帮助深度学习开发者将自建模型快速部署到设备端.只需上传模型,最快2分种即可生成端计算模型并获取SDK.本文介绍Easy ...
PHP:基于百度大脑api实现OCR文字识别
有个项目要用到文字识别,网上找了很多资料,效果不是很好,偶然的机会,接触到百度大脑.百度大脑提供了很多解决方案,其中一个就是文字识别,百度提供了三种文字识别,分别是银行卡识别.身份证识别和通用文字识别 ...
基于双XCKU060+双C6678 的双FMC接口40G光纤传输加速计算卡
基于双XCKU060+双C6678 的双FMC接口40G光纤传输加速计算卡一.板卡概述板卡采用基于双FPGA+双DSP的信号采集综合处理硬件平台,板卡大小360mmx217mm.板卡两片FPGA提 ...
python预课06 基于百度大脑AI的人工智能，百度颜值检测，语音合成与识别
百度大脑: 如下图,百度开放了许多人工智能接口可以使用,先注册一个百度大脑账户点击创建应用,选择需要的功能,如人脸识别,语音识别等点击查看文档,可以查看功能对应语言的方法,参数.首先在CMD命令下 ...
百度大脑发布“AI开发者‘战疫’守护计划”，AI支援抗疫再升级
面对新冠肺炎疫情,AI开发者们正在积极运用算法.算力.软件等“武器”助力抗疫.针对开发者们在疫情防控期间的开发与学习需求,2月6日,百度大脑推出“AI开发者‘战疫’守护计划”, 正在进行疫情防控相关应 ...
AI+教育落地，百度大脑如何让校园更智能？
人工智能作为影响社会底层技术革命逐渐向传统行业渗透,“AI+”已经替代“互联网+”成为创业创新的新引擎,出人意料的是,在AI在教育业的率先落地并且相当火爆. 现在,人工智能教育已成为从业者心目中的“教 ...
百度大脑UNIT3.0智能对话技术全面解析
智能客服.智能家居.智能助手.智能车机.智能政务……赋予产品智能对话能力是提升产品智能化体验.高效服务的重要手段,已经开始被越来越多的企业关注并布局.然而,智能对话系统搭建涉及NLP.知识图谱.语音等 ...
全面解析百度大脑发布“AI开发者‘战疫’守护计划”
即日起,百度大脑发布“AI开发者战疫守护计划” 大疫当前,人人有责,携手开发者共同出击抗击疫情基于百度大脑AI开放平台和飞桨深度学习平台,积极运用算法.算力.软件等“武器”助力抗疫! 谁能参与计 ...
发布AI芯片昆仑和百度大脑3.0、L4自动驾驶巴士量产下线，这是百度All in AI一年后的最新答卷...
机器之心报道,作者:李泽南. 去年的 7 月 5 日,百度在北京国际会议中心开办了首届「AI 开发者大会」.在会上,百度首次喊出了「All in AI」的口号.一年的时间过去了,今天在同样地点举行的第 ...

随机推荐

pyenv virtualenv和virtualwrapper
pyenv pyenv最大的优势是:可以在”全局”管理不同版本的Python, 可以随时配置当前的使用的Python版本,并对其他使用Python解释器的程序生效.当系统安装多个版本的Python,使 ...
个人收藏--未整理—C# http/https 上传下载文件
c# HTTP/HTTPS 文件上传. 分类: .net 2015-02-03 08:36 541人阅读评论(0) 收藏举报方法主体 [csharp] view plaincopy public ...
3、Docker 基础安装和基础使用二
Docker 网络启动了nginx容器,但却不知道从哪里进行访问nginx. 启动nginx容器,并附加网络映射在启动nginx容器的时候,增加一个-P大写的P的参数表示随机映射一个端口 [ro ...
Netty学习——Google Protobuf的初步了解
学习参考的官网: https://developers.google.com/protocol-buffers/docs/javatutorial 简单指南详解:这个文档写的简直是太详细了. 本篇从下 ...
gulp+webpack+angular1的一点小经验（第二部分webpack包起来的angular1）
又一周过去了,项目也已经做得有点模样了.收集来一些小经验,分享给大家,有疏漏之处,还望指正,海涵. 上周整合了gulp与webpack,那么工具准备差不多了,我们就开始编码吧.编码的框架就是angul ...
一条数据的HBase之旅，简明HBase入门教程4：集群角色
[摘要] 本文主要介绍HBase与HDFS的关系,一些关键进程角色,以及在部署上的建议 HBase与HDFS 我们都知道HBase的数据是存储于HDFS里面的,相信大家也都有这么的认知: HBase是 ...
asp.net core中间件工作原理
不少刚学习.net core朋友对中间件的概念一直分不清楚,到底StartUp下的Configure方法是在做什么? public void Configure(IApplicationBuilder ...
Spring Boot 整合 Druid
Spring Boot 整合 Druid 概述 Druid 是阿里巴巴开源平台上的一个项目,整个项目由数据库连接池.插件框架和 SQL 解析器组成.该项目主要是为了扩展 JDBC 的一些限制,可以让程 ...
luogu P1379 八数码难题
题目描述在3×3的棋盘上,摆有八个棋子,每个棋子上标有1至8的某一数字.棋盘中留有一个空格,空格用0来表示.空格周围的棋子可以移到空格中.要求解的问题是:给出一种初始布局(初始状态)和目标布局(为了 ...
【CKB.DEV 茶话会】第二期：聊聊 CKB 钱包和 Nervos DAO 全流程
CKB.DEV 茶话会第二期:聊聊 CKB 钱包和 Nervos DAO 全流程为了鼓励更多优秀的开发者和研究人员参与到 CKB 的开发和生态建设中去,我们希望组织一系列 CKB Developer ...

百度大脑EdgeBoard计算卡基于Resnet50/Mobile-SSD模型的性能评测

百度大脑EdgeBoard计算卡基于Resnet50/Mobile-SSD模型的性能评测的更多相关文章

随机推荐

热门专题