目前深度学习应用广发，其中 AI 推理的在线服务是其中一个重要的可落地的应用场景。本文将为大家介绍使用函数计算部署深度学习 AI 推理的最佳实践, 其中包括使用 FUN 工具一键部署安装第三方依赖、一键部署、本地调试以及压测评估，全方位展现函数计算的开发敏捷特性、自动弹性伸缩能力、免运维和完善的监控设施。

1.1 DEMO 概述

通过上传一个猫或者狗的照片，识别出这个照片里面的动物是猫还是狗

DEMO 示例效果入口： http://sz.mofangdegisn.cn
DEMO 示例工程地址： https://github.com/awesome-fc/cat-dog-classify

开通服务

免费开通函数计算，按量付费，函数计算有很大的免费额度。

免费开通文件存储服务NAS，按量付费

1.2 解决方案

如上图所示，当多个用户通过对外提供的 url 访问推理服务时候，每秒的请求几百上千都没有关系，函数计算平台会自动伸缩，提供足够的执行实例来响应用户的请求，同时函数计算提供了完善的监控设施来监控您的函数运行情况。

1.3. Serverless 方案与传统自建服务方案对比

1.3.1 卓越的工程效率

	自建服务	函数计算 Serverless
基础设施	需要用户采购和管理	无
开发效率	除了必要的业务逻辑开发,需要自己建立相同线上运行环境，包括相关软件的安装、服务配置、安全更新等一系列问题	只需要专注业务逻辑的开发, 配合 FUN 工具一键资源编排和部署
学习上手成本	可能使用 K8S 或弹性伸缩( ESS )，需要了解更多的产品、名词和参数的意义	会编写对应的语言的函数代码即可

1.3.2 弹性伸缩免运维

	自建服务	函数计算 Serverless
弹性高可用	需要自建负载均衡 (SLB)，弹性伸缩，扩容缩容速度较 FC 慢	FC系统固有毫秒级别弹性伸缩，快速实现底层扩容以应对峰值压力，免运维
监控报警查询	ECS 级别的 metrics	提供更细粒度的函数执行情况，每次访问函数执行的 latency 和日志等，更加完善的报警监控机制

1.3.3 更低的成本

函数计算 (FC) 固有自动伸缩和负载均衡功能，用户不需要购买负载均衡 (SLB) 和弹性伸缩。
具有明显波峰波谷的用户访问场景(比如只有部分时间段有请求，其他时间甚至没有请求)，选择按需付费，只需为实际使用的计算资源付费。

对于明显波峰波谷或者稀疏调用具有低成本优势，同时还保持了弹性能力，以后业务规模做大以后并没有技术切换成本，同时财务成本增长配合预付费也能保持平滑。

部分请求持续平稳的场景下,可以配合预付费解决按需付费较高单价问题。函数计算成本优化最佳实践文档。

假设有一个在线计算服务，由于是CPU 密集型计算，因此在这里我们将平均 CPU 利用率作为核心参考指标对成本，以一个月为周期，10台 C5 ECS 的总计算力为例，总的计算量约为 30% 场景下，各解决方案 CPU 资源利用率使用情况示意图大致如下:

由上图预估出如下计费模型：

函数计算预付费 3CU 一个月: 246.27 元，计算能力等价于 ECS 计算型 C5
ECS 计算型 C5 (2vCPU,4GB)+云盘: 包月219 元，按量: 446.4 元
包月10 Mbps 的 SLB: 526.52 元(这里做了一定的流量假设)，弹性伸缩免费
饱和使用下，函数计算按量付费的一台机器成本约为按量付费 C5 ECS 的2 倍

	平均CPU利用率	计算费用	SLB	总计
函数计算组合付费	>=80%	738+X（246.27*3+X）	无	<= 738+X
按峰值预留ECS	<=30%	2190（10*219）	526.52	>=2716.52
弹性伸缩延迟敏感	<=50%	1314（102193/5）	526.52	>= 1840.52
弹性伸缩成本敏感	<=70%	938.57 (102193/7)	526.52	>= 1465.09

注：

这里假设函数逻辑没有公网公网下行流量费用，即使有也是一致的，这里成本比较暂不参与

延时敏感，当 CPU 利用率大于等于 50% 就需要开始进行扩容，不然更来不及应对峰值

成本敏感，当 CPU 利用率大约 80% 即开始进行扩容，能容受一定几率的超时或者5XX

上表中，其中函数计算组合付费中的 X 为按需付费的成本价，假设按需付费的计算量占整个计算量的 10%，假设 CPU 利用率为100%, 对应上表，那么需要 3 台 ECS 的计算能力即可。因此 FC 按量付费的成本 X = 3 ️446.4 ️ 10% ️ 2 = 267.84 （ FC 按量付费是按量 ECS 的2倍），这个时候函数计算组合付费总计 1005.8 元。在这个模型预估里面，只要 FC 按量付费占整个计算量小于 20%，即使不考虑 SLB, 单纯考虑计算成本，都是有一定优势的。

1.3.4. 小结

基于函数计算进行 AI 推理等 CPU 密集型的主要优势：

上手简单，只专注业务逻辑开发，极大提高工程开发效率。

自建方案有太多学习和配置成本，如针对不同场景，ESS 需要做各种不同的参数配置
系统环境的维护升级等

免运维，函数执行级别粒度的监控和告警。
毫秒级弹性扩容，保证弹性高可用，同时能覆盖延迟敏感和成本敏感类型。
在 CPU 密集型的计算场景下，通过设置合理的组合计费模式，在如下场景中具有成本优势：

请求访问具有明显波峰波谷，其他时间甚至没有请求
有一定稳定的负载请求，但是有部分时间段请求量突变剧烈

打包代码ZIP包和部署函数

FUN 操作简明视频教程

开通服务

免费开通函数计算，按量付费，函数计算有很大的免费额度。

免费开通文件存储服务NAS，按量付费

2.1 安装第三方包到本地并上传到NAS

2.1.1 安装最新的Fun

安装版本为8.x 最新版或者10.x 、12.x nodejs
安装 funcraf

2.1.2 Clone 工程 & Fun 一键安装第三方库到本地

git clone https://github.com/awesome-fc/cat-dog-classify.git
复制 .env_example 文件为 .env, 并且修改 .env 中的信息为自己的信息
执行 fun install -v, fun 会根据 Funfile 中定义的逻辑安装相关的依赖包

root@66fb3ad27a4c: ls .fun/nas/auto-default/classify

model  python

root@66fb3ad27a4c: du -sm .fun

697     .fun

根据 Funfile 的定义：

将第三方库下载到 .fun/nas/auto-default/classify/python 目录下
本地 model 目录移到 .fun/nas/auto-default/model 目录下

安装完成后，从这里我们看出，函数计算引用的代码包解压之后已经达到了 670 M, 远超过 50M 代码包限制, 解决方案是 NAS 详情可以参考: 挂载NAS访问，幸运的是 FUN 工具一键解决了 nas 的配置和文件上传问题。

2.1.3. 将下载的依赖的第三方代码包上传到 NAS

fun nas init

fun nas info

fun nas sync

fun nas ls nas://classify:/mnt/auto/

依次执行这些命令，就将本地中的 .fun/nas/auto-default 中的第三方代码包和模型文件传到 NAS 中, 依次看下这几个命令的做了什么事情:

fun nas init: 初始化 NAS, 基于您的 .env 中的信息获取(已有满足条件的nas)或创建一个同region可用的nas
fun nas info: 可以查看本地 NAS 的目录位置, 对于此工程是 $(pwd)/.fun/nas/auto-default/classify
fun nas sync: 将本地 NAS 中的内容（.fun/nas/auto-default/classify）上传到 NAS 中的 classify 目录
fun nas ls nas:///mnt/auto/: 查看我们是否已经正确将文件上传到了 NAS

2.2 本地调试函数

在 template.yml 中，指定了这个函数是 http 类型的函数，所以根据 fun 的提示:

Tips for next step

======================

* Invoke Event Function: fun local invoke

* Invoke Http Function: fun local start

* Build Http Function: fun build

* Deploy Resources: fun deploy

执行 fun local start, 本地就会启动一个 http server 来模拟函数的执行，然后我们 client 端可以使用 postman， curl 或者浏览器，比如对于本例：

2.3 部署函数到FC平台

本地调试OK 后，我们接下来将函数部署到云平台：

修改 template.yml LogConfig 中的 Project, 任意取一个不会重复的名字即可，有两处地方需要更改，然后执行

fun deploy

注意: template.yml 注释的部分为自定义域名的配置, 如果想在 fun deploy 中完成这个部署工作:

先去域名解析, 比如在示例中, 将域名 sz.mofangdegisn.cn 解析到 123456.cn-hangzhou.fc.aliyuncs.com, 对应的域名、accountId 和 region 修改成自己的
去掉 template.yml 中的注释, 修改成自己的域名
执行 fun deploy

这个时候如果没有自定义域名，直接通过浏览器访问访问http trigger 的url，比如 https://123456.cn-shenzhen.fc.aliyuncs.com/2016-08-15/proxy/classify/cat-dog/ 会被强制下载.

原因:https://help.aliyun.com/knowledge_detail/56103.html#HTTP-Trigger-compulsory-header

登录控制台https://fc.console.aliyun.com，可以看到service 和函数已经创建成功，并且 service 也已经正确配置。

在这里，我们发现第一次打开页面访问函数的时候，执行环境实例冷启动时间非常长，如果是一个在线AI推理服务，对响应时间非常敏感，冷启动引起的毛刺对于这种类型的服务是不可接受的，接下来，本文讲解如何利用函数计算的预留模式来消除冷启动带来的负面影响。

使用预留模式消除冷启动毛刺

函数计算具有动态伸缩的特性，根据并发请求量，自动弹性扩容出执行环境来执行环境，在这个典型的深度学习示例中，import keras 消耗的时间很长，在我们设置的 1 G 规格的函数中，并发访问的时候耗时10s左右，有时甚至20s+

start = time.time()

from keras.models import model_from_json

print("import keras time = ", time.time()-start)

3.1 函数计算设置预留

预留操作简明视频教程

在 FC 控制台，发布版本，并且基于该版本创建别名 prod，并且基于别名 prod 设置预留, 操作过程请参考：https://help.aliyun.com/document_detail/138103.html
将该函数的 http trigger 和自定义域名的设置执行 prod 版本

一次压测结果

从上面图中我们可以看出，当函数执行的请求到来时，优先被调度到预留的实例中被执行，这个时候是没有冷启动的，所以请求是没有毛刺的，后面随着测试的压力不断增大(峰值TPS 达到 1184), 预留的实例不能满足调用函数的请求，这个时候函数计算就自动进行按需扩容实例供函数执行，此时的调用就有冷启动的过程，从上面我们可以看出，函数的最大 latency 时间甚至达到了 32s，如果这个web AP是延时敏感的，这个 latency 是不可接受的。

总结

函数计算具有快速自动伸缩扩容能力
预留模式很好地解决了冷启动中的毛刺问题
开发简单易上手，只需要关注具体的代码逻辑， Fun 工具助您一键式部署运用
函数计算具有很好监控设施, 您可以可视化观察您函数运行情况，执行时间、内存等信息

有任何问题欢迎进扫码进钉钉群沟通

“阿里巴巴云原生关注微服务、Serverless、容器、Service Mesh 等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践，做最懂云原生开发者的技术圈。”

使用函数计算三步实现深度学习 AI 推理在线服务的更多相关文章

faceswap深度学习AI实现视频换脸详解
给大家介绍最近超级火的黑科技应用deepfake,这是一个实现图片和视频换脸的app.前段时间神奇女侠加尔盖朵的脸被换到了爱情动作片上,233333.我们这里将会从github项目faceswap开始 ...
TensorFlow系列专题（三）：深度学习简介
一.深度学习的发展历程深度学习的起源阶段深度学习的发展阶段深度学习的爆发阶段二.深度学习的应用自然语言处理语音识别与合成图像领域三．参考文献一.深度学习的发展历程作为机器学习最 ...
经典书单 —— 语言/算法/机器学习/深度学习/AI/CV/PGM
0.0 计算机科学 <Lex 与 Yacc> Think Complexity(使用 Python 语言) GitHub - AllenDowney/ThinkComplexity: Co ...
移动端 CPU 的深度学习模型推理性能优化——NCHW44 和 Record 原理方法详解
用户实践系列,将收录 MegEngine 用户在框架实践过程中的心得体会文章,希望能够帮助有同样使用场景的小伙伴,更好地了解和使用 MegEngine ~ 作者:王雷 | 旷视科技研发工程师背景 ...
基于函数计算 + TensorFlow 的 Serverless AI 推理
前言概述本文介绍了使用函数计算部署深度学习 AI 推理的最佳实践, 其中包括使用 FUN 工具一键部署安装第三方依赖.一键部署.本地调试以及压测评估, 全方位展现函数计算的开发敏捷特性.自动弹性伸缩 ...
MXNet设计笔记之：深度学习的编程模式比较
市面上流行着各式各样的深度学习库,它们风格各异.那么这些函数库的风格在系统优化和用户体验方面又有哪些优势和缺陷呢?本文旨在于比较它们在编程模式方面的差异,讨论这些模式的基本优劣势,以及我们从中可以学到 ...
[源码解析] 深度学习流水线并行 PipeDream(6)--- 1F1B策略
[源码解析] 深度学习流水线并行 PipeDream(6)--- 1F1B策略目录 [源码解析] 深度学习流水线并行 PipeDream(6)--- 1F1B策略 0x00 摘要 0x01 流水线比 ...
Deep Learning 19_深度学习UFLDL教程：Convolutional Neural Network_Exercise（斯坦福大学深度学习教程）
理论知识:Optimization: Stochastic Gradient Descent和Convolutional Neural Network CNN卷积神经网络推导和实现.Deep lear ...
机器学习&深度学习基础（目录）
从业这么久了,做了很多项目,一直对机器学习的基础课程鄙视已久,现在回头看来,系统的基础知识整理对我现在思路的整理很有利,写完这个基础篇,开始把AI+cv的也总结完,然后把这么多年做的项目再写好总结. ...

随机推荐

shell中的函数、shell中的数组、告警系统需求分析
7月16日任务 20.16/20.17 shell中的函数20.18 shell中的数组20.19 告警系统需求分析 20.16/20.17 shell中的函数函数就是一个子shell就是一个代码段 ...
C语音I博客作业09
------------恢复内容开始------------ 这个作业属于那个课程|C语言程序设计II --|:--:|--: 这个作业要求在哪里|https://edu.cnblogs.com/ca ...
java基础（3）--详解String
java基础(3)--详解String 其实与八大基本数据类型一样,String也是我们日常中使用非常频繁的对象,但知其然更要知其所以然,现在就去阅读源码深入了解一下String类对象,并解决一些我由 ...
【我的物联网成长记6】由浅入深了解NB-IoT
[摘要] 什么是NB-IoT?NB-IoT有什么优势?NB-IoT能做什么?本文将会从NB-IoT技术的发展历程,技术特点,通信协议,应用场景等方面为您全方面解读NB-IoT技术,了解NB-IoT的独 ...
创建raid5（3个raid2个备份）
创建raid5(3个raid2个备份) 1.首先创建五个磁盘 2.创建RAID5并设置2块备份故障盘: 3.可查看下阵列的详细信息(Spare Devices数量为1): 4.将磁盘阵列格式化为ext ...
可能是全网最简单的 OpenStack 安装方式
OpenStack 因为架构复杂,配置较多,一向以安装部署过程困难闻名.虽然 OpenStack 社区前后涌现出了很多的自动化部署工具,但是对于普通用户,特别是新人来说,上手仍然有难度. 使用本文介绍 ...
luogu P1566 加等式
题目描述对于一个整数集合,我们定义"加等式"如下:集合中的某一个元素可以表示成集合内其他元素之和.如集合{1,2,3}中就有一个加等式:3＝1+2,而且3＝1+2 和3＝2+1是 ...
Django中直接执行SQL语句
欢迎加入python学习交流群 667279387 今天在django views.py看到同事写的代码里面有段关于数据库查询的语句.因为涉及多个表的查询,所以django 的models的查询无法满 ...
最全的linux系统安装教程和排错方法
第4章 linux信息和系统安装与连接 260 4.1 linux的发展历史 260 4.2 GPL协议,FSF协议 261 4.3 linux系统的安装 261 4.3.1 ...
JS操作document对象
找到对象: document.getElementById():返回对拥有指定 id 的第一个对象的引用. document.getElementsByName():返回带有指定名称的对象集合. do ...

使用函数计算三步实现深度学习 AI 推理在线服务