背景

在公司内部，我负责帮助研究院的小伙伴搭建机器学习web服务，研究院的小伙伴提供一个机器学习本地接口，我负责提供一个对外服务的HTTP接口。

说起人工智能和机器学习，python是最擅长的，其以开发速度快，第三方库多而广受欢迎，以至于现在大多数机器学习算法都是用python编写。但是对于服务化来说，python有致命的问题：很难利用机器多核。由于一个python进程中全局只有一个解释器，故多线程是假的，多个线程只能使用一个核，要想充分利用多核就必须使用多进程。此外由于机器学习是CPU密集型，其对多核的需求更为强烈，故要想服务化必须多进程。但是机器学习服务有一个典型特征：服务初始化时，有一个非常大的数据模型要加载到内存，比如我现在要服务化的这个，模型加载到内存需要整整8G的内存，之后在模型上的分类、预测都是只读，没有写操作。所以在多进程基础上，也要考虑内存限制，如果每个进程都初始化自己的模型，那么内存使用量将随着进程数增加而成倍上涨，如何使得多个进程共享一个内存数据模型也是需要解决的问题，特别的如何在一个web服务上实现多进程共享大内存模型是一个棘手的问题。

首先，我们来看看如何进行web服务化呢？我使用python中广泛利用的web框架：Flask + gunicorn。Flask + gunicorn我这里面认为大伙都用过，所以我后面写的就省略些，主要精力放在遇到的问题和解决问题的过程。

实现方式1：每个进程分别初始化自己的模型

为此我编写了一个python文件来对一个分类模型进行服务化，文件首先进行模型初始化，之后每次web请求，对请求中的数据data利用模型进行预测，返回其对应的标签。

#label_service.py

# 省略一些引入的包

model = Model() #数据模型

model.load()    #模型加载训练好的数据到内存中

app = Flask(__name__)

class Label(MethodView):

      def post(self):

        data = request.data

        label = model.predict(data)

        return label

app.add_url_rule('/labelservice/', view_func=Label.as_view('label'), methods=['POST','GET'])

利用gunicorn进行启动，gunicorn的好处在于其支持多进程，每个进程可以独立的服务一个外部请求，这样就可以利用多核。

gunicorn  -w8 -b0.0.0.0:12711 label_service:app

其中：

-w8 意思是启动8个服务进程。

满心欢喜的启动，但是随即我就发现内存直接爆掉。前面说过，我的模型加载到内存中需要8个G，但是由于我启动了8个工作进程，每个进程都初始化一次模型，这就要求我的机器至少有64G内存，这无法忍受。可是，如果我就开一个进程，那么我的多核机器的CPU就浪费了，怎么办？

那么有没有什么方法能够使得8个工作进程共用一份内存数据模型呢？很遗憾，python中提供多进程之间共享内存都是对于固定的原生数据类型，而我这里面是一个用户自定义的类。此外，模型中依赖的大量的第三方机器学习包，这些包本身并不支持共享内存方式，而且我也不可能去修改它们的源码。怎么办？

gunicorn 进程模型

仔细看了gunicorn的官方文档，其中就有对其工作模型的描述。

gunicorn主进程：负责fork子进程并监控子进程，根据外部信号来决定是否增加或者减少子进程的数量。
gunicorn子进程：负责接收web请求并且完成请求计算。

我突发奇想，我可以利用gunicorn父子进程在fork时共享父进程内存空间直接使用模型，只要没有对模型的写操作，就不会触发copy-on-write，内存就不会由于子进程数量增加而成本增长。原理图如下：

主进程首先初始化模型，之后fork的子进程直接就拥有父进程的地址空间。接下来的问题就是如何在gunicron的一个恰当的地方进行初始化，并且如何把模型传递给Flask。

实现方式2：利用gunicorn配置文件只在主进程中初始化模型

查看gunicorn官方文档，可以在配置文件配置主进程初始化所需的数据，gunicorn保证配置文件中的数据只在主进程中初始化一次。之后可以利用gunicorn中的HOOK函数pre_request，把model传递给flask处理接口。

#gunicorn.conf

import sys

sys.path.append(".") #必须把本地路径添加到path中，否则gunicorn找不到当前目录所包含的类

model = Model()

model.load()

def pre_request(worker, req):

  req.headers.append(('FLASK_MODEL', model)) #把模型通过request传递给flask。

pre_request = pre_request

#label_service.py

# 省略一些引入的包

app = Flask(__name__)

class Label(MethodView):

      def post(self):

        data = request.data

        model = request.environ['HTTP_FLASK_MODEL'] #从这里取出模型，注意多了一个HTTP前缀。

        label = model.predict(data)

        return label

app.add_url_rule('/labelservice/', view_func=Label.as_view('label'), methods=['POST','GET'])

启动服务：

gunicorn -c gunicorn.conf -w8 -b0.0.0.0:12711 label_service:app

使用 -c 指定我们的配置文件。

启动服务发现达到了我的目的，模型只初始化一次，故总内存消耗还是8G。

这里面提醒大家，当你用top看内存时，发现每个子进程内存大小还是8G，没有关系，我们只要看本机总的剩余内存是减少8G还是减少了8*8=64G。

到此，满心欢喜，进行上线，但是悲剧马上接踵而来。服务运行一段时间，每个进程内存陡增1G，如下图是我指定gunicorn进程数为1的时候，实测发现，如果启动8个gunicorn工作进程，则内存在某一时刻增长8G，直接oom。

到此，我的内心是崩溃的。不过根据经验我推测，在某个时刻某些东西触发了copy-on-write机制，于是我让研究院小伙伴仔细审查了一下他们的模型代码，确认没有写操作，那么就只可能是gunicorn中有写操作。

接下来我用蹩脚的英文在gunicorn中提了一个issue：https://github.com/benoitc/gunicorn/issues/1892 ，大神立刻给我指出了一条明路，原来是python的垃圾收集器搞的鬼，详见：https://bugs.python.org/issue31558 ，因为python的垃圾收集会更改每个类的 PyGC_Head，从而它触发了copy-on-write机制，导致我的服务内存成倍增长。

那么有没有什么方法能够禁止垃圾收集器收集这些初始化好的需要大内存的模型呢？有，那就是使用gc.freeze()，详见 https://docs.python.org/3.7/library/gc.html#gc.freeze 。但是这个接口在python3.7中才提供，为此我不得不把我的服务升级到python3.7。

实现方式3：python2.7升级到python3.7后使用gc.freeze()

升级python是一件非常痛苦的事情，因为我们的代码都是基于python2.7编写，许多语法在python3.7中不兼容，特别是字符串操作，简直恶心到死，只能一一改正，除此之外还有pickle的不兼容等等，具体修改过程不赘述。最终我们的服务代码如下。

#gunicorn.conf

import sys

import gc

sys.path.append(".") #必须把本地路径添加到path中，否则gunicorn找不到当前目录所包含的类

model = Model()

model.load()

gc.freeze() #调用gc.freeze()必须在fork子进程之前，在gunicorn的这个地方调用正好合适，freeze把截止到当前的所有对象放入持久化区域，不进行回收，从而model占用的内存不会被copy-on-write。

def pre_request(worker, req):

  req.headers.append(('FLASK_MODEL', model)) #把模型通过request传递给flask。

pre_request = pre_request

上线之后观察到，我们单个进程内存大小从8个G降低到6.5个G，这个推测和python3.7本身的优化有关。其次，运行一段时间后，每个子进程内存缓慢上涨500M左右后达到稳定，这要比每个子进程突然增加1G内存（并且不知道是否只突增一次）要好的多。

使用父子进程共享数据后需要进行预热

当使用gunicorn多进程实现子进程与父进程共享模型数据后，发现了一个问题：就是每个子进程模型的第一次请求计算耗时特别长，之后的计算就会非常快。这个现象在每个进程拥有自己的独立的数据模型时是不存在的，不知道是否和python的某些机制有关，有哪位小伙伴了解可以留言给我。对于这种情况，解决办法是在服务启动后预热，人为尽可能多发几个预热请求，这样每个子进程都能够进行第一次计算，请求处理完毕后再上线，这样就避免线上调用方长时间hang住得不到响应。

结语

到此，我的服务化之路暂时告一段落。这个问题整整困扰我一周，虽然解决的不是很完美，但是对于我这个python新手来说，还是收获颇丰。也希望我的这篇文章能够对小伙伴们产生一些帮助。

机器学习web服务化实战：一次吐血的服务化之路的更多相关文章

《Python Web开发实战》|百度网盘免费下载|Python Web开发
<Python Web开发实战>|百度网盘免费下载|Python Web开发提取码:rnz4 内容简介这本书涵盖了Web开发的方方面面,可以分为如下部分: 1. 使用最新的Flask ...
响应性web设计实战总结(二)
响应性web设计实战总结(二) 阅读目录背景知识: Gulp-less安装及配置如下对响应性web总结,之前总结过2篇文章:可以看如下: http://www.cnblogs.com/tugenh ...
响应性web设计实战总结
响应性web设计实战响应性web设计的理念是:页面的设计与开发应当根据用户行为与设备环境(包括系统平台,屏幕尺寸,屏幕定向等)进行相应的响应及调整.具体的实践方式由多方面组成,包括弹性网格和布局,图 ...
《Java web 开发实战经典》读书笔记
去年年末,也就是大四上学期快要结束的时候,当时保研的事情确定了下来,终于有了一些空闲的时间可以学点实用的技术. 之前做数据库课程设计的时候,也接触过java web的知识,当时做了一个卖二手书籍的网站 ...
一个比较全面的web项目实战学习
一个比较全面的web项目实战学习:http://www.cnblogs.com/jikey/p/3613082.html
Laravel 教程 - Web 开发实战入门 ( Laravel 5.5 )购买链接
Laravel 教程 - Web 开发实战入门 ( Laravel 5.5 )购买链接: 推荐给你高品质的实战课程 https://laravel-china.org/courses?rf=158 ...
HTML5移动Web开发实战 PDF扫描版
<HTML5移动Web开发实战>提供了应对这一挑战的解决方案.通过阅读本书,你将了解如何有效地利用最新的HTML5的那些针对移动网站的功能,横跨多个移动平台.全书共分10章,从移动Web. ...
《Java Web开发实战》——Java工程师必备干货教材
一年一度毕业季,又到了简历.offer漫天飞,失望与希望并存的时节.在IT行业,高校毕业生求职时,面临的第一道门槛就是技能与经验的考验,但学校往往更注重学生的理论知识,忽略了对学生实践能力的培养,因而 ...
<<Java RESTful Web Service实战>> 读书笔记
<<Java RESTful Web Service实战>> 读书笔记第一章 JAX-RS2.0入门 REST (Representational State ransf ...

随机推荐

MFC半透明对话框
int CTestDlg::OnCreate(LPCREATESTRUCT lpCreateStruct) { if (CDialog::OnCreate(lpCreateStruct) == -1) ...
Effective Java 第三版——40. 始终使用Override注解
Tips <Effective Java, Third Edition>一书英文版已经出版,这本书的第二版想必很多人都读过,号称Java四大名著之一,不过第二版2009年出版,到现在已经将 ...
Dubbo配置引发的一个问题--- Duplicate spring bean id
1.原因因项目业务需要,要调用RPC框架,项目原本已经依赖了很多RPC接口需要启动时加载,所以准备做成启动时不预加载. 就是在配置的时候加上check=false. 官方文档解释的作用,就是Dubb ...
Java并发-取消与关闭
如果外部代码可以再某个操作正常完成之前就将其置入"完成"状态,那么这个操作就是可以取消的.取消的原因有:用户请求取消.有时间限制的操作.应用程序事件.错误和关闭等中断如果使用某 ...
Android 源码中的设计模式
最近看了一些android的源码,发现设计模式无处不在啊!感觉有点乱,于是决定要把设计模式好好梳理一下,于是有了这篇文章. 面向对象的六大原则单一职责原则所谓职责是指类变化的原因.如果一个类有多于 ...
win8系统下,python 2.7安装xlrd,xlutils和xlwt的方法
一.先到python的官网上下载压缩包二.将压缩包解压三.将打开cmd,进入到解压文件所在的位置四.键入 python setup.py install
C# Dispose模式详细分析
C#Dispose模式目的: 为了及时释放宝贵的非托管资源和托管资源,并且保证资源在被gc回收的时候可以正确释放资源,同时兼顾执行效率必须遵循的事实: 1 托管资源释放: 由另一线程的gc进行释放 ...
svn部署项目
svn部署项目在svn服务器上文件夹拷入项目文件~然后直接检出文件夹~即可
EF Core Model更新迁移
EF Core 迁移感觉就是以前EF Code First的自动同步数据库功能内容:在你新增.更新TableModel后,如何自动化的更新DB中的真实Table.以及对这些更改进行一个版本控制. ...
洛谷 P1272 解题报告
P1272 重建道路题目描述一场可怕的地震后,人们用\(N\)个牲口棚\((1≤N≤150\),编号\(1..N\))重建了农夫\(John\)的牧场.由于人们没有时间建设多余的道路,所以现在从一 ...

机器学习web服务化实战：一次吐血的服务化之路

背景