中电金信：技术实践｜Flink多线程实现异构集群的动态负载均衡

导语：Apache Flink是一个框架和分布式处理引擎，用于对无界和有界数据流进行有状态计算。本文主要从实际案例入手并结合作者的实践经验，向各位读者分享当应用场景中异构集群无法做到负载均衡时，如何通过Flink的自定义多线程来实现异构集群的动态负载均衡。

●　1. 前言

●　2. 出现的问题与解决方案

　●　2.1 出现问题

　●　2.2 分析思路

　●　2.3 解决方案

●　3. 技术架构

●　4. 建设成效

●　5. 结语

前言

在实时计算应用场景中经常会有对异构集群的实时调用需求，而当异构集群的服务由于机器配置、节点负载等原因无法做到负载均衡时，可以通过Flink的自定义多线程来实现对异构集群的动态负载均衡。

下面举个例子：

文本内容鉴别、图片内容鉴别、图片OCR等特征生产需求，都需要和基于GPU部署的异构集群来交互。如果GPU集群机器配置无法统一，那么就会产生负载不均的情况。即：一个GPU集群中某些节点处理的快，某些节点处理的慢，处理慢的节点往往会导致大量的超时异常，从而引起整个作业的反压。

其流程图如下：

我们借助Flink分布式的先天优势，在任务中通过Thrift RPC调用模型服务，实时获取结果后再写到特征工程，以此来构建特征生成整个链路。

出现的问题与解决方案

出现问题：

在模型服务中部署的若干个节点，节点和节点之间是完全独立的，每个节点上线/下线后都会将自己的状态更新到ZooKeeper。在Flink任务的每个subTask都会注册一个Watch，以便获取最新且可用的所有节点。对于流入到subTask的每条数据，都需要选择一个节点来完成数据的推理。

在前期，我们使用Random策略来选择节点，但是在使用过程中我们发现，如果服务端的一个模型节点性能变低，随之而来的就是数据推理的耗时变长，那么最终可能会导致Flink任务反压。而在服务端来看，很多模型节点并没有满负荷运行，但客户端反应出来的服务端性能却不够，处理完成的总QPS很低。

另外，在和模型服务通信的时候，我们采用的是同步策略，这对于一些推理耗时长、QPS高的任务来说，需要足够大的并发度才能完成数据请求。然而，这些任务的资源利用率较低，这也是生产环境的一大痛点。

分析思路：

基于上图，我们作出如下分析：

在理想情况下，我们假设服务端有节点1、节点2、节点3，且3个节点性能都一致，每个节点都开32个并行度处理。假设每条数据处理耗时都是800ms，那么每个节点的处理能力应该是40条/s，三个节点满载的情况下处理能力应该是120条/s。

而在实际生产环境下，服务端部署的机器各个节点之间处理能力是有差异的，导致其出现差异的原因主要有三点。

■　GPU物理机器有多种规格，性能之间差别较大，在进行部署时很难确保将节点部署在同一批机器上；

■　一台机器上混部多种模型服务，相互之间会有影响；

■　部分节点所在机器网络、磁盘等出现故障也会导致出现差异。

例如节点1和节点2部署在高性能机器上，节点并行度是32，单条数据处理耗时是800ms。节点3部署在低性能机器上，节点并行度是32，单条数据处理耗时2400ms，那么节点3的处理能力可以看作为13.3条/s。同样采用随机选择节点的策略，倘若一秒总共发送了40条数据，对于节点3来说就已经达到性能瓶颈了。假设这个时候有更多的数据选择到了节点3进行处理，就只能在服务端的队列进行排队，而如果这个队列满了就会拒绝连接。

随着任务的运行，节点3的等待队列数据会越来越多，客户端从发送请求到返回结果的耗时也会随之越来越大。这时一旦有subTask选择了这个节点，那么这个subTask就需要等待比较长的时间来完成这次的请求。在这个过程中，如果上游数据还在源源不断的流入，那么就会造成subTask的InputChannel慢慢被耗尽，随后公共Buffer Pool的空间也会被占满，进而导致subTask2卡死。又因为上游算子使用了Rebalance，最终会把整个Flink任务卡死。

这是一个典型的木桶效应，在实际应用场景中，一旦有个别节点性能差或者出现故障，就会影响整个任务的稳定性。

解决方案:

在分析事故出现的原因后，我们提出给每个节点配置一个权重，模型节点定期将权重数值上报到ZooKeeper，客户端再通过权重来给每个节点分配相应的流量。这个想法很好，也在实践过程中取得了一定的效果，但是它有一个小问题：这样做会导致每个节点的流量一直抖动，抖动的频次和上报权重的时间呈正相关的关系，而且从监控来看，这样做也会导致处理的总数据量不太稳定。

在问题初步得到缓解后，我们开始思考是不是还有其他更好的方式可以解决这个事情。已知模型节点慢了会卡死一个subTask，而这个subTask本质是一个Slot，也就是一个线程，那么我们是不是可以借用多线程的方式来解决这个问题？带着这个思考，我们又尝试了另外两种解决方式：Async I/O和多线程方案。

■　Async I/O方案

Flink 在1.2版本中引入Async I/O，其主要目的是为了解决与外部系统交互时网络延迟成为系统瓶颈的问题。通过暴露出来的API，我们可以设置最大的操作数，简单理解为Slot中异步请求的最大并发数量。测试的时候我们准备了三个节点，一个节点处理耗时2000ms，另外两个节点处理耗时500ms。

任务在刚启动的几分钟内运行还比较正常，之后处理速度较慢节点的服务端队列堆积长度开始变得越来越大，最后稳定在150左右，与此同时超时失败率也开始随之升高。我们可以看到，通过这种方式虽然可以很好的解决因为快慢节点导致反压卡死和资源利用率问题，但是仍然无法解决流量分配的问题。

■　多线程方案

我们在每个Slot内部实现一个生产者-消费者模型，再创建和模型节点相同数量的线程，让每个线程固定的请求一个节点，就算这个节点卡死或者处理速度缓慢，也只会影响当前线程，对整个subTask的影响有限。

如上图所示，一个Slot内包含多个线程，个别线程对应的Service节点出现问题不会影响其它线程的消费。通过这种方式可以实现自适应的流量分发策略，每个线程对应一个服务端Pod，这种线程自适应阻塞的方式可以实现慢的节点少消费，快的节点多消费的目的。

在Flink以Slot为最小资源粒度情况下再进行细化，从Slot中开启若干个线程能够增大并发度，从而减少整体Slot数量，在降低资源的同时提高资源利用率。

技术架构

在Flink任务使用多线程的方案来解决RPC通信负载均衡的问题，编程模型需要做相应的改造，具体改造如下图：

建设成效

通过前后数据对比，我们发现在采用多线程方案后，效果还是很明显的。通过下图所示的服务端处理耗时这个指标我们可以看出以125.172结尾的节点处理耗时在1.7s左右，在流量分发数量指标可以看到分配给它的流量在5条/s左右；160.25的节点处理耗时在0.14s左右，分配的流量在58条/s左右，整体符合预期。

同时，为了保证整个服务的稳定性，我们增加了一些监控指标，如：缓存队列长度、模型失败率、链路耗时、写特征失败率等。

结语

本文主要介绍了Flink在异构集群调用的时候，如果出现服务端无法分发流量的情况，在客户端可以通过多线程的方式实现流量的动态负载均衡，这样做可以帮助服务端兼容高低配机型，提升机器利用效能。不过，需要特别指出的是本文中使用的多线程算子是Stateless(无状态)的，对于有状态的算子还需要酌情考虑。另外，如果服务端是可以自主分配节点的组件时，可以选择使用Async I/O方案。

中电金信：技术实践｜Flink多线程实现异构集群的动态负载均衡的更多相关文章

【大型网站技术实践】初级篇：借助LVS+Keepalived实现负载均衡
一.负载均衡:必不可少的基础手段 1.1 找更多的牛来拉车吧当前大多数的互联网系统都使用了服务器集群技术,集群即将相同服务部署在多台服务器上构成一个集群整体对外提供服务,这些集群可以是Web应用服务 ...
CDN技术之--集群服务与负载均衡
Web集群是由多个同时运行同一个web应用的服务器组成,在外界看来就像一个服务器一样,这多台服务器共同来为客户提供更高性能的服务.集群更标准的定义是:一组相互独立的服务器在网络中表现为单一的系统,并以 ...
Flink的高可用集群环境
Flink的高可用集群环境 Flink简介 Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布,数据通信以及容错机制等功能. 因现在主要Flink这一块做先关方面的学习, ...
基于开源Tars的动态负载均衡实践
一.背景 vivo 互联网领域的部分业务在微服务的实践过程当中基于很多综合因素的考虑选择了TARS微服务框架. 官方的描述是:TARS是一个支持多语言.内嵌服务治理功能,与Devops能很好协同的微服 ...
K8s 实践 | 如何解决多租户集群的安全隔离问题？
作者 | 匡大虎阿里巴巴技术专家导读:如何解决多租户集群的安全隔离问题是企业上云的一个关键问题,本文主要介绍 Kubernetes 多租户集群的基本概念和常见应用形态,以及在企业内部共享集群的业 ...
从JAVA多线程理解到集群分布式和网络设计的浅析
对于JAVA多线程的应用非常广泛,现在的系统没有多线程几乎什么也做不了,很多时候我们在何种场合如何应用多线程成为一种首先需要选择的问题,另外关于java多线程的知识也是非常的多,本文中先介绍和说明一些 ...
关于java多线程理解到集群分布式和网络设计的浅析
对于JAVA多线程的应用非常广泛,现在的系统没有多线程几乎什么也做不了,很多时候我们在何种场合如何应用多线程成为一种首先需要选择的问题, 另外关于java多线程的知识也是非常的多,本文中先介绍和说明一 ...
ZooKeeper场景实践：（6）集群监控和Master选举
1. 集群机器监控这通经常使用于那种对集群中机器状态,机器在线率有较高要求的场景,可以高速对集群中机器变化作出响应.这种场景中,往往有一个监控系统,实时检測集群机器是否存活. 利用ZooKeeper ...
VMware workstation虚拟集群实践（1）—— 配置集群多节点互信
一. 简述节点互信,是集群管理的基本操作之一.节点互信是通过SSH协议的公钥密钥认证来代替密码认证来实现的.对于单点批量管理多个节点,多个节点之间相互通信来说,配置SSH单方向信任,或者互信十分必要 ...
ElasticSearch实践系列(二)：探索集群
前言为了方便ELK的逐步搭建,我们本篇文章先安装Kibana,然后用Kibana的DevTols执行命令.也可以安装elasticsearch-head运行命令. 安装Kibana 参考Instal ...

随机推荐

基于Keras-YOLO实现目标检测
Keras-YOLO 3项目使用Python语言实现了YOLO v3网络模型,并且可以导入Darknet网络预先训练好的权重文件信息直接使用网络进行目标识别. 1. 下载Keras-YOLO 3项目 ...
Android usb广播 ACTION_USB_DEVICE_ATTACHED流程源码分析
整体流程图大概意思就是UsbHostManager启动监控线程,monitorUsbHostBus会调用usb_host_run函数(使用inotify来监听USB设备的插拔)不停的读取bus总线, ...
ARM SMMU中 SteamTable的作用
在 ARM SMMU(System Memory Management Unit)中,Stream Table 是一个非常关键的数据结构,它用于管理和映射设备的内存访问请求.它的作用主要体现在以下几个 ...
关于softmax在CV多通道中的理解
1.采用分类任务时,我们通常会采用逻辑回归算法,最关键的步骤就是将线性模型输出的实数域映射到[0, 1]表示概率分布的有效实数空间,其中Sigmoid函数刚好具有这样的功能.但是这通常只适用于二分类问 ...
墨天轮沙龙 | SphereEx代野：Apache ShardingSphere-从中间件到分布式生态演进之路
在9月22日举办的[墨天轮数据库沙龙第十期-国产中间件专场]中,SphereEx 解决方案专家代野分享了Apache ShardingSphere:从中间件到分布式生态演进之路>主题演讲,本文 ...
存储事件 storage
// 去手动删除本地存储触发存储事件 window.addEventListener('storage', function () { console.log('存储事件触发了') }) const ...
day02-json字符串和js对象
Web1.0时代早期网站的登录,如果失败,需要刷新页面才能重新登录; 如果不点击提交按钮,就不知道自己密码输错了: 现在大多数的网站,都是局部刷新,在不刷新整个页面的情况下,实现页面更新: 注册的时 ...
node.js安装及环境配置基于Windows系统
node.js安装及环境配置-Windows系统 1. 下载安装包 https://nodejs.org/zh-cn/download/ 根据自己电脑系统及位数选择,我的电脑是Windows系统.64 ...
AI五子棋_07 落子点四周棋形获取
AI五子棋第七步恭喜你到达第七步! 到这一步,你对战场环境就有了充分的了解.下面我们准备打造机器大脑了.你可能已经有你自己的想法了,不过别着急,先跟着我的思路做.我会提示你解决一些基本的问题. 棋 ...
vscode+码云（gitee），用git进行源代码管理
使用原因对于我们经常换电脑来工作的人群,在公司工作完,回家里再用U盘或网盘复制/下载我们的代码,简直是一种折磨,一个项目中断后,时间久了再去想继续的时候,你会发现:到底哪个是最新版的?!U盘满了,这 ...

中电金信：技术实践｜Flink多线程实现异构集群的动态负载均衡

中电金信：技术实践｜Flink多线程实现异构集群的动态负载均衡的更多相关文章

随机推荐

热门专题