摘要：ROMA平台的核心系统ROMA Connect源自华为流程IT的集成平台，在华为内部有超过15年的企业业务集成经验。

本文分享自华为云社区《ROMA集成关键技术(1)-API流控技术详解》，作者：中间件小哥。

1 概述

ROMA平台的核心系统ROMA Connect源自华为流程IT的集成平台，在华为内部有超过15年的企业业务集成经验。依托ROMA Connect，可以将物联网、大数据、视频、统一通信、GIS等基础平台及各个应用的服务、消息、数据统一集成适配以及编排，屏蔽各个平台对上层业务的接口差异性，对上提供服务、消息、数据集成使能服务，以支撑新业务的快速开发部署，提升应用开发效率。适用于平安园区、智慧城市、企业数字化转型等场景，图1展示了ROMA Connect的功能视图。

图1 ROMA Connect功能视图

其中APIC(APIC Connect)作为核心组件包含了API Gateway能力，承载了API的集成和开放能力，流控作为API Gateway的关键特性，为用户的API集成、开放提供了快速、有效的安全防护，本文将详细描述API Gateway流控实现，揭开高性能秒级流控的技术细节。

2 高并发高吞吐系统流控需求

2.1 流量控制的动因

在高并发高吞吐系统中，通常的技术关键词是降级、缓存、流控等，流控更是其中的核心技术，当然，这些技术是相辅相成的。

流控的价值

提升系统稳定性/防止雪崩
保障高优先级服务
降低响应时延，提升用户体验
提升系统有效吞吐量
限制性业务使用等
…

流控的目标参数

限制总并发数（比如数据库连接池、线程池）
限制瞬时并发数（如nginx的limit_conn模块）
限制时间窗口内的平均速率
限制远程接口调用速率
限制MQ的消费速率
限制网络流量
限制CPU与内存的使用率
…

2.2 业务挑战

在大业务场景下，主要挑战是高并发、低时延、高精度、多维度灵活扩展等诉求。

图2 业务挑战

而对于流控的具体挑战如下：

每天10次与每分钟10万次的流控同时存在
流控反馈周期比流控周期还久
流控的维度特别多
流控同步处理时间影响用户体验
流控静态设置，要么过高要么过低
流控失效造成业务失效
流控节点部署复杂资源消耗高
…

3 常见流控技术分析

3.1 常见流控逻辑架构

图3 常见流控逻辑架构

各种方案的优缺点如下表所示：

3.2 常见流控算法

3.2.1 计数器算法

优点：1. 算法简单易实现。

不足：1. 输出不平滑。2. 有临界问题，在流控周期边界处易发生输出激增，大幅超过流控阈值，冲坏后端服务。

3.2.2 滑动窗口算法

优点：1. 可以解决计数器算法的临界问题。2. 算法简单易实现。

不足：1. 精度要求越高需要的窗口格子越多，内存开销较大。2. 不保证输出平滑。

3.2.3 漏桶算法

优点：1. 输出速度与输入速度无关，是恒定的，流控效果平滑。2. 无临界问题。3. 不依赖令牌。

不足：1. 由于漏桶输出速度恒定，所以不支持一定程度的突发请求。2. 如果桶满，输入数据会被丢弃

3.2.4 令牌桶算法

优点：1. 允许一定程度的突发流量。2. 通过定制令牌添加方法，可定制复杂的流控策略。3. 无临界问题。

不足：1. 当桶内无可用令牌时，输入请求会被直接丢弃。2. 不支持按优先级处理输入请求。

4 ROMA Connect流控技术实现

4.1 总体策略

对高精度与高吞吐进行分层，区别不同场景的流控，采用不同策略与算法

对高精度低吞吐流控进行持久化；高吞吐高频纯内存计数策略
高吞吐高频流控，不进行 HA 保障，故障后数据清零重新计算

多维度多优先级，采用 Policy 多维度控制，单一请求可触发多 Policy

解耦复杂控制，采用多条简单策略分别映射；降低用户使用复杂度
单一请求可触发所有满足条件的 Policy，进行综合流控

通过分发策略、异步、批申报等机制，降低请求时延与降低 Controller 工作量

尽可能在 Filter/SDK 级别处理，避免流控请求影响业务时延
尽可能少上报到 Controller，降低 Controller 负载提升 Controller 效率

Filter 与算法门限降级放通，避免Ratelimit机制故障对业务造成影响
采用 KEY/VALUE 模式和多维，提供通用机制，适应不同场景不同应用流控诉求

立足API Gateway第一个应用场景
Controller 不需理解具体业务，由基于SDK封装的Filter适配具体业务与流控Controller

4.2 逻辑视图

RateLimit SDK访问根据一致性hash访问sharding后的RateLimit Controller，对于高吞吐高精度的流控集中在Controller内存进行限流计算。
RateLimit Controller对于高精度高吞吐只集中在本地内存计算，无需考虑crash后保留历史限流信息。
RateLimit Controller对于高精度低吞吐的限流采取异步持久化策略，确保Controller crash后流控的精度。
当Ratelimit Controller服务终止的时候，Ratelimit SDK支持自动降级。
根据API Gateway采集的API Response latency等信息反馈，支持动态调整流控策略。
支持SLA-Based 流控 Policies。

4.3 架构设计

采用独立的Controller 方案

独立集群 Controller 提供全局精确高吞吐流控
Controller 内部采用 Sharding 机制

采用通用的Policy与Key/Value模型

采用可扩展的 Domain/Policy机制，适应不同业务场景
不同Policy关联不同的算法

提供SDK与Tools，开发API G等插件

提供可重用的SDK与调试工具等
预实现API Gateway等流控插件

外置日志、流控数据分析模块

通过数据挖掘、预测等反馈到配置/策略管理模块，动态修订流控策略

4.4 内置算法

4.4.1 带缓存带颜色的令牌桶算法

令牌桶算法的问题：

当无可用令牌时，请求会被立即拒绝。而用户可能会继续不断发送请求，直到有可用的令牌。这会增加API Gateway的负载和流控服务的负载。
所有的请求以同样的概率获得令牌，不支持优先级。而在实际应用中，一些请求需要被优先处理，另一些请求可以被延迟处理或者直接拒绝。例如，应该优先处理电子商务网站的付款请求，而浏览商品的请求可以被延迟处理。

设计了一种支持缓存和优先级的令牌桶算法

缓存：

当无可用令牌时，把请求暂时放在请求队列里，待有可用令牌时再处理。
采用FCFS算法处理请求。
如果缓存也无可用空间，就直接拒绝请求。

令牌

令牌分为多种颜色，不同颜色代表不同优先级，如绿色、黄色、红色表示优先级由高至低。
在API配置文件里，可配置不同API的优先级。根据预先配置的优先级，对请求分配相应颜色的令牌。如果请求没有优先级，则使用默认优先级。
根据API Gateway系统的能力配置令牌的数量。
当低优先级的请求到达时，如果高优先级的令牌量大于预留的数量，也可分配高优先级的令牌给该低优先级的请求。对令牌设置预留量，保证低优先级请求不会耗尽高优先级的令牌。
每种颜色的令牌有单独的请求缓存。

4.4.2 高精度高吞吐量的流控算法

问题：高精度、高吞吐的矛盾

为了实现高精度流控，API Gateway需要为每个API请求发送流控请求至流控服务，会很大程度降低处理请求的吞吐量。
为了提高吞吐量，API Gateway需降低发送流控请求的频度，这会降低流控的精度。发送流控请求的频度越低，流控的精度越低。

提出一种高精度高吞吐量的流控算法HAT（High Accuracy, High Throughput）

把流控分为自主流控阶段和流控服务流控阶段。
设流控阈值为L，自主流控阈值为S，API Gateway集群节点数量为N，当前流控周期内已经处理的API数量为R。
流控服务计算：自主流控阈值S = L/N，并分发给每个API Gateway节点。
在自主流控阈值范围内，每个API Gateway节点可做自主流控，无需向流控服务发送流控请求。
当API Gateway集群中有一个节点的API请求量超过自主流控阈值–α时，该节点发送流控请求至流控服务，申请新的流控阈值。此时，流控服务联系API Gateway的其它节点获得它们处理的API请求量。然后，流控服务重新计算自主流控阈值S = （L – R）/ N，并发送给各个API Gateway节点。
当流量余额 < δ时，不再更新自主流控阈值。
当进入下一流控周期时，流控服务重置S，各API Gateway节点联系流控服务更新自主流控阈值。

算法分析

设u是单个流控周期内自主流控阈值更新的次数，Pi表示第i个API Gateway节点处理API的速度。
单个流控周期的流控请求的数量由L降至u*N。
最优情况是API Gateway集群的每个节点的性能完全一样，此时，u = 1。当流控阈值是10000，API Gateway节点数量是10时，单个流控周期的流控请求从10000降至10。
API Gateway集群的每个节点的性能越接近，u越接近1。API Gateway集群的每个节点的性能差距越大，u越大。

4.4.3 动态流控算法

基于运行状态、趋势、API调用链进行动态流控。

请求取得令牌后，流控服务开始处理请求，生成流控响应（接受/拒绝，降级，或黑白名单）。
基于运行状态的动态流控策略

根据使用网络状态（可用连接数，网络延迟），请求处理延迟，API Gateway的cpu、memory等运行状态，动态修改流控阈值。也可等等。
当cpu、内存等使用率远小于阈值时，正常处理请求。
当cpu、内存等使用率接近阈值时，降低流控阈值（降级），减少API Gateway的负载。
当cpu、内存等使用率超过阈值很多时，提高降低流控阈值的速度。
当无可用cpu、内存时，直接拒绝请求。
当cpu、内存等使用率降低至正常水平时，恢复流控阈值。

基于运行状态趋势的动态流控策略

利用机器学习，分析历史数据，生成预测模型，预测API Gateway的负载，提前修改流控阈值或降级服务，保证API Gateway负载平滑稳定。
利用机器学习发现应加入黑名单的请求。

基于API调用流的动态流控策略

Case: API调用流。
设计一种基于API调用流的动态流控策略。

利用机器学习发现API调用流。流控服务保存API调用关系。
当系统负载较高时，当一个API请求达到阈值被限流后，对于相关联的同一层次和低层次的所有API请求，不再访问Redis获取实时数据和处理，而是直接延迟处理或拒绝。
当API Gateway系统负载正常时，不启动该动态流控策略。
通过这种方式，可在基本不影响API处理速度的前提下，降低API Gateway的负载和流控服务的负载。

点击关注，第一时间了解华为云新鲜技术~

详解API Gateway流控实现，揭开ROMA平台高性能秒级流控的技术细节的更多相关文章

强大核心功能矩阵，详解腾讯云负载均衡CLB高可靠高性能背后架构
1 前言腾讯云负载均衡(Cloud LoadBalancer),简称CLB, 负载均衡通过设置虚拟服务地址(VIP)将来自客户端的请求按照指定方式分发到其关联的多台后端云服务器,服务器将请求的响应返 ...
JQGrid各种参数详解API（转载）
下面是转自其他人blog的一个学习资料,与其说是学习资料,说成查询帮助文档更加合适. jqGrid学习之 ------------- 安装 jqGrid安装很简单,只需把相应的css.js文件加入到页 ...
Hbase Shell命令详解+API操作
HBase Shell 操作 3.1 基本操作1．进入 HBase 客户端命令行,在hbase-2.1.3目录下 bin/hbase shell 2．查看帮助命令 hbase(main):001:0& ...
安卓程序代写网上程序代写[原]ViewGroup(容器组件)详解(API解析)
一. ViewGroup简介 1.View和ViewGroup关系 UI组件在Android中的位置 : Android中的UI组件大部分都放在android.widget 或者 android.vi ...
Java一维数组二维数组详解API
所谓数组,是有序的元素序列. 若将有限个类型相同的变量的集合命名,那么这个名称为数组名.组成数组的各个变量称为数组的分量,也称为数组的元素,有时也称为下标变量.用于区分数组的各个元素的数字编号称为下标 ...
Zookeeper详解-API（六）
ZooKeeper有一个绑定Java和C的官方API.Zookeeper社区为大多数语言(.NET,python等)提供非官方API.使用ZooKeeper API,应用程序可以连接,交互,操作数据, ...
[原]详解如何将cocos2dx项目编译到Android平台上的(方式一：Cywin+NDK)
链接地址:http://m.blog.csdn.net/blog/yhc13429826359/29357815 2014-6-8阅读578 评论0 前言:cocos2dx作为一个开源的移动2D游戏框 ...
Linux下chkconfig命令详解--（启动或停止）和查询系统服务的运行级信息
chkconfig命令主要用来更新(启动或停止)和查询系统服务的运行级信息.谨记chkconfig不是立即自动禁止或激活一个服务,它只是简单的改变了符号连接. 使用语法:chkconfig [--ad ...
详解ROMA Connect API 流控实现技术
摘要:本文将详细描述API Gateway流控实现,揭开高性能秒级流控的技术细节. 1.概述 ROMA平台的核心系统ROMA Connect源自华为流程IT的集成平台,在华为内部有超过15年的企业业务 ...

随机推荐

TVM将深度学习模型编译为WebGL
使用TVM将深度学习模型编译为WebGL TVM带有全新的OpenGL / WebGL后端! OpenGL / WebGL后端 TVM已经瞄准了涵盖各种平台的大量后端:CPU,GPU,移动设备等.这次 ...
Linux下Flash-LED的处理
Linux下Flash-LED的处理一些LED设备提供两种模式-torch和flash.在LED子系统中,LED类(参见Linux下的LED处理)和LED Flash类,分别支持这些模式.torch ...
Linux芯片驱动之SPI Controller
针对一款新的芯片,芯片厂商如何基于Linux编写对应的 SPI controller 驱动? 我们先看看 Linux SPI 的整体框架: 可以看到,最底层是硬件层,对应芯片内部 SPI contro ...
【Java编程实战】Metasploit_Java后门运行原理分析以及实现源码级免杀与JRE精简化
QQ:3496925334 文章作者:MG1937 CNBLOG博客ID:ALDYS4 未经许可,禁止转载某日午睡,迷迷糊糊梦到Metasploit里有个Java平台的远控载荷,梦醒后,打开虚拟机, ...
带你了解Java的序列化与反序列化
什么是序列化序列化:将 Java 对象转换成字节流的过程. 什么是反序列化反序列化:将字节流转换成 Java 对象的过程. 序列化的实现当 Java 对象需要在网络上传输或者持久化存储到文件 ...
SpringCloud+Docker+Jenkins+GitLab+Maven实现自动化构建与部署实战
1.前言与初衷本文章会涉及Docker常见命令基础知识点结合不同场景实操一起使用. 本文章会涉及结合工作过程中部署不同环境服务器的项目案例场景为初心进行实际细讲. 本文章主要讲述Docker.Jen ...
Linux命令大全之挂载命令
理解:Linux挂载相当于Windows分配盘符 1.查询系统中已挂载的设备 mount 2.设置自动挂载编辑文件/etc/fstab,把文件写入就可以启动自动挂载了, 注:一般不把光盘写入,如果写 ...
性能工具之Jmeter压测Hprose RPC服务
概述 Hprose(High Performance Remote Object Service Engine),国人开发的一个远程方法调用的开源框架.它是一个先进的轻量级的跨语言跨平台面向对象的高性 ...
案例 | 腾讯广告 AMS 的容器化之路
作者张煜,15年加入腾讯并从事腾讯广告维护工作.20年开始引导腾讯广告技术团队接入公司的TKEx-teg,从业务的日常痛点并结合腾讯云原生特性来完善腾讯广告自有的容器化解决方案项目背景腾讯广告承 ...
vs里颜色显示块怎样显示
就是这种 vs中选择工具-扩展和更新,搜索Web Essentials,安装就好了. 他会安装很多扩展,我这里只需要css相关的

详解API Gateway流控实现，揭开ROMA平台高性能秒级流控的技术细节