简介:应用高可用服务 AHAS (Application High Availability Service) 是经阿里巴巴内部多年高可用体系沉淀下来的云产品,基于阿里开源流控降级组件 Sentinel,以流量与容错为切入点,从流量控制、不稳定调用隔离、熔断降级、热点流量防护、系统自适应过载保护、集群流控、服务防抖动等多个维度来帮助保障服务和网关的稳定性,同时提供秒级的流量监控分析功能。

作者:宿何

微服务的稳定性一直是开发者非常关注的话题。随着业务从单体架构向分布式架构演进以及部署方式的变化,服务之间的依赖关系变得越来越复杂,业务系统也面临着巨大的高可用挑战。应用高可用服务 AHAS (Application High Availability Service) 是经阿里巴巴内部多年高可用体系沉淀下来的云产品,基于阿里开源流控降级组件 Sentinel,以流量与容错为切入点,从流量控制、不稳定调用隔离、熔断降级、热点流量防护、系统自适应过载保护、集群流控、服务防抖动等多个维度来帮助保障服务和网关的稳定性,同时提供秒级的流量监控分析功能。AHAS 不仅在阿里内部淘宝、天猫等电商领域有着广泛的应用,在互联网金融、在线教育、游戏、直播行业和其他大型政央企行业也有着大量的实践。

在分布式系统架构中,每个请求都会经过很多层处理,比如从入口网关再到 Web Server 再到服务之间的调用,再到服务访问缓存或 DB 等存储。在高可用流量防护体系中,我们建议在流量链路的每一层都进行针对性的流量防护与容错手段,来保障服务的稳定性。上一期我们介绍了如何在 Nginx/Ingress 网关层接入 AHAS Sentinel 来进行前置流量防护,本篇文章我们来介绍一下在 Web 应用层进行细粒度的高可用流量防护。

Web Server 场景

AHAS 应用防护支持 Java/Go 等多语言原生接入,支持主流的 Web 框架与组件:

  • Java 支持 Spring Web/Spring WebFlux/Spring Boot/Spring Cloud/Tomcat/Jetty/Undertow 等主流 Web 框架
  • Go 支持 Gin, echo 等框架

每个服务都有一个能承载的最大请求容量,这个容量通常压测进行评估。在突发激增流量的场景下,我们需要针对核心 Web API 配置流控规则,来保障系统流量处于有效的处理能力之内,避免被打垮。同时,Web 流量通常具有非常多的业务属性与参数,如 IP、用户 ID、商品 ID 等,许多请求都具有一定的热点特性,比如一大波请求针对某个热点商品。由于流量具有不确定性、不可预测的特性,我们无法准确预知流量的量级、分布、热点访问情况,很难针对性地针对某个突发业务提前预判并配置防护,因此自动识别热点请求能力也是非常重要的。

AHAS Web 场景流控[1]不仅支持 URL path 维度的流控,还支持针对 client IP、host、header、请求参数等进行细粒度热点流量控制。我们只需要在配置 Web 流控规则时,指定针对哪个请求属性进行热点流控(如 key 为 UserId 的 header),那么 AHAS 就会自动分析请求中对应请求属性的值(如 header 的 value),自动统计出 top N 热点访问的参数并分别进行请求量控制。通过这种维度的控制,我们可以在 Web 服务端实现 IP 防刷、热点商品防刷等一系列的细粒度高可用防护策略,甚至可以实现 每个用户每个 API 每分钟限制访问 N 次 这种具有业务含义的流量管控策略。

Web Client 场景

除了 Web 服务端入口流量控制之外,AHAS Sentinel 还提供常用 Web Client 的适配,如 OkHttp、Apache HttpClient 以及 Spring RestTemplate。基于 Web Client 适配模块,我们可以针对 HTTP 客户端调用其他接口的时机进行防护,来保障调用端不会被慢接口或异常接口拖垮:

  • 当 Web 调用端调用某个接口非常慢,且请求量很大时,若不加以控制,那么慢调用会挤占整个连接池,导致其他正常服务的调用也被阻塞,自身处理请求的能力也被拖垮。此时可以利用并发控制规则[2]通过控制 API path 的并发线程数(即同时发起调用的数目),来保证调用端的可靠性,防止连接池被占满。
  • 当 Web client 调用的某个接口持续出现慢调用或异常,也可以利用 AHAS 熔断规则[3]进行进一步的保护。熔断规则提供熔断器的能力,在某个 API path 出现慢调用或持续异常达到一定比例后,在一段时间内,自动熔断针对该接口的调用,并直接返回预设的降级信息。通过熔断机制,一方面可以防止调用端被不稳定第三方接口拖垮,另一方面也给不稳定接口一些恢复的时间,避免持续调用导致服务进一步劣化。
  • 当 Web Client 调用接口时出现偶现的超时等非致命性错误时,可以通过自动重试规则[4]来保障业务成功率,避免业务产生抖动。

熔断规则与并发控制规则是保障调用端稳定性的有效手段,无论在 Web client 场景还是慢 SQL 场景都非常适用。

快速玩转 AHAS Web 场景防护

第一步,我们将 Web 服务接入 AHAS 流量防护。AHAS 提供多种快速便捷的无侵入接入手段:

以普通 Spring Boot Web 服务为例,接入 AHAS 成功后,只要触发服务调用/接口访问,即可在 AHAS 控制台[5]看到自己的服务,并可以在 Web 场景页面看到自己的 Web 接口。默认 Spring Boot 应用接入会提取 controller 中的 URL path 作为资源名称:

我们可以在监控页面非常直观地观测各个接口的实时流量与响应时间情况,以便于我们评估系统的稳定性。

第二步,我们给其中一个接口配置 Web 流控规则[6]。在我们的示例中,我们针对 /hello 这个 API,配置热点参数流控。流控的请求属性为 name 这个请求参数(URL params),流控策略为每个热点参数分别限制每秒访问量最多 1 次。AHAS 会自动提取每个 /hello 请求中的 name 参数对应的值,自动分析出其中 top K 频次的热点值,然后分别对每个热点值进行控制,不超过规则中的访问次数。

效果示例:假设请求中有许多针对 /hello 接口的访问,其中 /hello?name=A/hello?name=B  两个 name 参数的访问频次非常高,被 AHAS 统计统计为热点值。那么上面的流控规则会针对 name=Aname=B 这两个参数值的请求,分别限制每秒访问量不超过 1 次。

第三步,我们给上面的 Web 流控规则绑定一个 fallback 行为[7],即指定触发该规则后,Web 接口的返回内容。我们可以在页面中自定义 Web 返回行为。以下是一个返回 429 状态码的 JSON 返回配置示例:

配置完成后,我们可以在流程页面选择我们创建的 fallback 行为,然后保存,这样我们的规则就会实时生效了。

第四步,我们发起针对 /hello 接口的流量,并给 name 参数带上不同的值,可以从控制台的监控上面看到请求触发了流控:

同时被流控的热点请求返回值也与我们在控制台定义的 fallback 返回相对应:

在生产环境,我们这些参数的值可能非常多,比如商品 ID 可能有上千万个。在热点请求被流控后,我们通常希望能够知道有哪些 top 参数被限制,方便我们了解业务的请求情况。AHAS 近期新上线热点监控功能,提供热点参数可观测的能力,结合 top 参数热力图,可以非常直观地在控制台了解实时业务情况:​

以上就是一个简单的 Spring Boot Web 场景流控的示例,欢迎大家在 AHAS 控制台体验,有关 Web 场景防护的更多信息可以点击此处,查看参考文档。

相关链接

[1] AHAS Web 场景流控:

Web场景防护 - 应用高可用服务 AHAS - 阿里云

[2] 并发控制规则

配置隔离规则 - 应用高可用服务 AHAS - 阿里云

[3] 熔断规则

配置熔断规则 - 应用高可用服务 AHAS - 阿里云

[4] 自动重试规则

配置自动重试规则 - 应用高可用服务 AHAS - 阿里云

[5] AHAS 控制台

阿里云通用售卖

[6] Web 流控规则

Web场景防护 - 应用高可用服务 AHAS - 阿里云

[7] fallback 行为

配置Web行为 - 应用高可用服务 AHAS - 阿里云

原文链接

本文为阿里云原创内容,未经允许不得转载。

如何利用 AHAS 保障 Web 服务稳如磐石?的更多相关文章

  1. 利用JAX-WS 开发web服务

    近日在学习Rogers Candenhead的第六版的<Java 入门经典>第22章.利用JAX-WS 开发web服务,简略总结而言主要包括以下几个步骤: 1.定义服务端点接口类: 主要就 ...

  2. 利用百度地图WEB服务APIGeoCoding API批量地址解析

    Geocoding API包括地址解析和逆地址解析功能: 地理编码:即地址解析,由详细到街道的结构化地址得到百度经纬度信息,例如:“北京市海淀区中关村南大街27号”地址解析的结果是“lng:116.3 ...

  3. winform客户端利用webClient实现与Web服务端的数据传输

    由于项目需要,最近研究了下WebClient的数据传输.关于WebClient介绍网上有很多详细介绍,大概就是利用WebClient可以实现对Internet资源的访问.无外乎客户端发送请求,服务端处 ...

  4. 利用OpenShift托管Node.js Web服务进行微信公众号开发

    最近写了一个微信的翻译机器人.用户只要关注该公众号,发送英文的消息,就能收到中文翻译的回复.有兴趣的读者可以扫描下面的二维码关注该公众号,尝试发送英文单词试试看.(有时候第一次发送单词会收到“该公众号 ...

  5. 利用 Apache Synapse 模拟 Web 服务

    Apache Synapse 是一个简单.轻量级的高性能企业服务总线 (ESB),它是在 Apache Software Foundation 的 Apache License Version 2.0 ...

  6. 利用python httplib模块 发送Post请求测试web服务是否正常起来!

    最近在学习python,恰好老大最近让我搞个基于post请求测试web服务是否正常启用的小监控,上网查了下资料,发现强大的Python恰好能够用上,所以自己现学现卖,顺便锻炼下自己. 由于本人也刚接触 ...

  7. 前端利用百度开发文档给的web服务接口实现对某个区域周边配套的检索

    最近项目需要实现地图功能,以便于实现对房源周边配套设施的检索.内容如下 其实百度官方有对应的api,但是对于一个网站来说这样的样式难免有些难看 这样的结果显然不能满足当下的需求,所以我决定利用官方给的 ...

  8. 尝试利用CentOS环境安装LiteSpeed WEB服务环境的过程

    对于普通的网站搭建的环境虚拟主机就足够使用,不过近期公司的网站需要上线VPS主机,于是采用到LNMP(http://lnmp.org/)一键包安装的,运行还是比较好的,这不最近我也开始尝试接触VPS方 ...

  9. 利用Web服务生成产品编号 执行添加操作

    为什么我想要执行添加操作,却添加不成功,系统提示我comm.ExecuteNonQuery有错误 已找到原因 在 string strsql = "insert into tb_goods( ...

  10. 利用Httponly提升web应用程序安全性

    随着www服务的兴起,越来越多的应用程序转向了B/S结构,这样只需要一个浏览器就可以访问各种各样的web服务,但是这样也越来越导致了越来越 多的web安全问题.www服务依赖于Http协议实现,Htt ...

随机推荐

  1. hdfs的透明加密记录

    1.背景 我们知道,在hdfs中,我们的数据是以block块存储在我们的磁盘上的,那么默认情况下,它是以密文存储的,还是以明文存储的呢?如果是明文存储的,那么是否就不安全呢?那么在hdfs中是如何做才 ...

  2. %USERPROFILE% 查看系统变量

    %USERPROFILE% =C:\Users\用户名 win+r,输入cmd 回车 在cmd窗口下输入 set 回车,可以查看系统变量(想要了解更多 set 命令请看 这里)

  3. flume采集nginx日志文件数据到Kafka

    flume官网地址http://flume.apache.org/ #下载 wget https://mirrors.bfsu.edu.cn/apache/flume/1.9.0/apache-flu ...

  4. KingbaseES 查询优化消除SubPlan

    说明: 日常业务系统在使用SQL语句进行查询时,开发人员容易将sql查询的子查询放到select语句中进行使用,会造成sql性能的下降. 数据准备: test=# test=# select coun ...

  5. 'scanf': This function or variable may be unsafe

    'scanf': This function or variable may be unsafe. Consider using scanf_s instead. To disable depreca ...

  6. SSE与AVX指令基础介绍与使用

    SSE与AVX指令基础介绍与使用 SSE/AVX指令属于Intrinsics函数,由编译器在编译时直接在调用处插入代码,避免了函数调用的额外开销.但又与inline函数不同,Intrinsics函数的 ...

  7. lodash已死?radash最全使用介绍(附源码详细说明)—— Array方法篇(1)

    相信很多前端同学甚至非前端都或多或少使用过lodash库,我们都知道lodash是一个非常丰富的前端工具库,比如最常用的防抖和节流,使用lodash都能很快实现,在github上更是有着58.7k的s ...

  8. #拉格朗日插值,线性筛#洛谷 5442 【XR-2】约定 (加强版)

    题目 一个\(n\)个点的完全图, 第\(i\)个点到第\(j\)个点的边权是\((i+j)^k\), 现在把这个完全图变成一棵树, 求这棵树边权和的期望值 \((n\leq 10^{10000},k ...

  9. #AC自动机#洛谷 2444 [POI2000]病毒

    题目 给定若干01串,问是否存在无限长的01串任意子串不是给定的若干串 分析 如果在AC自动机上跳到了访问过的前缀即代表存在一个循环可以无限跳, 在AC自动机上记录哪些状态是不能访问的,在AC自动机上 ...

  10. 使用OHOS SDK构建freetype

    参照OHOS IDE和SDK的安装方法配置好开发环境. 从github下载源码. 执行如下命令: git clone https://github.com/freetype/freetype.git ...