如何配置 SLO

前言

无论是对外提供 IaaS PaaS SaaS 的云公司，还是提供信息技术服务的乙方公司，亦或是金融制造等各行各业的数据中心、运维部门，我们的一个非常重要的合同承诺或考核评估指标就是：SLA（即：Service-Level Agreement 服务等级协议）。

而真正落地实现 SLA 的精确测量，最广为人知的就是 Google 的 SRE 理论。

Google SRE SLO & SLA

在 Google，会明确区分 SLO 和服务等级协议（SLA）。SLA 通常涉及向服务用户承诺，即服务可用性 SLO 应在特定时间段内达到特定级别。如果不这样做，就会导致某种惩罚。这可能是客户为该期间支付的服务订阅费的部分退款，或者免费添加的额外订阅时间。SLO 不达标会伤害到服务团队，因此他们将努力留在 SLO 内。如果您要向客户收取费用，则可能需要 SLA。

SLA 中的可用性 SLO 通常比内部可用性 SLO 更宽松。这可以用可用性数字表示：例如，一个月内可用性 SLO 为 99.9%，内部可用性 SLO 为 99.95%。或者，SLA 可能仅指定构成内部 SLO 的指标的子集。

如果 SLA 中的 SLO 与内部 SLO 不同（几乎总是如此），则监控必须显式测量 SLO 达标情况。您希望能够查看系统在 SLA 日程期间的可用性，并快速查看它是否似乎有脱离 SLO 的危险。

您还需要对合规性进行精确测量，通常来自 Metrics、Tracing、Logging 分析。由于我们对付费客户有一组额外的义务（如 SLA 中所述），因此我们需要将从他们那里收到的查询与其他查询分开进行度量。这是建立 SLA 的另一个好处 — 这是确定流量优先级的明确方法。

定义 SLA 的可用性 SLO 时，请注意将哪些查询视为合法查询。例如，如果客户因为发布了其移动客户端的错误版本而超出配额，则可以考虑从 SLA 中排除所有"超出配额"的响应代码。

SLI

SLI 是经过仔细定义的测量指标，它根据不同系统特点确定要测量什么。

常见的 SLI 有：

性能
- 响应时间 (latency)
- 吞吐量 (throughput)
- 请求量 (qps)
- 实效性 (freshness)
可用性
- 运行时间 (uptime)
- 故障时间/频率
- 可靠性
质量
- 准确性 (accuracy)
- 正确性 (correctness)
- 完整性 (completeness)
- 覆盖率 (coverage)
- 相关性 (relevance)
内部指标
- 队列长度 (queue length)
- 内存占用 (RAM usage)
因素人
- 响应时间 (time to response)
- 修复时间 (time to fix)
- 修复率 (fraction fixed)

SLO

SLO（服务等级目标）指定了服务所提供功能的一种期望状态，服务提供者用它来指定系统的预期状态。SLO 里不会提到，如果目标达不到会怎么样。

SLO 是用 SLI 来描述的，一般描述为：

比如以下SLO：

每分钟平均 qps > 100 k/s
99% 访问延迟 < 500ms
99% 每分钟带宽 > 200MB/s

设置 SLO 时的目标依赖于系统的不同状态(conditions)，根据不同状态设置不同的SLO：

总 SLO = service1.SLO1 weight1 + service2.SLO2 weight2 + …

为什么要有 SLO，设置 SLO 的好处是什么呢？

对于客户而言，是可预期的服务质量，可以简化客户端的系统设计
对于服务提供者而言
- 可预期的服务质量
- 更好的取舍成本/收益
- 更好的风险控制(当资源受限的时候)
- 故障时更快的反应，采取正确措施

SLA

 SLA = SLO + 后果

小结

SLI：服务等级指标，经过仔细定义的测量指标
SLO：服务等级目标，总 SLO = service1.SLO1 weight1 + service2.SLO2 weight2 + …
SLA: 服务等级协议， SLA = SLO + 后果

如何配置 SLO

公有云常见 SLO

常见于通过处理请求的服务或 API 提供的服务（如：对象存储或 API 网关）

错误率 (error rate) 计算的是服务返回给用户的 error 总数
如果错误率大于X%（如 0.5%），就算是服务 down了，开始计算 downtime
如果错误率持续超过 Y （如 5）分钟，这个downtime就会被计算在内
间断性的小于 Y 分钟的downtime是不被计算在内的。

前端 Web 或 APP

前端用户体验 Apdex 目标

如果有前端 js 探针监控，或拨测监控，那么可以用前端用户体验 Apdex 作为 SLO。

Apdex 定义了一个性能标准，将应用程序用户分为三个组:

满意、
可容忍（一般）
沮丧（不满意）。

例如，作为前端应用程序的 SLO，您可以指定希望 90% 的用户 Apdex 都是 满意 。

如，My WebApp Apdex 公式如下：

100% * (apps.web.actionCount.category:filter(eq(Apdex category,SATISFIED)):splitBy("My WebApp")) / (apps.web.actionCount.category:splitBy("My WebApp"))

前端 APP 无崩溃（Crash）用户率目标

衡量手机 App (iOS 和 Android) 的可用性和可靠性的最重要指标之一是 无崩溃用户率。指的是没有崩溃的情况下打开并使用移动 APP 的用户百分比。

因此，公式示例如下：

apps.other.crashFreeUsersRate.os:splitBy("My mobile app")

拨测可用性目标

拨测可用性 SLO 表示拨测处于可用状态下的时间百分比，或者，成功拨测占执行的总测试数的百分比。

因此，公式示例为：

(synthetic.browser.availability.location.total:splitBy("My WebApp"))

后端应用或 Service

基本的 SLO - 调用成功率目标

成功率 = 成功的请求调用次数 / 总的请求调用次数

如：My service 的成功率：

100% * (service.requestCount.successCount:splitBy("My service"))/(service.requestCount.totalCount:splitBy("My service"))

那么，如果 My service 的关键 API 或请求需要计量，就可能是下面的公式：

(100%)*(service.keyRequest.successCount:splitBy(type("SERVICE_API") AND entityId("POST /login")))/(service.keyRequest.totalCount:splitBy(type("SERVICE_API") AND entityId("POST /login")))

️ 提示:

成功的请求最简单的一种方式是：http 状态码为 2xx 或 3xx 的请求即视为成功。

还有一种，请求执行过程中没有抛出错误（日志或异常）的请求视为成功。

服务性能目标

重点在于性能。

服务性能 SLO 表示「fast」服务调用占服务调用总数的百分比，其中「fast」使用自定义条件定义。例如：

fast：0 - 3s 内完成服务调用（）
normal：3 - 5s 内完成服务调用
slow：5s 以上完成服务调用或超时

️ 提示:

当然，上边的 3s 也不应该是拍脑袋想的，而应该是例如基于过去一个月系统正常运行时 99% 百分位数的响应时间。

公式示例为：

(service:fastRequests:splitBy("My WebApp")) / (service:totalRequests:splitBy("My WebApp"))

后端数据库

数据库可用性或读可用性目标

错误率：是在给定的一小时间隔内，DB 的失败 SQL 执行次数除以总 SQL 执行次数。

读错误率：是在给定的一小时间隔内，DB 的失败查询 SQL 执行次数除以总 SQL 执行次数。

公式示例为：

可用性 % = 100% - Average DB Error Rate

或：

读可用性 % = 100% - Average DB Read Error Rate

吞吐量目标

吞吐量失败的请求：是指请求尚未超过给定 DB 吞吐量，却被 DB 吞吐量限制，导致错误码
吞吐量错误率：是在给定的一小时间隔内，给定 DB 的吞吐量失败请求总数除以总请求数。

那么，公式示例为：

吞吐量目标% = 100% -平均吞吐量错误率

一致性目标

SLI 为：

一致性违规率：是指在给定的 DB 中，在给定的一小时间隔内，对所选的一致性级别(按总请求数划分)执行一致性保证时无法发送的成功请求。

延迟目标

P99 延迟：计算出的一段时间内的测试 SQL （如select 1 from dual) 执行时间的 99% 百分位响应时间。
延迟时间和：是指在应用程序提交的 SQL 成功请求导致 P99 延迟大于或等于 10ms 的一个小时间隔的总数。

那么，示例公式为：

延迟目标% = 100% - 总的延迟时间和的次数 / (DB 总使用时间/1H）

如：过去 1 个月，总的延迟时间和的次数为 50 次，分母为：30 * 24 / 1 = 720

那么：延迟目标% = 100% - 50 / 720 ≈ 93%

MQ 类

消息成功率目标

就是成功的消息除以 MQ 接收的总消息。

公式示例为：

(100)*((mq.rabbitmq.queue.requests.successful:splitBy("payment"))/mq.rabbitmq.queue.requests.incoming:splitBy("payment")))

Host 类

UPTIME 目标

例如，每小时正常运行时间百分比 = 100% - 单个 Host 实例处于不可用状态的总时间（没有超过多长时间才算不可用一说）百分比

不可用的定义可以是：

该 Host 实例没有网络连接
该 Host 实例无法执行读写 IO，且 IO 在队列中挂起。即 IO hang。

K8S 类

K8S 类是一类综合系统，需要考虑如下目标

API Server 成功率目标
计算目标
存储目标
网络目标
…

存储类

可用性（Availability）目标

大致也是类似上边的可用性目标。

数据持久性（Durability）目标

这个通常非常高，比如：99.999999999%

可以简单粗暴认为：只要有数据丢失的情况，就是没达到目标。

典型案例就是腾讯的那次。

网络类

可用性目标

以 NAT 网关为例：

单实例服务不可用分钟数：当某一分钟内，NAT 网关实例出方向所有数据包都被 NAT 网关丢弃时，则视为该分钟内该 NAT 网关实例服务不可用。在一个服务周期内 NAT 网关实例不可用分钟数之和即服务不可用分钟数。

总结

可以根据不同的层次、组件设定不同的 SLO。

SLO 的监测是需要监控工具的支持。

常用的 SLO 包括：

可用性（Availability）目标
成功率（Success Rate）目标
延迟 (Latency) 目标
运行时间 (Uptime) 目标
数据持久性（Durability）目标

EOF

三人行, 必有我师; 知识共享, 天下为公. 本文由东风微鸣技术博客 EWhisper.cn 编写.

如何配置 SLO的更多相关文章

apache安装mod_deflate配置支持gzip
apache 配置支持gzip apache使用gzip压缩能够大幅提高网站访问速度并节省网络流量,在网页响应头信息中可以判断是否支持压缩. HTTP/1.1 200 OK Date: Wed, 14 ...
理解 OpenStack Swift （1）：OpenStack + 三节点Swift 集群+ HAProxy + UCARP 安装和配置
本系列文章着重学习和研究OpenStack Swift,包括环境搭建.原理.架构.监控和性能等. (1)OpenStack + 三节点Swift 集群+ HAProxy + UCARP 安装和配置 ( ...
sqlserver配置实践
对于一套新的sqlserver服务器,我们首先要对它做一些必要的优化配置,确保在生产上比较长的时间段内可以比较稳定的,良好的运行. 新的sqlserver服务器上安装的sqlserver版本,可以选择 ...
openstack swift节点安装手册1-节点配置
本文参照官方教程:http://docs.openstack.org/project-install-guide/object-storage/draft/environment-networking ...
001_深度剖析什么是 SLI、SLO和SLA？
前言 SLO和SLA是大家常见的两个名词:服务等级目标和服务等级协议. 云计算时代,各大云服务提供商都发布有自己服务的SLA条款,比如Amazon的EC2和S3服务都有相应的SLA条款.这些大公司的S ...
为集群配置Impala和Mapreduce
FROM: http://www.importnew.com/5881.html -- 扫描加关注,微信号: importnew -- 原文链接: Cloudera 翻译: ImportNew.com ...
(九)OpenStack---M版---双节点搭建---Swift(单节点)安装和配置
↓↓↓↓↓↓↓↓视频已上线B站↓↓↓↓↓↓↓↓ >>>>>>传送门本次搭建仅采用Compute单节点做swift组件 1.Controller安装并配置控制节点 ...
Cas（05）——修改Cas Server的其它配置
修改Cas Server的其它配置目录 1.1 修改host.name 1.2 修改SSO Session的超时策略 1.3 修改允许管理service的角色 1.4 ...
配置android sdk 环境
1:下载adnroid sdk安装包官方下载地址无法打开,没有vpn,使用下面这个地址下载,地址:http://www.android-studio.org/
Android Studio配置 AndroidAnnotations——Hi_博客 Android App 开发笔记
以前用Eclicps 用习惯了现在想学学用Android Studio 两天的钻研终于在我电脑上装了一个Android Studio 并完成了AndroidAnnotations 的配置. An ...

随机推荐

.NET 5 设计 API (资源站)
跟新于 2022-11日数据抓取端随着数据的增多,问题也越来越多用redis 主要是为了以后进行,多个数据库写入. 例如我搭建一个别的数据库论坛,我直接拿数据去redis里面拿,就不用跨库查 ...
Docker | 制作tomcat镜像并部署项目
本文讲解如何制作自己的tomcat镜像,并使用tomcat部署项目原料准备: tomcat.jdk安装包,dockerfile文件步骤 1.准备压缩包 jdk-8u301-linux-x64.ta ...
「JOISC 2022 Day1」京都观光题解
Solution 考虑从\((x_1,y_1)\)走到\((x_2,y_2)\)满足只改变一次方向,则容易求出先向南走当且仅当 \[\frac{a_{x_1} - a_{x_2}}{x_1 - x_2 ...
IDEA中如何导入jar包、IDEA中找不到对应类改怎样解决？（详细图解过程）
今天突然心血来潮.用IDEA运行之前用eclipse编写的项目.发现遇到了一些bug,现在习惯了使用maven管理项目的依赖.一时间忘记了怎样将jar包导入项目中.特此记录一下文章目录 1.未加入j ...
JAVA系列之JVM内存调优
一.前提 JVM性能调优牵扯到各方面的取舍与平衡,往往是牵一发而动全身,需要全盘考虑各方面的影响.在优化时候,切勿凭感觉或经验主义进行调整,而是需要通过系统运行的客观数据指标,不断找到最优解.同时,在 ...
Windows7下驱动开发与调试体系构建——5.实战反调试标记位（NtGlobalFlag）
目录/参考资料:https://www.cnblogs.com/railgunRG/p/14412321.html <加密与解密>P670中,介绍了检查程序是否被调试的第二种方法:查看进程 ...
Linux三剑客sed
注意sed和awk使用单引号,双引号有特殊解释 sed是Stream Editor(字符流编辑器)的缩写,简称流编辑器. sed是操作.过滤和转换文本内容的强大工具. 常用功能包括结合正则表达式对文件 ...
从0搭建vue3组件库: Input组件
本篇文章将为我们的组件库添加一个新成员:Input组件.其中Input组件要实现的功能有: 基础用法禁用状态尺寸大小输入长度可清空密码框带Icon的输入框文本域自适应文本高度的文本域 ...
【Virt.Contest】CF1321(div.2)
第一次打虚拟赛. CF 传送门 T1:Contest for Robots 统计 \(r[i]=1\) 且 \(b[i]=0\) 的位数 \(t1\) 和 \(r[i]=0\) 且 \(b[i]=1\ ...
Optional对象
Optional对象 Optional 类是一个可以为null的容器对象,用于简化Java中对空值的判断处理,以防止出现各种空指针异常. 静态方法-of 必须确定对象不为null 在使用of封装成op ...

如何配置 SLO

前言

Google SRE SLO & SLA

SLI

SLO

SLA

小结

如何配置 SLO

公有云常见 SLO

前端 Web 或 APP

前端用户体验 Apdex 目标

前端 APP 无崩溃（Crash）用户率目标

拨测可用性目标

后端应用 或 Service

基本的 SLO - 调用成功率目标

服务性能目标

后端数据库

数据库可用性或读可用性目标

吞吐量目标

一致性目标

延迟目标

MQ 类

消息成功率目标

Host 类

UPTIME 目标

K8S 类

存储类

可用性（Availability）目标

数据持久性（Durability）目标

网络类

可用性目标

总结

如何配置 SLO的更多相关文章

随机推荐

热门专题

后端应用或 Service