SRE心里话:要求100%服务可用性就是老板的无知
《SRE Google 运维解密》第3章讲了拥抱风险,一些关键的观点,在这里与大家分享,融入了我自己的一些理解,希望对你有些帮助。
服务可用性必须100%?其实完全没必要
一个服务客户的产品,不需要追求极端的可用性,因为实在是没有必要。比如一个论坛服务,用户使用智能手机来访问,手机本身有可能故障,手机的蜂窝网络可能出问题,如果用的 wifi 本地路由器可能出问题,小区宽带可能出问题,运营商的骨干网可能出问题,这些都不是论坛服务能够控制的。简单来说,用户在一个有着 99% 可靠性的智能手机上,是不能分辨出 99.99% 和 99.999% 的服务可靠性的区别的。
高可靠性带来高成本
99.99% 的可用性,每年不可用时长不能超过 53 分钟,如果是 99.999% 的可用性,每年不可用时长不能超过 5.3 分钟。多了一个 9,不可用时长只是缩减了 47.7 分钟,但是付出的成本可能是巨大的,需要衡量 ROI 是否值得。成本通常来自两个方面:
- 冗余物理服务器/计算资源的成本
- 机会成本
机会成本是说,我们把过多的人力投入到稳定性建设上了,导致投入到业务功能开发的人力就变少了,这个机会成本是很难估量的,但是很重要。
如何度量可用性
通常的做法是按照计划外停机时间来度量,比如:
可用性 = 系统正常运行时间 / (系统正常运行时间 + 系统计划外停机时间)
这个计划外停机时间,通常是指系统不可用的时间,比如系统崩溃了,或者系统的某个功能不可用了,或者系统的某个功能的性能下降了,都可以算作计划外停机时间。与计划外停机时间相对的,显然是计划内停机时间,偶尔通知用户,说凌晨3点我会做系统升级,计划停机3分钟,这个3分钟就是计划内停机时间,这3分钟内的不可用,不影响SLA。
但是,很多系统都是分布式的,尤其是 Google,一个服务,通常不会完全不可用,可能某个 region 不可用,但是其他 region 还可用,所以,大型互联网公司的服务通常是不会 100% 不可用的,可能会部分不可用,此时这个计划外停机时间就不好计算了。怎么办?使用请求数量来统计,可用性计算公式变成:
可用性 = 成功请求数 / 总的请求数
这是服务可用性的度量方法,一个大型互联网公司可能有几千个微服务,老板问技术团队,咱们今年的可用性如何?显然没法使用服务层面的数据,那就把众多微服务做个加权平均?也不那么说得通!那公司整体业务的 SLO 应该怎么算?一般是看业务指标,分享一下滴滴的做法,滴滴最核心的业务就是打车,核心就看打车的订单量,如果订单量下跌 10%,就开始计算不可用时长,这是整个公司最重要的可用性指标。这种指标称为北极星指标,我们现在创业就专门做了一个北极星指标的产品,对北极星指标做 VIP 级别的保障。详情可以了解这里。
谁来制定SLO?
在 Google,对于服务于终端用户的产品,通常有个产品技术团队,是这个服务的「商业所有者」,这个团队明确知道自己的商业目标,可以拍板 SLO。因为:SLO 最终是服务于商业目标的!
通常来讲,线上 70% 的故障是变更导致的,更好的 SLO 意味着线上变更的频率会降低,但是低频的变更,就意味着有些功能 feature 不能尽快发布给终端用户,终端用户的体验就会变差,竞争对手可能有更花哨好用的功能,我们无法及时跟进。那好,那就更快的变更,更快的变更通常意味着稳定性变差,所以就需要权衡了,这本质上是一个商业取舍,所以,需要商业所有者来拍板。而这个商业所有者,对于服务于终端用户的产品,通常就是产品团队,最终可能是这个业务的负责人最终拍板。
服务于内部的基础设施,比如 BigTable 这样的服务,没有终端用户,那谁来拍板?基础设施类服务,通常是服务于内部其他服务的,此时应该是 BigTable 的研发团队和上游服务所有者一起拍板,制定 SLO。
BigTable 可能同时服务两类上游服务,举例:一类上游服务是面向终端用户的,他们需要更低的延迟,另一类上游服务可能是离线任务,在 BigTable 里存储离线分析数据,他们需要更大的吞吐。低延迟的上游服务希望 BigTable 的请求队列(几乎总是)为空,这样系统可以立刻处理每个出现的请求。而离线分析的上游服务,需要更高的吞吐,希望 BigTable 繁忙,希望请求队列永远不为空。如果拿请求队列长度作为 SLO,就尴尬了...
所以,对于差异化要求比较大的基础设施,通常会拆分成不同的集群,提供不同维度的 SLO。
提升 SLO 的时候要注意 ROI
举个例子,假设某个服务每一个请求的价值是一样的:
- 可用性目标希望从 99.9% 提升至 99.99%
- 增加的可用性:0.09%
- 服务收入:100万美金
- 改进可用性后的价值:100万 * 0.09% = 900 美金
可用性提升一个 9,收益是 900 美金,如果提升一个 9 的成本低于 900 美金,就是划算的,如果高于 900 美金,就是不划算的。
SLO和错误预算构建过程
- 产品管理层定义一个 SLO,确定一项服务在每个季度预计的正常运行时间
- 实际在线时间是通过一个中立的第三方来测算的:我们的监控系统
- 这两个数字之间的差值就是这个季度中剩余的不可靠性预算
- 只要测算出的正常在线时间高于 SLO,也就是说,只要仍然有剩余的错误预算,就可以发布新的版本
扩展阅读
SRE心里话:要求100%服务可用性就是老板的无知的更多相关文章
- Kubernetes 服务部署最佳实践(二) ——如何提高服务可用性
引言 上一篇文章我们围绕如何合理利用资源的主题做了一些最佳实践的分享,这一次我们就如何提高服务可用性的主题来展开探讨. 怎样提高我们部署服务的可用性呢?K8S 设计本身就考虑到了各种故障的可能性,并提 ...
- 数据一致性(consistency)、服务可用性(availability)、分区容错性(partition-tolerance)
数据一致性(consistency).服务可用性(availability).分区容错性(partition-tolerance) 分布式系统理论基础 - CAP 2016-04-04 18:27 b ...
- SLA服务可用性怎么达到?
SLA:服务等级协议(简称:SLA,全称:service level agreement).是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定.通常这个开销是驱动提供服 ...
- LA服务可用性4个9是什么意思?怎么达到?
SLA:服务等级协议(简称:SLA,全称:service level agreement).是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定.通常这个开销是驱动提供服 ...
- SLA服务可用性4个9是什么意思?怎么达到?
SLA:服务等级协议(简称:SLA,全称:service level agreement).是在一定开销下为保障服务的性能和可用性,服务提供商与用户间定义的一种双方认可的协定.通常这个开销是驱动提供服 ...
- 浑身尖刺的服务可用性守护者——hystrix熔断器实践记录
netflix公司的产品hystrix(长满刺的豪猪),在高可用目标下具有一定熔断.限流.降级的作用.这里主要写一些自己在使用时的问题解决思路,原理请自行理解,包括线程池与信号量模式等. 注意三个参数 ...
- Pod 健康检查和服务可用性检查
Kubernetes 对 Pod 的健康状态可以通过两类探针来检查:LivenessProbe 和 ReadinessProbe,kubelet 定期执行这两类探针来针对容器的健康状况. Livene ...
- zabbix通过invoke调用监控服务可用性
1. 通过脚本判断线上服务是否可用 telnet 127.0.0.1 端口 #线上调用的是使用的dubbo端口 通过invoke 抓取返回的code值,脚本如下 #返回code:0则视为正常,返回其他 ...
- 详解GaussDB(for MySQL)服务:复制策略与可用性分析
摘要:本文通过介绍GaussDB(for MySQL)读写路径,分析其可用性. 简介 数据持久性和服务可用性是数据库服务的关键特征. 在实践中,通常认为拥有 3 份数据副本,就足以保证持久性. 但是 ...
- 读SRE Google运维解密有感(一)
前言 这几天打算利用碎片时间读了一下"SRE Google运维解密"这本书,目前读了前几章,感觉收获颇多,结合自己的工作经历和书中的要点,写一些感悟和思考 SRE 有关SRE我就不 ...
随机推荐
- 最佳实践丨构建云上私有池(虚拟IDC)的5种方案详解
简介:云上私有池系列终篇终于来了,本文将重点介绍构建云上的私有池(虚拟IDC)的多种方案和各自的优缺点,并给出相关的性价比优化建议. 本文作者:阿里云技术专家李雨前 摘要 围绕私有池(虚拟IDC)的 ...
- All in one:如何搭建端到端可观测体系
简介:一文看懂可观测! 作者:西杰 & 白玙 可观测的前生今世 系统的可观测与故障可分析作为系统运维中重要的衡量标准,随着系统在架构.资源单位.资源获取方式.通信方式演进过程,遇到了巨大挑战 ...
- 钉钉宜搭亮相“第二届ISIG中国产业智能大会”:云钉低代码,构建企业酷应用
简介:低代码年度行业盛会!钉钉宜搭创始人叶周全受邀出席并发表主题演讲. 12月8日,由中国电子技术标准化研究院指导,RPA中国.LowCode低码时代.信创中国联合举办的"第二届ISIG中 ...
- Git 工具下载慢问题 & 图像化界面工具
Git 命令行淘宝镜像:git-for-windows Mirror (taobao.org) Git 图形客户端:Download – TortoiseGit – Windows Shell Int ...
- [Blockchain] 去中心化与互联网分布式的联系与区别
去中心化和传统分布式都是多机应用,这是它们的共同之处,但是背后有着不一样的用途. 我们所理解的传统分布式及其应用可以解决两个问题:冗余备份/扩容 和 并行计算. 而去中心化应用的目的是维护不可逆转数据 ...
- WPF 字体 FontStyle 的 Italic 和 Oblique 的区别
本文介绍在 WPF 里面的字体属性 FontStyle 的 Italic 和 Oblique 的斜体差别 本文的图片和知识来自: #265 – Specifying Values for FontSt ...
- python之爬虫基础
1.爬虫概念 其实就是模拟浏览器发送请求获取相应的数据 1.模拟请求 2.获取数据 3.筛选数据 4.保存数据 爬虫仅仅是将浏览器可以访问到的数据通过代码的方式加速访问 用于更加快速的获取数据,提升工 ...
- C语言笔记001-用C语言编写程序
例2-1 在屏幕上显示一个短句"Hello World!". #include <stdio.h> int main(void) { printf("hel ...
- 还需要学习JDBC吗?如果需要该了解到怎么样的程度?
前言 只有光头才能变强. 文本已收录至我的GitHub精选文章,欢迎Star:https://github.com/ZhongFuCheng3y/3y 不知道大家在工作中还有没有写过JDBC,我在大三 ...
- 【RMAN】一些参数温故知新
RMAN全局参数: CONFIGURE RETENTION POLICY TO RECOVERY WINDOW OF 21 DAYS 这样相当于保留备份的窗口为21天,说明,从今天起的前21天的数据都 ...