使用prometheus来避免Kubernetes CPU Limits造成的事故
使用prometheus来避免Kubernetes CPU Limits造成的事故
译自:Using Prometheus to Avoid Disasters with Kubernetes CPU Limits
本文将介绍Kubernetes的resource limits是如何工作的、使用哪些metrics来设置正确的limits值、以及使用哪些指标来定位CPU抑制的问题。
将limits中的CPU解释为时间概念,可以方便地理解容器中的多线程是如何使用CPU时间的。
理解Limits
在配置limits时,我们会告诉Linux节点在一个特定的周期内一个容器应用的运行时长。这样做是为了保护节点上的其余负载不受任意一组进程占用过多 CPU 周期的影响。
limits的核并不是主板上的物理核,而是配置了单个容器内的一组进程或线程在容器短暂暂停(避免影响到其他应用)前的运行时长。这句话有点违反直觉,特别是在 Kubernetes 调度器级别上很容易出错,Kubernetes 调度器使用了物理核的概念。
kubernetes 调度器在执行调度的时候用的是节点上物理核的概念,但容器运行的时候,应该将limits配置的CPU 转换为CPU时间的概念。
Limits其实是时间
下面使用一个虚构的例子来解释这个概念。假设有一个单线程应用,该应用需要1秒CPU运行时间来完成一个事务,此时将limits配置为1 core或1000 millicores:
Resources:
limits:
cpu: 1000m
如果该应用需要完整的1秒CPU运行时间来服务一个API调用,中间不能被停止或抑制,即在容器被抑制前需要允许该应用运行1000毫秒(ms)或1 CPU秒。

由于1000毫秒等同于1秒CPU运行时间,这就可以让该应用每秒不受限地运行一个完整的CPU秒,实际的工作方式更加微妙。我们将一个CPU秒称为一个周期(period),用来衡量时间块。
Linux Accounting system
Limits是一个记账系统(Accounting system),用于跟踪和限制一个容器在固定时间周期内使用的总vCPU数,该值作为可用运行时的全局池进行跟踪,一个容器可以在该周期内使用该池。上面陈述中有很多内容,下面对此进行分析。
回到周期或记账系统翻页频率的概念。我们需要跨多个 vCPU申请运行时间,这意味着需要将账簿的每页分为多个段,称为切片。Linux内核默认会将一个周期分为20个切片。
假设我们需要运行半个周期,此时只需要将配额配置为一半数目的切片即可,在一个周期之后,记账系统会重置切片,并重启进程。

类似于requests或shares可以转换为表示 CPU 分配百分比的比率,也可以将limits转换为一个百分比。例如,容器的配额设置为半个周期,则配置为:
resources:
limits:
cpu: 500m
开始时,使用1000 milliCPU作为一个完整的share。当配置500 milliCPU时,使用了半个周期,或500m/1000m = 50%。如果设置了200m/1000m,则表示使用的CPU比率为20%,以此类推。我们需要这些转换数字来理解一些prometheus的指标输出。
上面提到的记账系统是按容器计算的,下面看下指标container_spec_cpu_period,与我们假设的实验不同,实际与容器相关的周期为100ms。

Linux有一个配置,称为cpu.cfs_period_us,设置了账簿翻到下一页前的时间,该值表示下一个周期创建前的微秒时间。这些Linux指标会通过cAdvisor转换为prometheus指标。
撇开一些特殊场景不谈,在账簿翻页之前经过的时间并不像被限制的 CPU时间切片那样重要。
下面看下使用cpu.cfs_quota_us指标设置的容器配额,这里配置为50毫秒,即100ms的一半:

多线程容器
容器通常具有多个处理线程,根据语言的不同,可能有数百个线程。

当这些线程/进程运行时,它们会调度不同的(可用)vCPU,Linux的记账系统需要全局跟踪谁在使用这些vCPU,以及需要将哪些内容添加到账簿中。
先不谈周期的概念,下面我们使用container_cpu_usage_seconds_total来跟踪一个应用的线程在1秒内使用的vCPU数。假设线程在4个 vCPU 上均运行了整整一秒钟,则说明其使用了4个vCPU秒。
如果总的vCPU时间小于1个vCPU秒会发生什么呢?此时会在该时间帧内抑制节点上该应用的其他线程的运行。
Global accounting
上面讨论了如何将一个vCPU秒切分为多个片,然后就可以全局地在多个vCPU上申请时间片。让我们回到上述例子(4个线程运行在4个vCPU上),进一步理解它们如何运行的。
当一个CPU需要运行其队列中的一个线程或进程时,它首先会确认容器的全局配额中是否有5ms的时间片,如果全局配额中有足够的时间片,则会启动线程,否则,该线程会被抑制并等待下一个周期。

真实场景
下面假设一个实验,假如有4个线程,每个线程需要100ms的CPU时间来完成一个任务,将所有所需的vCPU时间加起来,总计需要400ms或4000m,因此可以以此为进程配置limit来避免被抑制。

不幸的是,实际的负载并不是这样的。这些函数的线程可能运行重的或轻的API调用。应用所需的CPU时间是变化的,因此不能将其认为是一个固定的值。再进一步,4个线程可能并不会同时各需要一个vCPU,有可能某些线程需要等待数据库锁或其他条件就绪。
正因为如此,负载往往会突然爆发,因此延迟并不总是能够成为设置limits的候选因素。最新的一个特性--cpu.cfs_burst_us允许将部分未使用的配额由一个周期转至下一个周期。
有趣的是,这并不是让大多数客户陷入麻烦的地方。假设我们只是猜测了应用程序和测试需求,并且1个 CPU 秒听起来差不多是正确的。该容器的应用程序线程将分布到4个 vCPU 上。这样做的结果是将每个线程的全局配额分为100ms/4或25ms 的运行时。

而实际的总配额为(100ms 的配额) * (4个线程)或400ms 的配额。在100毫秒的现实时间里,所有线程有300毫秒处于空闲状态。因此,这些线程总共被抑制了300毫秒。
Latency
下面从应用的角度看下这些影响。单线程应用需要100ms来完成一个任务,当设置的配额为100ms或1000 m/1000 m = 100%,此时设置了一个合理的limits,且没有抑制。

在第二个例子中,我们猜测错误,并将limits设置为400m或400 m/1000 m = 40%,此时的配额为100ms周期中的40ms。下图展示该配置了对该应用的延迟:

此时处理相同请求的时间翻倍(220ms)。该应用在三个统计周期中的两个周期内受到了抑制。在这两个周期中,应用被抑制了60ms。更重要的是,如果没有其他需要处理的线程,vCPU将会被浪费,这不仅仅会降低应用的处理速度,也会降低CPU的利用率。
与limits相关的最常见的指标container_cpu_cfs_throttled_periods_total展示了被抑制的周期,container_cpu_cfs_periods_total则给出了总的可用周期。上例中,三分之二(66%)的周期被抑制了。
那么,如何知道limits应该增加多少呢?
Throttled seconds
幸运的是,cAdvisor提供了一个指标container_cpu_cfs_throttled_seconds_total,它会累加所有被抑制的5ms时间片,并让我们知道该进程超出配额的数量。指标的单位是秒,因此可以通过将该值除以10来获得100ms(即我们设置的周期)。
通过如下表达式可以找出CPU使用超过100ms的前三个pods。
topk(3, max by (pod, container)(rate(container_cpu_usage_seconds_total{image!="", instance="$instance"}[$__rate_interval]))) / 10
下面做一个实验:使用sysbench启动一个现实时间100ms中需要400ms CPU时间的的4线程应用。
command:
- sysbench
- cpu
- --threads=4
- --time=0
- run
可以观测到使用了400ms的vCPU:

下面对该容器添加limits限制:
resources:
limits:
cpu: 2000m
memory: 128Mi
可以看到总的 CPU 使用在100ms 的现实时间中减少了一半,这正是我们所期望的。

PromQL 给出了每秒的抑制情况,每秒有10个周期(每个周期默认100ms)。为了得到每个周期的抑制情况,需要除以10。如果需要知道应该增加多少limits,则可以乘以10(如200ms * 10 = 2000m)。
topk(3, max by (pod, container)(rate(container_cpu_cfs_throttled_seconds_total{image!="", instance="$instance"}[$__rate_interval]))) / 10
总结
本文介绍了limits是如何工作的,以及可以使用哪些指标来设置正确的值,使用哪些指标来进行抑制类型的问题定位。本文的实验提出了一个观点,即过多地配置limits的vCPU数可能会导致vCPU处于idle状态而造成应用响应延迟,但在现实的服务中,一般会包含语言自身runtime的线程(如go和java)以及开发者自己启动的线程,一般设置较多的vCPU不会对应用的响应造成影响,但会造成资源浪费。
使用prometheus来避免Kubernetes CPU Limits造成的事故的更多相关文章
- 使用 Prometheus + Grafana 对 Kubernetes 进行性能监控的实践
1 什么是 Kubernetes? Kubernetes 是 Google 开源的容器集群管理系统,其管理操作包括部署,调度和节点集群间扩展等. 如下图所示为目前 Kubernetes 的架构图,由 ...
- [转帖]Prometheus+Grafana监控Kubernetes
原博客的位置: https://blog.csdn.net/shenhonglei1234/article/details/80503353 感谢原作者 这里记录一下自己试验过程中遇到的问题: . 自 ...
- Prometheus Operator 监控Kubernetes
Prometheus Operator 监控Kubernetes 1. Prometheus的基本架构 Prometheus是一个开源的完整监控解决方案,涵盖数据采集.查询.告警.展示整个监控流程 ...
- Prometheus+Grafana监控Kubernetes
涉及文件下载地址:链接:https://pan.baidu.com/s/18XHK7ex_J0rzTtfW-QA2eA 密码:0qn6 文件中需要下载的镜像需要自己提前下载好,eg:prom/node ...
- 使用Prometheus Operator 监控Kubernetes(15)
一.Prometheus概述: Prometheus是一个开源系统监测和警报工具箱. Prometheus Operator 是 CoreOS 开发的基于 Prometheus 的 Kubernete ...
- Prometheus 监控外部 Kubernetes 集群
转载自:https://www.qikqiak.com/post/monitor-external-k8s-on-prometheus/ 在实际环境中很多企业是将 Prometheus 单独部署在集群 ...
- 基于Prometheus,Alermanager实现Kubernetes自动伸缩
到目前为止Kubernetes对基于cpu使用率的水平pod自动伸缩支持比较良好,但根据自定义metrics的HPA支持并不完善,并且使用起来也不方便. 下面介绍一个基于Prometheus和Aler ...
- 解决 Prometheus 不能获取 Kubernetes 集群上 Windows 节点的 Metrics
背景 接上一篇 快速搭建 Windows Kubernetes , 我们发现原来在 Windows Kubernetes 会有一些与在 Linux 上使用不一样的体验,俗称坑,例如 hostAlias ...
- kubernetes cpu限制参数说明
docker CPU限制参数 Option Description --cpus=<value> Specify how much of the available CPU resourc ...
- Rancher2.x 一键式部署 Prometheus + Grafana 监控 Kubernetes 集群
目录 1.Prometheus & Grafana 介绍 2.环境.软件准备 3.Rancher 2.x 应用商店 4.一键式部署 Prometheus 5.验证 Prometheus + G ...
随机推荐
- 第2-1-1章 FastDFS分布式文件服务背景及系统架构介绍
目录 1 背景 1.1 为什么需要分布式文件服务 1.1.1 单机时代 1.1.2 独立文件服务器 1.1.3 分布式文件系统 1.2 什么是FastDFS 2 系统架构 2.1 Tracker集群 ...
- nginx性能监控
nginx自带监控模块,需要在nginx编译安装时加入监控模块. 1. 编译安装时加入监控模块 ngin编译安装时,加入编译参数为:--with-http_stub_status_module.如下所 ...
- Mysql InnoDB多版本并发控制MVCC
参考书籍<mysql是怎样运行的> 系列文章目录和关于我 一丶为什么需要事务隔离级别 mysql是一个客户端/服务断软件,对于同一个服务器来说,可以有多个客户端进行连接,每一个客户端进行连 ...
- 【DL论文精读笔记】Object Detection in 20 Y ears: A Survey目标检测综述
目标检测20年综述(2019) 摘要 Abstract 该综述涵盖了400篇目标检测文章,时间跨度将近四分之一世纪.包括目标检测历史上的里程碑检测器.数据集.衡量指标.基本搭建模块.加速技术,最近的s ...
- 快捷打开cmd管理员模式
win+s-搜索cmd 直接回车:普通用户模式的cmd CTRL+SHIFT+回车:管理员模式的cmd
- 2022年鲜为人知的CSS 特性了解起来~
前言 随着CSS的不断发展,一些很酷且有用的属性要么完全被忽视,要么由于某种原因不像其他常见属性那样被开发者熟练应用.这篇文章我们将一起学习那些CSS中陌生但非常有用的CSS属性,这些属性你可能听说过 ...
- JS基础笔记合集(1-3)
JavaScript合集 1. JS入门基础 2. JS数据类型 3. JS运算符 4. JS流程控制 5. JS对象 6. JS函数 7. JS面向对象 8. JS数组 9. JS内置对象 我追求理 ...
- 写一个flutter程序
这一部分我们写一个简单应用 功能是,为一个创业公司生成建议的公司名称. 用户可以选择和取消选择的名称,保存喜欢的名称. 该代码一次生成十个名称 用户滚动时,生成新一批名称. 着重体验以下几点 Flut ...
- 上传文件到阿里云 oss,前端 browser.js 笔记
Web端常见的上传方法是用户在浏览器或App端上传文件到应用服务器,应用服务器再把文件上传到OSS. 和数据直传到OSS相比,有以下缺点 上传慢:用户数据需先上传到应用服务器,之后再上传到OSS 费用 ...
- angr_ctf——从0学习angr(三):Hook与路径爆炸
路径爆炸 之前说过,angr在处理分支时,采取统统收集的策略,因此每当遇见一个分支,angr的路径数量就会乘2,这是一种指数增长,也就是所说的路径爆炸. 以下是路径爆炸的一个例子: char buff ...