记录规则(recording rules)与告警规则(alerting rule)

记录规则(recording rules)

配置规则

Prometheus支持两种类型的规则，可以对其进行配置，然后定期进行评估：记录规则和警报规则。要在Prometheus中包含规则，请创建一个包含必要规则语句的文件，并让Prometheus通过Prometheus配置中的rule_files字段加载该文件。规则文件使用YAML。

可以通过发送SIGHUP到Prometheus进程在运行时重新加载规则文件。仅当所有规则文件格式正确时，才会应用更改。

语法检查规则

要在不启动Prometheus服务器的情况下快速检查规则文件在语法上是否正确，请安装并运行Prometheus的promtool命令行实用工具：

vim rules.yml:

groups:

- name: test

rules:

- record: job:http_requests:rate5m

expr: sum by (job)(rate(http_requests_total[5m]))

promtool check rules rules.yml

当该文件在语法上有效时，检查器将已解析规则的文本表示形式打印到标准输出，然后以0返回状态退出。

如果存在任何语法错误或无效的输入参数，则会将错误消息打印为标准错误，并以1返回状态退出。

记录规则

记录规则使您可以预先计算经常需要或计算量大的表达式，并将其结果保存为一组新的时间序列。这样，查询预先计算的结果通常比每次需要原始表达式都要快得多。这对于仪表板特别有用，仪表板每次刷新时都需要重复查询相同的表达式。

记录和警报规则存在于规则组中。组中的规则以规则的时间间隔顺序运行。

规则文件的语法为：

groups:

[ - <rule_group> ]

一个简单的示例规则文件将是：

groups:

- name: example

rules:

- record: job:http_inprogress_requests:sum

expr: sum(http_inprogress_requests) by (job)

# 收集的指标名称record: <string>

告警规则(alerting rule)

带有警报的示例规则文件为：

groups:

- name: example

rules:

- alert: HighRequestLatency

expr: job:request_latency_seconds:mean5m{job="myjob"} > 0.5

for: 10m

labels:

severity: page

annotations:

summary: High request latency

可选for子句使Prometheus在第一次遇到新的表达式输出矢量元素与将警报计为对此元素的触发进行计数之间等待一段时间。在这种情况下，Prometheus将在每次发出警报之前检查警报在10分钟内是否继续处于活动状态。活动但尚未触发的元素处于挂起状态。

该labels子句允许指定一组附加标签来附加到警报。任何现有的冲突标签都将被覆盖。标签值可以模板化。

该annotations子句指定了一组信息标签，可用于存储更长的附加信息，例如警报说明或运行手册链接。注释值可以模板化。

模板

标签和注释值可以使用控制台模板进行模板化。该$labels 变量保存警报实例的标签键/值对。可以通过$externalLabels变量访问已组态的外部标签。该 $value变量保存警报实例的评估值。

# To insert a firing element's label values:

# To insert the numeric expression value of the firing element:

例子：

groups:

- name: example

rules:

# Alert for any instance that is unreachable for >5 minutes.

- alert: InstanceDown

expr: up == 0

for: 5m

labels:

severity: page

annotations:

summary: "Instance {{ $labels.instance }} down"

description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."

# Alert for any instance that has a median request latency >1s.

- alert: APIHighRequestLatency

expr: api_http_request_latencies_second{quantile="0.5"} > 1

for: 10m

annotations:

summary: "High request latency on {{ $labels.instance }}"

description: "{{ $labels.instance }} has a median request latency above 1s (current value: {{ $value }}s)”

在运行时检查警报

要手动检查哪些警报处于活动状态（挂起或触发），请导航到Prometheus实例的“警报”选项卡。这将向您显示每个定义的警报当前处于活动状态的确切标签集。

对于待处理和触发警报，Prometheus还存储表格的合成时间序列ALERTS{alertname="<alert name>", alertstate="pending|firing", <additional alert labels>}。1只要警报处于指示的活动（挂起或触发）状态，样本值就设置为，如果不再如此，则将系列标记为陈旧。

发送警报通知

Prometheus的警报规则擅长于确定当前已发生的问题，但它们并不是完整的通知解决方案。在简单的警报定义之上，还需要另一层来添加摘要，通知速率限制，静默和警报依赖性。在Prometheus的生态系统中， Alertmanager担当了这个角色。因此，Prometheus可以配置为定期将有关警报状态的信息发送到Alertmanager实例，该实例随后负责调度正确的通知。

可以将Prometheus 配置为通过其服务发现集成自动发现可用的Alertmanager实例。

简单的警报字段模板

alert: InstanceDown #检测job的状态，持续1分钟metrices不能访问会发给altermanager进行报警

expr: up == 0

for: 5m

labels:

severity: page

annotations:

summary: "Instance {{$labels.instance}} down"

description: "{{$labels.instance}} of job {{$labels.job}} has been down for more than 5 minutes."

记录规则(recording rules)与告警规则(alerting rule)的更多相关文章

Prometheus告警规则增删改自动化
Prometheus告警规则增删改自动化前言: 随着容器技术的发展,zabbix监控方式与k8s的结合不完善,导致不得不放弃zabbix,而新的监控工具prometheus的使用就越来越多了.但是经 ...
Prometheus 编写告警规则案例
Prometheus 编写告警规则案例注:确保alertmanager配置完毕! 1.创建编辑文件:vim /usr/local/prometheus/rules/node.yml # groups ...
prometheus linux系统告警规则实例
#prometheus linux系统告警规则实例 #根据实际情况修改参数 #rules.linux.yml groups: - name: linux rules: - alert: Node-D ...
实用干货丨如何使用Prometheus配置自定义告警规则
前言 Prometheus是一个用于监控和告警的开源系统.一开始由Soundcloud开发,后来在2016年,它迁移到CNCF并且称为Kubernetes之后最流行的项目之一.从整个Linux服务器 ...
Prometheus之告警规则的编写
Prometheus之告警规则的编写一.前置知识二.需求三.实现步骤 1.编写告警规则 2.修改prometheus.yml执行告警规则的位置 3.配置文件截图 4.页面上看告警数据信息 5.查 ...
采用docker方式安装ElastAlert，图形化配置告警规则----具体内容有删改，仅供查看
1.创建几个文件夹保存ElastAlert相关配置信息,用来挂载到容器中使用 2.编写核心配置,创建 ${ELASTALERT}/config/config.yaml用来存储核心配置: 3.Elast ...
Prometheus中使用的告警规则
参考网站:https://awesome-prometheus-alerts.grep.to/rules 这个网站上有好多常用软件的告警规则,但是有些并不一定实用,有些使用起来会有错误,这里就把这些都 ...
Prometheus自身的监控告警规则
1.先在 Prometheus 主程序目录下创建rules目录,然后在该目录下创建 prometheus-test.yml文件,内容如下: 内容很多,可以根据实际情况进行调整. 规则参考网址:http ...
Prometheus监控学习笔记之Prometheus 2.0 告警规则介绍
0x00 变化 Prometheus 2.0 已经发布一段时间了,从今天开始我将分几篇文章为大家介绍其中的一些变化. 此篇文章主要介绍 2.0 的告警规则声明的新写法. 从 1.x 到 2.0 规则声 ...

随机推荐

贪吃蛇大作战canvas实现(手机触屏操作)--地图逻辑
//html部分 <!DOCTYPE html><html><head lang="en"> <meta charset="UT ...
eclipsePreferences位置
1.Windows:菜单栏-Window-Preferences 2.Mac:应用顶部最左侧Eclipse-Preferences ---------------------------------- ...
JS 自定义样式格式化日期
Date.prototype.format = function (fmt) { var o = { "M+": this. ...
JS继承——原型链
许多OO语言支持两种继承:接口继承和实现继承.ECMAScript只支持实现继承,且继承实现主要依赖原型链实现. 原型链基本思想:利用原型让一个引用类型继承另一个引用类型的属性和方法. 构造函数.原 ...
Linux系统平台调优
Nginx学习总结(一)
Nginx是目前比较主流的HTTP反向代理服务器(其企业版提供了基于TCP层的反向代理插件),对于构建大型分布式web应用,具有举足轻重的作用.简单来说,nginx有2个主要的功能:动/静态资源分离. ...
137-基于TMS320C6678、FPGA XC5VSX95T的四路Base模式全景影像处理平台
基于TMS320C6678.FPGA XC5VSX95T的四路Base模式全景影像处理平台一.板卡概述本板卡由我公司自主研发,基于CPCI架构,符合CPCI2.0标准,采用两片TI DSP TMS ...
九、Rxjs请求对Observable进行封装
1.引入 Http.Jsonp.Rxjs 三个模块 2.请求中添加一个 .map(res => res.json) 问题 1.Property 'map' does not exist on t ...
C#-弄懂泛型和协变、逆变
脑图概览泛型声明和使用协变和逆变 <C#权威指南>上在委托篇中这样定义: 协变:委托方法的返回值类型直接或者间接地继承自委托前面的返回值类型; 逆变:委托签名中的参数类型继承自委托方法 ...
【Eureka】实现原理
Eureka Client 拉取Eureka Server中的全量注册表注册自身实例InstanceInfo至Eureka Server 初始化定时任务心跳(续约)任务拉取增量注册表更新本地注册 ...

记录规则(recording rules)与告警规则(alerting rule)

记录规则(recording rules)与告警规则(alerting rule)的更多相关文章

随机推荐

热门专题