https://www.cnblogs.com/winstom/p/11940570.html

前言

Alertmanager 用于发送告警, 是真正发送信息给用户的模块。
Alertmanager 会接受Prometheus发送过来的警告信息,再由Alertmanager来发送。

  • Grouping—分组
    防止告警风暴,达到告警收敛目的
设置时间段,对接收到的同类告警只发送一条
系统出问题同类告警只发送一条
配置文件配置
  • Inhibition—抑制
防止告警风暴,达到告警收敛目的
同一时间内,对准备发送的告警事件的相关性,决定只发送一条
若A发送C不可达已经准备发送时,可配置其他关于C不可达事件不发送
配置文件配置
  • Silences—沉默
临时屏蔽,设置某个时间段内某类告警不发送
web界面配置
  • Client behavior—客户端
POST方法,两个接口v1、v2
 [{
"labels": {
"alertname": "<requiredAlertName>",
"<labelname>": "<labelvalue>",
...
},
"annotations": {
"<labelname>": "<labelvalue>",
},
"startsAt": "<rfc3339>",
"endsAt": "<rfc3339>",
"generatorURL": "<generator_url>"
},
...
]

关键key说明

labels:代表一个告警事件,用去去重
annotations:不代表一条告警,用于完善告警详情
startAt:默认是接收告警事件的当前时间
endsAt:默认设置为可配置的超时时间,告警事件解决的时间
generatorURL:代表发送告警事件的客户端

源码安装

下载地址: https://github.com/prometheus/alertmanager/releases/download/v0.19.0/alertmanager-0.19.0.linux-amd64.tar.gz

[root@es2 ~]# tar xf alertmanager-0.19.0.linux-amd64.tar.gz
[root@es2 ~]# mv alertmanager-0.19.0.linux-amd64 /opt/alertmanager-0.19
[root@es2 ~]# cd /opt/alertmanager-0.19/
[root@es2 alertmanager-0.19]# mkdir bin config data logs
[root@es2 alertmanager-0.19]# mv alertmanager amtool bin/
[root@es2 alertmanager-0.19]# mv alertmanager.yml config/
[root@es2 alertmanager-0.19]# cp config/alertmanager.yml config/alertmanager.yml.default

配置

修改 /opt/alertmanager-0.19/config/alertmanager.yml

[root@es2 config]# cat alertmanager.yml
global:
smtp_smarthost: 'smtp.exmail.qq.com:25' # smtp地址
smtp_from: 'sijy@jubaozhu.com' # 谁发邮件
smtp_auth_username: 'sijy@jubaozhu.com' # 邮箱用户
smtp_auth_password: 'xxxxx' # 邮箱密码
smtp_require_tls: false route:
group_by: ["instance"] # 分组名
group_wait: 30s # 当收到告警的时候,等待三十秒看是否还有告警,如果有就一起发出去
group_interval: 5m # 发送警告间隔时间
repeat_interval: 3h # 重复报警的间隔时间
receiver: mail # 全局报警组,这个参数是必选的,和下面报警组名要相同 receivers:
- name: 'mail' # 报警组名
email_configs:
- to: 'sijiayong000@163.com' # 发送给谁

启动

nohup /opt/alertmanager-0.19/bin/alertmanager --log.level=info --log.format=json --web.listen-address="10.0.20.12:9093" --config.file="/opt/alertmanager-0.19/config/alertmanager.yml" --storage.path="/opt/alertmanager-0.19/data/" --data.retention=120h &>>/opt/alertmanager-0.19/logs/alertmanager.log &
  • --log.level 日志级别
  • --log.format 日志输出格式
  • --web.listen-addres 监听地址端口
  • --config.file 配置配置文件
  • --storage.path 配置数据保存目录
  • --data.retention 配置数据保留时间

启动后即可访问页面

配置prometheus监控Alertmanager

因为后面会部署alertmanager集群,所以这里使用SRV解析的自动发现

修改prometheus配置

[root@es01 config]# cat prometheus.yml
global:
scrape_interval: 15s
evaluation_interval: 15s alerting:
alertmanagers:
- dns_sd_configs: # 同样配置DNS自动发现
- names: ["_alertmanager._tcp_k8s.com."] # 加入SRV解析的自动发现 rule_files: scrape_configs:
- job_name: 'prometheus'
static_configs:
- targets: ['localhost:9090'] - job_name: 'node_srv'
metrics_path: "/metrics"
dns_sd_configs:
- names: ['_prometheus._tcp.k8s.com'] - job_name: 'alertmanager'
metrics_path: "/metrics"
dns_sd_configs:
- names: ['_alertmanager._tcp.k8s.com']

上面配置好后,在DNS上做好对应的SRV解析接口。

重新加载配置文件

检查配置文件,并重新加载

# 检查配置文件
[root@es01 config]# /opt/prometheus-2.14/bin/promtool check config /opt/prometheus-2.14/config/prometheus.yml
Checking /opt/prometheus-2.14/config/prometheus.yml
SUCCESS: 0 rule files found # 重新加载配置文件
[root@es01 config]# curl -X POST httP://10.0.20.11:9090/-/reload
[root@es01 config]#

配置测试告警

修改prometheus配置

定义报警规则,把这些规则写入到 rule_files: 配置下面

[root@es01 config]# cat prometheus.yml
global:
scrape_interval: 15s
evaluation_interval: 15s alerting:
alertmanagers:
- dns_sd_configs:
- names: ["_alertmanager._tcp.k8s.com"] rule_files:
- "rules/node_alerts.yml" # 这里支持通配符,如 *.yml
- "rules/node_rules.yml" # 这个同样也是,表示自定义永久固定查询值 scrape_configs:
- job_name: 'prometheus'
static_configs:
- targets: ['localhost:9090'] - job_name: 'node_srv'
metrics_path: "/metrics"
dns_sd_configs:
- names: ['_prometheus._tcp.k8s.com'] - job_name: 'alertmanager'
metrics_path: "/metrics"
dns_sd_configs:
- names: ['_alertmanager._tcp.k8s.com']

然后创建对应的目录和具体规则文件

[root@es01 config]# mkdir rules
[root@es01 config]# cat rules/node_alerts.yml
groups:
- name: node_alerts # 规则名称
rules:
- alert: HighNodeCPU # 告警名称
expr: instance:node_cpu:avg_rate5m > 4 # 告警条件
for: 1m # 查询时间间隔
labels:
severity: warning # 告警级别
annotations: # 注释
summary: High Node CPU for 1 hour # 发送告警的内容
console: Thank you Test # 下面的和上面的都类似
- name: disk_alerts
rules:
- alert: DiskWillFillin4Hours
expr: predict_linear(node_filesystem_free_bytes[1h], 4*3600) < 0
for: 5m
labels:
severity: critical
annotations:
summmary: Disk on {{ $labels.instance }} will fill in approximately 4 hours. - name: node_instance
rules:
- alert: InstanceDown
expr: up{job=~"node.*"} == 0
for: 1m
labels:
severity: critical
annotations:
summary: Host {{ $labels.instance }} of {{ $labels.job }} is Down!
[root@es01 config]# cat rules/node_rules.yml
groups:
- name: node_rules # 规则名称
interval: 10s # 查询间隔
rules:
- record: instance:node_cpu:avg_rate5m # 查询名称,此名称在prometheus中可直接查询
expr: 100 - avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100 # 查询语句
labels:
metric_type: aggragation # 增加的标签,通过此规则查出来的metric值,会增加这个标签 - record: instance:node_memory_usage:percentage
expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes + node_memory_Cached_bytes + node_memory_Buffers_bytes)) / node_memory_MemTotal_bytes * 100

重新加载配置文件

检查配置文件,并重新加载

# 检查配置文件
[root@es01 config]# /opt/prometheus-2.14/bin/promtool check config /opt/prometheus-2.14/config/prometheus.yml
Checking /opt/prometheus-2.14/config/prometheus.yml
SUCCESS: 1 rule files found Checking /opt/prometheus-2.14/config/rules/node_alerts.yml
SUCCESS: 3 rules found # 重新加载配置文件
[root@es01 config]# curl -X POST httP://10.0.20.11:9090/-/reload
[root@es01 config]#


测试触发告警

下载CPU压测软件下载地址:https://patrickmn.com/projects/cpuburn/

这个软件能把CPU跑满,之后prometheus会想Alertmanager发出告警,Alertmanager收到后会发送邮件。

root@es2 ~]# wget https://cdn.pmylund.com/files/tools/cpuburn/linux/cpuburn-1.0-amd64.tar.gz
--2019-11-27 10:44:33-- https://cdn.pmylund.com/files/tools/cpuburn/linux/cpuburn-1.0-amd64.tar.gz
Resolving cdn.pmylund.com (cdn.pmylund.com)... 13.35.50.33, 13.35.50.98, 13.35.50.4, ...
Connecting to cdn.pmylund.com (cdn.pmylund.com)|13.35.50.33|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 414161 (404K) [application/x-gzip]
Saving to: ‘cpuburn-1.0-amd64.tar.gz’ 100%[================================================================================================================>] 414,161 372KB/s in 1.1s 2019-11-27 10:44:37 (372 KB/s) - ‘cpuburn-1.0-amd64.tar.gz’ saved [414161/414161] [root@es2 ~]# tar xf cpuburn-1.0-amd64.tar.gz
[root@es2 ~]# ls
cpuburn cpuburn-1.0-amd64.tar.gz
[root@es2 ~]# cd cpuburn
[root@es2 cpuburn]# ls
cpuburn LICENSE README
[root@es2 cpuburn]# ./cpuburn
Burning 4 CPUs/cores
10 seconds
20 seconds
30 seconds

查看prometheus中alert

然后去alertmanager页面查看:

当Alertmanager收到此警告后,等待三十秒,当没有其他警告接入的时候,会把此警告信息通过邮件的形式发出。

技术男一枚,喜欢做技术分享,把学习的过程,以及遇到问题的解决过程都愿意分享给大家,博客中如有不足,请留言或者联系博主,感谢。 邮箱: sijiayong000@163.com Q Q: 601566386

[转帖]Alertmanager 部署配置的更多相关文章

  1. Alertmanager 部署配置

    目录 前言 源码安装 配置 启动 配置prometheus监控Alertmanager 修改prometheus配置 重新加载配置文件 配置测试告警 修改prometheus配置 重新加载配置文件 测 ...

  2. Prometheus 和 Alertmanager实战配置

    Prometheus时序数据库 一.Prometheus 1.Prometheus安装 1)源码安装 prometheus安装包最新版本下载地址:https://prometheus.io/downl ...

  3. Prometheus+alertmanager告警配置-2

    prometheus 告警 prometheus 通过alertmanager进行告警 实现监控告警的步骤: 在prometheus中定义告警规则rule_files alertmanager配置告警 ...

  4. Prometheus Alertmanager生产配置趟过的坑总结

    简介 Alertmanager 处理由客户端应用程序(如 Prometheus server)发送的警报.它负责去重(deduplicating),分组(grouping),并将它们路由(routin ...

  5. Jenkins部署配置简介

    前段时间研究了一下自动化测试,因而接触到了Jenkins,今天有时间进行一下Jenkins部署配置相关知识的总结分享 前言:由于本次只是实验性研究,采用Windows环境,因此Jenkins可以通过下 ...

  6. TOMCAT的安装部署配置(配图解)

    TOMCAT的安装部署配置 前提已经成功搭建配置JDK 下载好压缩包后,直接解压至某一目录下,目录中不能包含中文 双击安装文件,出现如下界面 点击[NEXT],出现如下界面 点击[I AGREE],出 ...

  7. PL/SQL安装部署配置(配图解)

    PL/SQL安装部署配置 下载好安装包之后,双击exe程序 双击安装程序,出现如下页面 点击[NEXT],出现如下界面 选择[I Accept...],点击[NEXT],出现如下界面 选择安装路径,点 ...

  8. JDK的安装及部署配置(配图解)

    JDK的安装及部署配置 双击安装文件,出现如下界面 点击[下一步]出现如下界面,更改安装路径(建议安装至D盘), 点击[下一步],出现如下界面,修改文件夹名. 点击[确定],耐心等待 直至出现如下界面 ...

  9. linux后台server开发环境的部署配置和验证(nginx+apache+php-fpm+FASTCGI(C/C++))

    linux后台server开发环境部署配置 引言 背景 随着互联网业务的不断增多.开发环境变得越来越复杂,为了便于统一server端的开发部署环境,特制定本配置文档. 使用软件 CentOS 6.3( ...

  10. 7、Web应用程序中的安全向量 -- 使用Retail部署配置

    该方法不需要胡乱地编辑各个配置设置,而是利用了ASP.NET特性:Retail部署配置. 部署配置是服务器的machine.config文件(在%windir%\Microsoft.NET\Frame ...

随机推荐

  1. 使用Spring AI让你的Spring Boot应用快速拥有生成式AI能力

    之前分享了关于Spring新项目Spring AI的介绍视频.视频里演示了关于使用Spring AI将Open AI的能力整合到Spring应用中的操作,但有不少读者提到是否有博客形式的学习内容.所以 ...

  2. Asp .Net Core 系列: 集成 CORS跨域配置

    目录 什么是CORS? Asp .Net Core 种如何配置CORS? CorsPolicyBuilder类详解 注册以及使用策略三种方式 EnableCors 和 DisableCors 特性 关 ...

  3. flutter中显示年月日、星期与时间

    代码 import 'package:flutter/material.dart'; import 'package:intl/intl.dart'; import 'dart:async'; imp ...

  4. Linux系统快速入门

    LINUX基础知识 I.Linux概述 linux是啥? 一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和Unix的多用户.多任务.支持多线程和多CPU的操作系统.它能运行主要的Un ...

  5. 18篇文章系统解读:中台规划如何撬动企业IT基础设施转型升级

    摘要:通过这个系列,让大家对中台的价值.针对的问题痛点.中台规划的方法思路和技巧.一些中台业务实践有个基本的认识,让客户清楚的意识到企业中台的业务价值,进而通过企业中台规划牵引客户IT基础设施投资. ...

  6. GaussDB(for Redis)揭秘:Redis存算分离架构最全解析

    前言: 本文根据华为云NoSQL数据库架构师余汶龙,在今年的中国系统架构师大会SACC上的演讲整理而成,内容如下. 本次分享的大纲分成如下四个部分: 什么是GaussDB(for Redis)? 为什 ...

  7. 治理效率提升77%!揭秘基于DataLeap实时健康分的最佳实践

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 背景 某企业实时数仓团队通过数据收集.整合.计算和存储构建实时数据仓库,为企业提供快速.准确.可靠的实时数据分析和 ...

  8. Intellij Java JNI 调用 C++

    也可以用 JNA,但性能没有 JNI 好.JNA的Demo没有做,可以参考(https://www.bilibili.com/video/BV1xU4y1F7Ep/?spm_id_from=autoN ...

  9. POJ:3660 Cow Contest (传递闭包 + Floyd)

    POJ 3660 http://poj.org/problem?id=3660 思路: 传递闭包 输入A > B,那么我们可以建立一套A ->B 的边. 然后求出传递闭包. 判断一个人是否 ...

  10. vue学习笔记 十二、通过计算属性获取定义的状态数据

    系列导航 vue学习笔记 一.环境搭建 vue学习笔记 二.环境搭建+项目创建 vue学习笔记 三.文件和目录结构 vue学习笔记 四.定义组件(组件基本结构) vue学习笔记 五.创建子组件实例 v ...