Prometheus + Alertmanager 实现企微告警

上一篇：二进制安装Prometheus

下面准备在监控的流程中呈现到告警到企微

查看企业ID，用于后续配置文件

四、安装Alertmanager
1、准备安装的包

--选择上面链接给的Linux的tar包

alertmanager-0.22.2.linux-amd64.tar.gz

wget https://github.com/prometheus/alertmanager/releases/download/v0.22.2/alertmanager-0.22.2.linux-amd64.tar.gz

2、下载完之后直接解压并放到/usr/local/prometheus目录,便于管理

[root@zhoujt prometheus]# tar -zxvf alertmanager-0.22.2.linux-amd64.tar.gz

[root@zhoujt prometheus]# cp -r alertmanager-0.22.2.linux-amd64 /usr/local/prometheus/alertmanager

[root@zhoujt prometheus]# cd /usr/local/prometheus/alertmanager/

[root@zhoujt alertmanager]# ls

alertmanager alertmanager.yml amtool LICENSE NOTICE

[root@zhoujt alertmanager]# ./alertmanager --version

alertmanager, version 0.22.2 (branch: HEAD, revision: 44f8adc06af5101ad64bd8b9c8b18273f2922051)

build user: root@b595c7f32520

build date: 20210602-07:50:37

go version: go1.16.4

platform: linux/amd64

3、配置alertmanager

[zhoujt@zhoujt alertmanager]$ cat alertmanager.yml

global: #每五分钟检查一次是否恢复

resolve_timeout: 5m

# SMTP的相关配置

# smtp_smarthost: smtp.263.net:587

# smtp_from: no-reply@xxx.com

# smtp_auth_username: no-reply@xxx.com

# smtp_auth_password: xxx

# 路由的根节点，每个传进来的报警从这里开始

route:

group_by: ['alertname'] # 将传入的报警中有这些标签的分为一个组

group_wait: 10s # 第一次触发报警的延时

group_interval: 10s # 自第一次告警等待多久发送压缩的警报

repeat_interval: 1m # 重复告警发送间隔

receiver: 'wechat' # 定义告警接收的对象

receivers: # 告警接收对象

- name: 'wechat' #告警接收名称，与route的receiver对应

wechat_configs:

- corp_id: 'wwfaxxxxxxxxxxxx' # 企业微信唯一ID，我的企业--企业信息

to_party: '1' # 告警需要发送的组

to_user: '1' # 告警发送的用户ID

agent_id: '1000002' # 自己创建应用的ID

api_secret: 'o22cBPAm3xxxxxxxxxxxxxxxxxxx' # 应用密钥

send_resolved: true # 告警解决后是否发送通知

inhibit_rules: # 告警抑制规则，比如阈值告警，达到critical肯定也达到了warning了，没必要发送两个告警

- source_match:

severity: 'major'

target_match:

severity: 'warning'

equal: ['alertname', 'dev', 'instance']

templates: #告警消息模板

- '/usr/local/prometheus/alertmanager/*.tmpl'

4、配置告警信息模板
注意：配置这些配置文件时，一定要是utf-8的形式，否则无法启动服务
- file filename # 查看文件属性
UTF-8 Unicode text
- set fileencoding=utf-8
ps: 模板的时间切记不要改，这个是go语言定义的一月二号下午三点四分五秒，06年时区是-7

{{ define "wechat.default.message" }}

{{- if gt (len .Alerts.Firing) 0 -}}

{{- range $index, $alert := .Alerts -}}

======== 异常告警 ========

告警名称：{{ $alert.Labels.alertname }}

告警级别：{{ $alert.Labels.severity }}

告警机器：{{ $alert.Labels.instance }} {{ $alert.Labels.device }}

告警详情：{{ $alert.Annotations.summary }}

告警时间：{{ $alert.StartsAt.Format "2006-01-02 15:04:05" }}

========== END ==========

{{- end }}

{{- end }}

{{- if gt (len .Alerts.Resolved) 0 -}}

{{- range $index, $alert := .Alerts -}}

======== 告警恢复 ========

告警名称：{{ $alert.Labels.alertname }}

告警级别：{{ $alert.Labels.severity }}

告警机器：{{ $alert.Labels.instance }}

告警详情：{{ $alert.Annotations.summary }}

告警时间：{{ $alert.StartsAt.Format "2006-01-02 15:04:05" }}

恢复时间：{{ $alert.EndsAt.Format "2006-01-02 15:04:05" }}

========== END ==========

{{- end }}

{{- end }}

{{- end }}

5、测试告警是否正常，首先编辑告警触发规则

groups:

- name: mem-rule

rules:

- alert: "内存报警"

expr: (node_memory_MemTotal_bytes - (node_memory_MemFree_bytes+node_memory_Buffers_bytes+node_memory_Cached_bytes )) / node_memory_MemTotal_bytes * 100 > 10

for: 30s

labels:

severity: warning

annotations:

summary: "服务名:{{$labels.alertname}} 内存报警"

description: "{{ $labels.alertname }} 内存资源利用率大于 10%"

value: "{{ $value }}"

- name: node-up

rules:

- alert: "节点状态"

expr: up{job="node-exporter"} == 0 #测试的话可以把节点改为1,不方便停止节点的时候

for: 5s

labels:

severity: ERROR

level: error

annotations:

summary: "{{ $labels.instance }} 已停止15s!"

description: "{{ $labels.instance }} 检测到异常！请重点关注！！！"

value: "{{ $value }}"

- name: node_health

rules:

- alert: HighMemoryUsage

expr: node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes > 0.9

for: 1m

labels:

severity: warning

annotations:

summary: High memory usage

- alert: HighDiskUsage

expr: node_filesystem_free_bytes{mountpoint='/'} / node_filesystem_size_bytes{mountpoint='/'} > 0.7

for: 1m

labels:

severity: major

annotations:

summary: High Disk usage

- alert: HighDiskUsage

expr: node_filesystem_free_bytes{mountpoint='/'} / node_filesystem_size_bytes{mountpoint='/'} > 0.71

for: 1m

labels:

severity: warning

annotations:

summary: High Disk usage

6、配置systemd对应服务，便于自启动和管理

[zhoujt@zhoujt rules]$ cat /usr/lib/systemd/system/alertmanager.service

[Unit]

Description=altermanager

After=network.target

[Service]

ExecStart=/usr/local/prometheus/alertmanager/alertmanager --config.file=/usr/local/prometheus/alertmanager/alertmanager.yml

ExecReload=/bin/kill -s HUP $MAINPID

Restart=on-failure

[Install]

WantedBy=multi-user.target

[zhoujt@zhoujt prometheus]$ cat /usr/lib/systemd/system/prometheus.service

[Unit]

Description=Prometheus

Documentation=https://prometheus.io/

After=network.target

[Service]

# Type设置为notify时，服务会不断重启

Type=simple

User=prometheus

# --storage.tsdb.path是可选项，默认数据目录在运行目录的./data目录中

ExecStart=/usr/local/prometheus/prometheus --config.file=/usr/local/prometheus/prometheus.yml --storage.tsdb.path=/home/prometheus/prometheus-data --web.enable-lifecycle

#ExecStart=/usr/local/prometheus/prometheus --config.file=/usr/local/prometheus/prometheus.yml --storage.tsdb.path=/home/prometheus/prometheus-date --web.listen-address=:9099

Restart=on-failure

[Install]

WantedBy=multi-user.target

7、配置Prometheus的配置文件，使用alertmanager

# Alertmanager configuration

#alerting:

# alertmanagers:

# - static_configs:

# - targets:

# - 127.0.0.1:9093

alerting:

alertmanagers:

- static_configs:

- targets: ['localhost:9093']

8、基本配置已完成，开始启动服务，查看端口

- 重载Prometheus: curl -X POST http://localhost:9090/-/reload

或者: systemctl reload prometheus

- 启动Alertmanager: systemctl enable alertmanager&& systemctl start alertmanager

tcp6 0 0 :::9090 :::* LISTEN 11401/prometheus

tcp6 0 0 :::9093 :::* LISTEN 30974/alertmanager

tcp6 0 0 :::9094 :::* LISTEN 30974/alertmanager

访问 9090 9093 可以查看当前状态

9、服务启动成功

10、测试的话，将rule里面改几个参数，

告警时：

恢复后：

这里除了监控节点是否存活外，还可以监控很多很多指标，例如 CPU 负载告警、Mem 使用量告警、Disk 存储空间告警、Network 负载告警等等，这些都可以通过自定义 PromQL 表达式验证值来定义一些列的告警规则，来丰富日常工作中需要的各种告警

到这里，企微告警已完成，后续可以配置邮件告警，在配置文件中注释掉了

Prometheus + Alertmanager 实现企微告警的更多相关文章

Docker+Prometheus+Alertmanager+Webhook钉钉告警
Docker+Prometheus+Alertmanager+Webhook钉钉告警 1.环境部署 1.1 二进制部署 1.2 docker部署 1.2.1 webhook 1.2.2 alertma ...
Prometheus alertmanager邮件发送+grafana告警展示
前言前面一篇博客,我已经介绍了prometheus如何监控mysql. 这一篇我来介绍如何通过alertmanger进行告警邮件发送(微信或钉钉类似,因为需要企业帐户,我就不试了),以及如何通过gr ...
k8s event监控利器kube-eventer对接企微告警
背景监控是保障系统稳定性的重要组成部分,在Kubernetes开源生态中,资源类的监控工具与组件监控百花齐放. cAdvisor:kubelet内置的cAdvisor,监控容器资源,如容器cpu.内 ...
[k8s]prometheus+alertmanager二进制安装实现简单邮件告警
本次任务是用alertmanaer发一个报警邮件本次环境采用二进制普罗组件本次准备监控一个节点的内存,当使用率大于2%时候(测试),发邮件报警. k8s集群使用普罗官方文档环境准备下载二进制h ...
jmx_prometheus_javaagent+prometheus+alertmanager+grafana完成容器化java监控告警（二）
一.拓扑图二.收集数据 2.1前期准备创建共享目录,即为了各节点都创建该目录,有两个文件,做数据共享 /home/target/prom-jvm-demo 1.下载文件 jmx_prometheu ...
prometheus学习系列九： Prometheus AlertManager使用
在Prometheus的报警系统中,是分为2个部分的, 规则是配置是在prometheus中的, prometheus组件完成报警推送给alertmanager的, alertmanager然后管理这 ...
Prometheus（五）：Prometheus+Alertmanager 配置企业微信报警
此处默认已安装Prometheus服务,服务地址:192.168.56.200 一.设置企业微信 1.1.企业微信注册(已有企业微信账号请跳过) 企业微信注册地址:https://work.weix ...
Prometheus（四）：Prometheus+Alertmanager 配置邮件报警
此处默认已安装Prometheus服务,服务地址:192.168.56.200 一.安装Alertmanager 此处采用源码编译的方式安装.首先下载alertmanager的软件包,下载地址:ht ...
prometheus grafana graylog 钉钉告警短信告警电话告警系统 PrometheusAlert
PrometheusAlert 简介 PrometheusAlert是开源的运维告警中心消息转发系统,支持主流的监控系统Prometheus,日志系统Graylog和数据可视化系统Grafana发出的 ...

随机推荐

轻松吃透实时时钟芯片DS1302软硬件设计，看完秒懂
今天我们来讨论一款老掉牙的实时时钟芯片DS1302.什么是实时时钟(RealTime Clock, RTC)呢?为什么我们需要它呢?假设你使用单片机实现万年历应用,一般的做法是这样的:设置中断后判断1 ...
ES6 数组的方法
数组的类数组的类是Array 数组的定义 var arr=[元素] var arr=new Array(3) 数字3,代表有三个元素或者三个空位如果数组定义采用 new 实例,类中跟的是一个数字 ...
excel打印出现多余空白页
问题: 解决方法一:设置打印区域步骤:选择需要打印的内容--页面布局--打印区域--设置打印区域即可解决方法二:删除多余的打印空白页步骤:视图--分页预览--选中多余的空白页删除即可
使用Flex实现图片旋转。
当用flex实现图片旋转的时候,遇到了这样的问题:截图之后,图片还是会继续旋转,应该是canvas这个还有旋转的角度,所以看到效果跟你截图保存下来的效果不一样. 函数: 角度转换为弧度,这里面涉及到了 ...
POJ 1572 Automatic Editing 字符串替换，replace就够了
题意不难理解,但是一开始还是没有看清楚题目.Replace the first occurrence of the find string within the text by the replace ...
AcWing 241. 楼兰图腾
#include<bits/stdc++.h> using namespace std; const int N=2e5+5; typedef long long ll; ll ans,l ...
AcWing 239. 奇偶游戏
小A和小B在玩一个游戏. 首先,小A写了一个由0和1组成的序列S,长度为N. 然后,小B向小A提出了M个问题. 在每个问题中,小B指定两个数 l 和 r,小A回答 S[l~r] 中有奇数个1还是偶数个 ...
源码解析Java Attach处理流程
前言当Java程序运行时出现CPU负载高.内存占用大等异常情况时,通常需要使用JDK自带的工具jstack.jmap查看JVM的运行时数据,并进行分析. 什么是Java Attach 那么JVM自带 ...
python使用笔记29--代码驱动
1 import unittest 2 import requests 3 import jsonpath 4 import time 5 import nnreport 6 7 def get_va ...
css颜色介绍和背景设置
现在美丽网页的设计图中颜色五花八门的,网页模块中漂亮背景图也很多,网页中颜色和背景设置必不可少,接下来我们就先学颜色是如何表达的,要知其然,知其所以然. 颜色表达形式 1.RGB:rgb( red, ...

Prometheus + Alertmanager 实现企微告警

Prometheus + Alertmanager 实现企微告警的更多相关文章

随机推荐

热门专题