前言

前面一篇博客,我已经介绍了prometheus如何监控mysql。

这一篇我来介绍如何通过alertmanger进行告警邮件发送(微信或钉钉类似,因为需要企业帐户,我就不试了),以及如何通过grafana查看告警。

开始演示

测试机器

Prometheus: 192.168.56.140

Host01:192.168.56.103

安装alertmanager

获取安装包

wget https://github.com/prometheus/alertmanager/releases/download/v0.22.2/alertmanager-0.22.2.linux-amd64.tar.gz

创建目录

mkdir -p /etc/alertmanager/

mkdir -p /etc/alertmanager/data

mkdir -p /etc/alertmanager/template/

获取邮件模板

[root@prometheus-server template]# pwd

/etc/alertmanager/template

[root@prometheus-servertemplate]# wget https://raw.githubusercontent.com/prometheus/alertmanager/master/template/default.tmpl

复制文件到/etc/alertmanager目录

[root@prometheus-server ftpusr]cp ./alertmanager-0.22.2.linux-amd64/alertmanager* /etc/alertmanager/.

配置启动服务

[root@prometheus-server alertmanager]# cat /etc/systemd/system/alertmanager.service

[Unit]

Description=Alertmanager

After=network.target

[Service]

Type=simple

User=prometheus

ExecStart=/etc/alertmanager/alertmanager \

  --config.file=/etc/alertmanager/alertmanager.yml \

  --storage.path=/etc/alertmanager/data

Restart=on-failure

[Install]

WantedBy=multi-user.target

配置alertmanager邮件发送

如下我使用的是163邮箱来发送邮件。

如需使用SMTP服务,需要先开启服务。开启后,增加授权码,如下配置文件里面的smtp_auth_password填写的是授权码(而不是个人邮箱密码)

[root@prometheus-server alertmanager]# cat alertmanager.yml

global:

  smtp_smarthost: 'smtp.163.com:25'

  smtp_from: 'xxxx@163.com'

  smtp_auth_username: 'xxxx@163.com'

  smtp_auth_password: 'xxxxxxxxxxx'

  smtp_require_tls: false

templates:

  - '/etc/alertmanager/template/*.tmpl'

route:

  group_by: ['alertname','cluster','service']

  group_wait: 10s

  group_interval: 10s

  repeat_interval: 10m

  receiver: 'default-receiver'

receivers:

- name: 'default-receiver'

  email_configs:

  - to: '20889922@qq.com'

    html: '{{ template "email.default.html" . }}'

    headers: { Subject: "Prometheus 告警测试邮件" }

启动服务

service alertmanager start

prometheus配置alertmanager

prometheus.yml配置

# Alertmanager configuration

alerting:

  alertmanagers:

  - static_configs:

    - targets: ["localhost:9093"]

      # - alertmanager:9093

# Load rules once and periodically evaluate them according to the global 'evaluation_interval'.

rule_files:

  - "rules.yml"

  # - "first_rules.yml"

  # - "second_rules.yml"

rules.yml配置

[root@prometheus-server prometheus]# cat rules.yml

# hostStatsAlert

groups:

- name: hostStatsAlert

  rules:

  - alert: NodeDown

    expr: up == 0

    for: 1m

    labels:

      severity: "Critical"

    annotations:

      summary: "Instance {{$labels.instance}} down"

      description: "{{$labels.instance}} of job {{$labels.job}} has been down for more than 5 minutes."

  - alert: NodeCPUUsage

    expr: sum(avg without (cpu)(irate(node_cpu_seconds_total{mode!='idle'}[5m]))) by (instance) > 0.85

    for: 1m

    labels:

      severity: "Warning"

    annotations:

      summary: "Instance {{ $labels.instance }} CPU usgae high"

      description: "{{ $labels.instance }} CPU usage above 85% (current value: {{ $value }})"

  - alert: NodeMemoryUsage

    expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes)/node_memory_MemTotal_bytes > 0.85

    for: 1m

    labels:

      severity: "Warning"

    annotations:

      summary: "Instance {{ $labels.instance }} MEM usgae high"

      description: "{{ $labels.instance }} MEM usage above 85% (current value: {{ $value }})"

  - alert: filesystemUsageAlert

    expr: 100 - ((node_filesystem_avail_bytes{mountpoint="/",fstype=~"ext4|xfs"} * 100) / node_filesystem_size_bytes {mountpoint="/",fstype=~"ext4|xfs"}) > 85

    for: 1m

    labels:

      severity: "Warning"

    annotations:

      summary: "Instance {{ $labels.instance }} root DISK usgae high"

      description: "{{ $labels.instance }} root DISK usage above 85% (current value: {{ $value }})"

重新启动prometheus使服务生效

service prometheus restart

查看告警邮件

等待几分钟后,可以看到邮件的告警信息

登录alertmanager端口,也可查看告警信息

http://192.168.56.140:9093/

Alertmanager grafana展示

安装

grafana-cli plugins install camptocamp-prometheus-alertmanager-datasource

安装完后,重新启动grafana-server

service grafana-server restart

添加alertmanager datasource

导入dashboard

展示效果

碰到的问题与解决方法

告警展示的时候,虽然alerts有两个告警,但downnode却显示没有。

通过下载展示的JSON文件,查看原来是altername在告警文件中,与JSON文件中不匹配。匹配完成就OK了。

serverity在邮件显示正常,但是grafana无法正常显示。这个还没调查清楚。

估计得需要谷歌了。但是,你能体会中国人无法上谷歌的痛苦吗?

参考资料:

https://www.cnblogs.com/danny-djy/p/11097726.html

https://medium.com/devops-dudes/prometheus-alerting-with-alertmanager-e1bbba8e6a8e

Prometheus alertmanager邮件发送+grafana告警展示的更多相关文章

  1. 验证Prometheus alertmanager邮件发送

    新环境上配置alertmanager时出现了“Client was not authenticated to send anonymous mail during MAIL FROM”错误,但老环境上 ...

  2. Docker+Prometheus+Alertmanager+Webhook钉钉告警

    Docker+Prometheus+Alertmanager+Webhook钉钉告警 1.环境部署 1.1 二进制部署 1.2 docker部署 1.2.1 webhook 1.2.2 alertma ...

  3. Prometheus + Alertmanager 实现企微告警

    上一篇:二进制安装Prometheus  下面准备在监控的流程中呈现到告警到企微 查看企业ID,用于后续配置文件 四.安装Alertmanager1.准备安装的包 --选择上面链接给的Linux的ta ...

  4. Prometheus + AlertManager 邮件报警

    安装 wget https://github.com/prometheus/alertmanager/releases/download/v0.13.0/alertmanager-0.13.0.lin ...

  5. 使用 Prometheus Alertmanager 模块发送 Doris 异常信息至钉钉报警群

    基础环境 1.Prometheus 版本:2.22.2 下载地址: https://github.com/prometheus/prometheus/releases/download/v2.22.2 ...

  6. Prometheus学习笔记(5)Grafana可视化展示

    目录 一.Grafana安装和启动 二.配置数据源 三.配置dashboard 四.配置grafana告警 一.Grafana安装和启动 Grafana支持查询Prometheus.从Grafana ...

  7. [k8s]prometheus+alertmanager二进制安装实现简单邮件告警

    本次任务是用alertmanaer发一个报警邮件 本次环境采用二进制普罗组件 本次准备监控一个节点的内存,当使用率大于2%时候(测试),发邮件报警. k8s集群使用普罗官方文档 环境准备 下载二进制h ...

  8. jmx_prometheus_javaagent+prometheus+alertmanager+grafana完成容器化java监控告警(二)

    一.拓扑图 二.收集数据 2.1前期准备 创建共享目录,即为了各节点都创建该目录,有两个文件,做数据共享 /home/target/prom-jvm-demo 1.下载文件 jmx_prometheu ...

  9. cadvisor+prometheus+alertmanager+grafana完成容器化监控告警(一)

    一.概况 1.拓扑图 2.名词解释 Grafana 可视化监控容器运行情况 Prometheus: 开源系统监视和警报工具包 Alertmanager 一个独立的组件,负责接收并处理来自Prometh ...

随机推荐

  1. [心得]zookeeper

    1. 什么是zookeeper? 分布式协调服务 是一个典型的分布式数据一致性解决方案,分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅.负载均衡.命名服务.分布式协调/通知.集群管 ...

  2. vim下出现^M怎么解决

    将window下的文本文件上传到linux上,在读取数据文件时,在每一行数据后会出现^M字符.   为什么会出现这种情况呢: 因为windows.linux.os系统的换行符标准不同: 先了解下概念, ...

  3. 由ctf来看java报错的危害

    很多java报错在我们渗透的时候经常会被发现,但由于没什么用,危害比较低被忽略,开发也很不愿意修改. 但从纵深防御的角度来说,多个小问题的结合就会产生严重的问题.此次遇到的一个ctf题就是一个例子. ...

  4. Flask(12)- 操作 Session

    前言 Session 详解:https://www.cnblogs.com/poloyy/p/12513247.html 这一节来瞧一瞧如何用 Flask 操作 Session 功能 list 提供操 ...

  5. Helm Template初体验,方便管理多环境

    我最新最全的文章都在南瓜慢说 www.pkslow.com,文章更新也只在官网,欢迎大家来喝茶~~ 1 简介 Helm作为一个优秀的包管理器,这部分我们之前已经做了介绍,文章如下: 用Helm部署Ku ...

  6. W: GPG 错误:http://mirrors.aliyun.com xenial/mongodb-org/3.2 Release: 由于没有公钥,无法验证下列签名: NO_PUBKEY D68FA50FEA312927

    更新错误: 正在读取软件包列表... 完成 W: GPG 错误:http://mirrors.aliyun.com xenial/mongodb-org/3.2 Release: 由于没有公钥,无法验 ...

  7. Vue.js源码解析-Vue初始化流程之动态创建DOM

    目录 前言 一._update 如何判断是初始化还是更新操作? 二.patch 2.1 patch 定义 2.2 初始化的 patch 三.createElm 动态创建DOM 3.1 创建组件节点 3 ...

  8. Hive——基本DML语句

    Hive--基本DML语句 DML:Data Manipulation Language(数据操作语言,与关系型数据库相似) 官方手册:https://cwiki.apache.org/conflue ...

  9. Python+pytest知识点回顾

    pip install pytest pytest 单元测试框架 pytest高于unittest测试框架 unittest测试类需要继承unittest.TestCase类 pytest不需要继承, ...

  10. 开发工具IDE从入门到爱不释手(四)高级进阶

    代码生成Alt+Insert set/get生成 构造方法生成 toString生成 hashCode,equals 代码重构Refactor 不改变原有逻辑,让IDE帮助代码美观 重命名 Shift ...