1.告警altermanger装配

altermanager作用：接收prometheus发送的告警信息, 通过相关方式例如邮件和微信等方式发送给接收者。

创建目录：

test -d /etc/alertmanager || mkdir -pv /etc/alertmanager

配置文件：

vi /etc/alertmanager/alertmanager.yml

global:

    resolve_timeout: 5m

templates:

- '/etc/alertmanager/wechat.tmpl'

route:

    group_by: ['alertname']

    group_wait: 10s

    group_interval: 10s

    repeat_interval: 1h

    receiver: 'wechat'

receivers:

# 微信方式告警

- name: 'wechat'

    wechat_configs:

    - corp_id: 'wwc08fcb42fc6fe93c'

        to_party: '2'

        agent_id: '1000002'

        api_secret: 'cLG91Xgcd3o3zPJp6NbOJV9m7SBIlhtCScxov3Hp-XQ'

        send_resolved: true

模板文件：

vi /etc/alertmanager/wechat.tmpl

{{ define "wechat.default.message" }}

{{ if gt (len .Alerts.Firing) 0 -}}

Alerts Firing:

{{ range .Alerts }}

告警级别：{{ .Labels.severity }}

告警类型：{{ .Labels.alertname }}

故障主机: {{ .Labels.instance }}

告警主题: {{ .Annotations.summary }}

告警详情: {{ .Annotations.description }}

触发时间: {{ .StartsAt.Format "2006-01-02 15:04:05" }}

{{- end }}

{{- end }}

{{ if gt (len .Alerts.Resolved) 0 -}}

Alerts Resolved:

{{ range .Alerts }}

告警级别：{{ .Labels.severity }}

告警类型：{{ .Labels.alertname }}

故障主机: {{ .Labels.instance }}

告警主题: {{ .Annotations.summary }}

触发时间: {{ .StartsAt.Format "2006-01-02 15:04:05" }}

恢复时间: {{ .EndsAt.Format "2006-01-02 15:04:05" }}

{{- end }}

{{- end }}

告警链接:

{{ template "__alertmanagerURL" . }}

{{- end }}

启动容器：

docker run --restart=always   -d -p 9093:9093 -v /etc/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml -v /etc/alertmanager/wechat.tmpl:/etc/alertmanager/wechat.tmpl --name alertmanager prom/alertmanager

查看容器日志信息，检查是否报错：

docker logs -f alertmanager

2.告警Mysql

准备mysql告警规则文件 , 注意该文件不能有tag键，同时key和value之间必须要有空格。

vi /etc/prometheus/prometheus.rules

groups:

- name: MySQLStatsAlert

    rules:

    - alert: MySQL is down

        expr: mysql_up == 0

        for: 1m

        labels:

            severity: critical

        annotations:

            summary: "Instance {{ $labels.instance }} MySQL is down"

            description: "MySQL database is down. This requires immediate action!"

    - alert: Mysql_High_QPS

        expr: rate(mysql_global_status_questions[5m]) > 500

        for: 2m

        labels:

            severity: warning

        annotations:

            summary: "{{$labels.instance}}: Mysql_High_QPS detected"

            description: "{{$labels.instance}}: Mysql opreation is more than 500 per second ,(current value is: {{ $value }})"

    - alert: Mysql_Too_Many_Connections

        expr: rate(mysql_global_status_threads_connected[5m]) > 200

        for: 2m

        labels:

            severity: warning

        annotations:

            summary: "{{$labels.instance}}: Mysql Too Many Connections detected"

            description: "{{$labels.instance}}: Mysql Connections is more than 100 per second ,(current value is: {{ $value }})"  

    - alert: Mysql_Too_Many_slow_queries

        expr: rate(mysql_global_status_slow_queries[5m]) > 3

        for: 2m

        labels:

            severity: warning

        annotations:

            summary: "{{$labels.instance}}: Mysql_Too_Many_slow_queries detected"

            description: "{{$labels.instance}}: Mysql slow_queries is more than 3 per second ,(current value is: {{ $value }})"  

    - alert: SQL thread stopped

        expr: mysql_slave_status_slave_sql_running != 1

        for: 1m

        labels:

            severity: critical

        annotations:

            summary: "Instance {{ $labels.instance }} Sync Binlog is enabled"

            description: "SQL thread has stopped. This is usually because it cannot apply a SQL statement received from the master."

    - alert: Slave lagging behind Master

        expr: rate(mysql_slave_status_seconds_behind_master[5m]) >30

        for: 1m

        labels:

            severity: warning

        annotations:

            summary: "Instance {{ $labels.instance }} Slave lagging behind Master"

            description: "Slave is lagging behind Master. Please check if Slave threads are running and if there are some performance issues!"

验证报警: 把从库的mysql实例服务停止。

在prometheus的alert界面可以看到有个告警, 处于pending状态, 当处于firing状态, 持续时间为for指定的时间, 向altermanager发送告警;

进入altermanager界面, 发现altermanager接收到prometheus发送过来的报警。

3.Prometheus针对nodes告警规则配置

groups:

- name: example

  rules:

  - alert: 实例丢失

    expr: up{job="node-exporter"} == 0

    for: 1m

    labels:

      severity: page

    annotations:

      summary: "服务器实例 {{ $labels.instance }} 丢失"

      description: "{{ $labels.instance }} 上的任务 {{ $labels.job }} 已经停止了 1 分钟已上了"

  - alert: 磁盘容量小于 5%

    expr: 100 - ((node_filesystem_avail_bytes{job="node-exporter",mountpoint=~".*",fstype=~"ext4|xfs|ext2|ext3"} * 100) / node_filesystem_size_bytes {job="node-exporter",mountpoint=~".*",fstype=~"ext4|xfs|ext2|ext3"}) > 95

    for: 30s

    annotations:

      summary: "服务器实例 {{ $labels.instance }} 磁盘不足 告警通知"

      description: "{{ $labels.instance }}磁盘 {{ $labels.device }} 资源 已不足 5%, 当前值: {{ $value }}"

  - alert: "内存容量小于 20%"

    expr: ((node_memory_MemTotal_bytes - node_memory_MemFree_bytes - node_memory_Buffers_bytes - node_memory_Cached_bytes) / (node_memory_MemTotal_bytes )) * 100 > 80

    for: 30s

    labels:

      severity: warning

    annotations:

      summary: "服务器实例 {{ $labels.instance }} 内存不足 告警通知"

      description: "{{ $labels.instance }}内存资源已不足 20%,当前值: {{ $value }}"

  - alert: "CPU 平均负载大于 4 个"

    expr: node_load5 > 4

    for: 30s

    annotations:

      sumary: "服务器实例 {{ $labels.instance }} CPU 负载 告警通知"

      description: "{{ $labels.instance }}CPU 平均负载(5 分钟) 已超过 4 ,当前值: {{ $value }}"

  - alert: "磁盘读 I/O 超过 30MB/s"

    expr: irate(node_disk_read_bytes_total{device="sda"}[1m]) > 30000000

    for: 30s

    annotations:

      sumary: "服务器实例 {{ $labels.instance }} I/O 读负载 告警通知"

      description: "{{ $labels.instance }}I/O 每分钟读已超过 30MB/s,当前值: {{ $value }}"

  - alert: "磁盘写 I/O 超过 30MB/s"

    expr: irate(node_disk_written_bytes_total{device="sda"}[1m]) > 30000000

    for: 30s

    annotations:

      sumary: "服务器实例 {{ $labels.instance }} I/O 写负载 告警通知"

      description: "{{ $labels.instance }}I/O 每分钟写已超过 30MB/s,当前值: {{ $value }}"

  - alert: "网卡流出速率大于 10MB/s"

    expr: (irate(node_network_transmit_bytes_total{device!~"lo"}[1m]) / 1000) > 1000000

    for: 30s

    annotations:

      sumary: "服务器实例 {{ $labels.instance }} 网卡流量负载 告警通知"

      description: "{{ $labels.instance }}网卡 {{ $labels.device }} 流量已经超过 10MB/s, 当前值: {{ $value }}"

  - alert: "CPU 使用率大于 90%"

    expr: 100 - ((avg by (instance,job,env)(irate(node_cpu_seconds_total{mode="idle"}[30s]))) *100) > 90

    for: 30s

    annotations:

      sumary: "服务器实例 {{ $labels.instance }} CPU 使用率 告警通知"

      description: "{{ $labels.instance }}CPU 使用率已超过 90%, 当前值: {{ $value }}"

Prometheus—告警altermanger的更多相关文章

Prometheus 告警收敛
Prometheus 告警收敛告警面临最大问题,是警报太多,相当于狼来了的形式.收件人很容易麻木,不再继续理会.关键的告警常常被淹没.在一问题中,alertmanger在一定程度上得到很好解决. P ...
Prometheus 告警分配到指定接收组
Prometheus 告警分配到指定接收组 route属性用来设置报警的分发策略,它是一个树状结构,按照深度优先从左向右的顺序进行匹配. 主要处理流程:1. 接收到Alert,根据labels判断属于 ...
Prometheus 告警状态了解
Prometheus 告警状态了解一旦这些警报存储在Alertmanager,它们可能处于以下任何状态: · Inactive:这里什么都没有发生. · Pending:已触发阈值,但未满足告警持续 ...
Prometheus告警规则增删改自动化
Prometheus告警规则增删改自动化前言: 随着容器技术的发展,zabbix监控方式与k8s的结合不完善,导致不得不放弃zabbix,而新的监控工具prometheus的使用就越来越多了.但是经 ...
Prometheus告警模型分析
Prometheus作为时下最为流行的开源监控系统,其庞大的生态体系:包括针对各种传统应用的Exporter,完整的二次开发工具链,与Kubernetes等主流平台的高度亲和以及由此带来的强大的自发现 ...
02 . Prometheus告警处理
Prometheus告警简介告警能力在Prometheus的架构中被划分成两个独立的部分.如下所示,通过在Prometheus中定义AlertRule(告警规则),Prometheus会周期性的对告 ...
Prometheus告警处理
在Prometheus Server中定义告警规则以及产生告警,Alertmanager组件则用于处理这些由Prometheus产生的告警.Alertmanager即Prometheus体系中告警的统 ...
prometheus告警插件-alertmanager
prometheus本身不支持告警功能,主要通过插件alertmanage来实现告警.AlertManager用于接收Prometheus发送的告警并对于告警进行一系列的处理后发送给指定的用户. pr ...
prometheus告警配置注意事项
global: scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minut ...

随机推荐

JavaDailyReports10_07
动手动脑① 1 package test_1; 2 3 public class Test { 4 5 public static void main(String[] args) { 6 // TO ...
Scriptable Render Pipeline
Scriptable Render Pipeline SRP的核心是一堆API集合,使得整个渲染过程及相关配置暴露给用户,使得用户可以精确地控制项目的渲染流程. SRP API为原有的Unity构件提 ...
sh -s用法
1.基本用法 (1)sh -s 会从标准输入中读取命令,并在子shell中执行 (2)sh -s 后从第一个非 - 开头的参数开始,依次被赋值给子shell的 $1,$2... (3)sh -s 的第 ...
notapai++ 使用小技巧
alt+鼠标右键建实现整体添加字符例: 25001510153394032 25001510153394034 25001510153393963 25001510153392080 25001 ...
使用lua+redis解决发多张券的并发问题
前言公司有一个发券的接口有并发安全问题,下面列出这个问题和解决这个问题的方式. 业务描述这个接口的作用是给会员发多张券码.涉及到4张主体,分别是:用户,券,券码,用户领取记录. 下面是改造前的伪代 ...
多媒体开发（5）&音频特征：声音可以调大一点吗？
基本上,现在常用的声音采样办法是pcm,而对于压缩音频的解码,得到的也pcm数据.这个pcm数据,只是一堆数值,有正有负,看这个值看不出什么花样. 声音采集,采的是什么呢? 采的是声音的强度变化,也是 ...
dig的安装和使用
-bash: dig: command not found 解决办法: yum -y install bind-utils dig www.baid bu.com 查看a记录 dig www.ba ...
os-hackos-3-docker提权
0x00 cewl http://192.168.43.179/websec/爬取页面所有的单词做成字典 hydra -l contact@hacknos.com -P cewl.txt 192.16 ...
Redis 实战 —— 01. Redis 数据结构简介
一些数据库和缓存服务器的特性和功能 P4 名称类型数据存储选项查询类型附加功能 Redis 使用内存存储(in-memory)的非关系数据库字符串.列表.哈希表.集合.有序集合每种数据类型 ...
linux下安装nacos
一.安装 1.下载安装包: https://github.com/alibaba/nacos/releases 2.解压 : tar -xzvf nacos-server-1.2.1.tar.gz 3 ...