k8s全方位监控中-常用rules配置

[root@VM_0_48_centos prometheus]# cat alertmanager-configmap.yaml

apiVersion: v1

kind: ConfigMap

metadata:

  name: alertmanager-config

  namespace: kube-system

  labels:

    kubernetes.io/cluster-service: "true"

    addonmanager.kubernetes.io/mode: EnsureExists

data:

  alertmanager.yml: |

    global:

      resolve_timeout: 5m

      smtp_smarthost: 'smtp.163.com:25'

      smtp_from: 'xjq18125012766@163.com'

      smtp_auth_username: 'xjq18125012766@163.com'

      smtp_auth_password: 'test123'

      smtp_require_tls: false  

    route:

      group_by: ['alertname']

      group_wait: 10s

      group_interval: 30s

      repeat_interval: 10s

      receiver: 'mail'

    receivers:

      - name: 'mail'

        email_configs:

        - to: '2654071080@qq.com'

[root@VM_0_48_centos prometheus]# cat  prometheus-rules.yaml

apiVersion: v1

kind: ConfigMap

metadata:

  name: prometheus-rules-config

  namespace: kube-system

  labels:

    kubernetes.io/cluster-service: "true"

    addonmanager.kubernetes.io/mode: EnsureExists

data:

  pods.yml: |

    groups:

    - name: pod.rules

      rules:

      - alert: InstanceDown

        expr: up == 0

        for: 2m

        labels:

          severity: error

        annotations:

          summary: "监控采集器{{ $labels.instance }}停止工作"

          value: "{{ $value }}"

      - alert: PodSvcDown

        expr: probe_success == 0

        for: 1m

        labels:

          severity: error

        annotations:

          summary: "容器代理服务{{ $labels.instance }}停止工作"

          value: "{{ $value }}"

      - alert: MysqlCon

        expr: MysqlCon_metric > 40

        for: 1m

        labels:

          severity: warning

        annotations:

          summary: "mysql连接数过高"

          value: "{{ $value }}"

      - alert: PodCpuUsage

        expr: sum by(pod_name, namespace) (rate(container_cpu_usage_seconds_total{image!=""}[1m])) * 100 > 80

        for: 5m

        labels:

          severity: warning

        annotations:

          summary: "容器ns: {{ $labels.namespace }} | pod: {{ $labels.pod_name }} CPU使用率超过80%"

          value: "{{ $value }}"

      - alert: PodMemoryUsage

        expr: sum(container_memory_rss{image!=""}) by(pod_name, namespace) / sum(container_spec_memory_limit_bytes{image!=""}) by(pod_name, namespace) * 100 != +inf > 80

        for: 5m

        labels:

          severity: warning

        annotations:

          summary: "容器ns: {{ $labels.namespace }} | pod: {{ $labels.pod_name }} 内存使用率超过80%"

          value: "{{ $value }}"

      - alert: PodFailed

        expr: sum (kube_pod_status_phase{phase="Failed"}) by (pod,namespace) > 0

        for: 1m

        labels:

          severity: error

        annotations:

          summary: "容器ns: {{ $labels.namespace }} | pod: {{ $labels.pod }} pod status is Failed"

          value: "{{ $value }}"

      - alert: PodPending

        expr: sum (kube_pod_status_phase{phase="Pending"}) by (pod,namespace) > 0

        for: 1m

        labels:

          severity: error

        annotations:

          summary: "容器ns: {{ $labels.namespace }} | pod: {{ $labels.pod }} status is Pending"

          value: "{{ $value }}"

      - alert: PodNetworkReceive

        expr: sum (rate (container_network_receive_bytes_total{image!="",name=~"^k8s_.*"}[5m]) /1000) by (pod_name,namespace)  > 30000

        for: 5m

        labels:

          severity: warning

        annotations:

          summary: "容器ns: {{ $labels.namespace }} | pod: {{ $labels.pod_name }} 接受到的网络入流量大于30MB/s"

          value: "{{ $value }}K/s"                

      - alert: PodNetworkTransmit

        expr: sum (rate (container_network_transmit_bytes_total{image!="",name=~"^k8s_.*"}[5m]) /1000) by (pod_name,namespace) > 30000

        for: 5m

        labels:

          severity: warning

        annotations:

          summary: "容器ns: {{ $labels.namespace }} | pod: {{ $labels.pod_name }} 传输的网络出流量大于30MB/s"

          value: "{{ $value }}K/s"

      - alert: PodRestart

        expr: sum (changes (kube_pod_container_status_restarts_total[1m])) by (pod,namespace) > 0

        for: 5s

        labels:

          severity: warning

        annotations:

          summary: "容器ns: {{ $labels.namespace }} | pod: {{ $labels.pod }} pod is restart"

          value: "{{ $value }}"

  nodes.yml: |

    groups:

    - name: node.rules

      rules:

      - alert: NodeFilesystemUsage

        expr: 100 - (node_filesystem_free_bytes{device="rootfs"} / node_filesystem_size_bytes{device="rootfs"} * 100) > 85

        for: 1m

        labels:

          severity: warning

        annotations:

          summary: "主机 {{ $labels.instance }} : {{ $labels.mountpoint }} 分区使用率超过80%"

          value: "{{ $value }}"

      - alert: NodeMemoryUsage

        expr: 100 - (node_memory_MemFree_bytes+node_memory_Cached_bytes+node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 > 80

        for: 5m

        labels:

          severity: warning

        annotations:

          summary: "主机 {{ $labels.instance }} 内存使用率超过80%"

          value: "{{ $value }}"

      - alert: NodeCPUUsage

        expr: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100) > 80

        for: 5m

        labels:

          severity: warning

        annotations:

          summary: "主机 {{ $labels.instance }} CPU使用率超过80%"

          value: "{{ $value }}"

2、展示结果

k8s全方位监控中-常用rules配置的更多相关文章

前端Vue中常用rules校验规则
前提在 vue开发中,难免遇到各种表单校验,这里整理了网络上和自己平时高频率用到的一些校验方法.如果错误欢迎指出,后期不断补充更新. 1.是否合法IP地址 export function valid ...
Apache运维中常用功能配置笔记梳理
Apache 是一款使用量排名第一的 web 服务器,LAMP 中的 A 指的就是它.由于其开源.稳定.安全等特性而被广泛使用.下边记录了使用 Apache 以来经常用到的功能,做此梳理,作为日常运维 ...
k8s全方位监控-prometheus-alertmanager部署-配置第一条告警邮件
1.alertmanager告警插件部署 [root@VM_0_48_centos prometheus]# cat alertmanager-pvc.yaml apiVersion: v1 kind ...
k8s全方位监控-prometheus-配置文件介绍以及基于文件服务发现
1.scrape_configs 参数介绍 # 默认的全局配置 global: scrape_interval: 15s # 采集间隔15s,默认为1min一次 evaluation_interval ...
k8s全方位监控-prometheus部署
1.k8s 监控资源对象 2. prometheus简单介绍. https://github.com/prometheus •多维数据模型:由度量名称和键值对标识的时间序列数据•PromSQL:一种灵 ...
k8s全方位监控 -prometheus实现短信告警接口编写（python）
1.prometheus短信告警接口实现(python)源码如下: import subprocess from flask import Flask from flask import reques ...
maven的pom.xml配置文件中常用的配置标签解析（2018-03-13）
来自:https://www.cnblogs.com/Nick-Hu/p/7288198.html 拿过来记录下 <project xmlns="http://maven.apache ...
vue-cli3.x中的webpack配置，优化及多页面应用开发
官方文档 vue-cli3以下版本中,关于webpack的一些配置都在config目录文件中,可是vue-cli3以上版本中,没有了config目录,那该怎么配置webpack呢? 3.x初始化项目后 ...
Production环境中iptables常用参数配置
production环境中iptables常用参数配置作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我相信在实际生产环境中有很多运维的兄弟跟我一样,很少用到iptables的这个 ...

随机推荐

linux实时监控并实时备份数据(rsync)
目录一:rsync实时监控备份流程 1.安装rsync(服务端与客服端)守护进程模式 2.修改配置文件(服务端) 3.解析配置内容 4.创建系统用户 5.创建密码文件 6.授权(必须授权为600 ...
使用Hot Chocolate和.NET 6构建GraphQL应用(3) —— 实现Query基础功能
系列导航使用Hot Chocolate和.NET 6构建GraphQL应用文章索引需求在本文中,我们通过一个简单的例子来看一下如何实现一个最简单的GraphQL的接口. 实现引入Hot Cho ...
ElementUI常遇到的一些问题
一.form 下面只有一个 input 时回车键刷新页面原因是:触发了表单默认的提交行为,给el-form 加上 @submit.native.prevent 就行了. <el-form in ...
打家劫舍(java语言描述(动态规划))
题目描述: 你是一个专业的小偷,计划偷窃沿街的房屋.每间房内都藏有一定的现金,影响你偷窃的唯一制约因素就是相邻的房屋装有相互连通的防盗系统,如果两间相邻的房屋在同一晚上被小偷闯入,系统会自动报警. 给 ...
检测当前编译器支持c++版本
if (__cplusplus > 201703L) std::cout << "C++2a\n"; else if (__cplusplus == 201703 ...
使用OpenFileDialog打开文件和使用FolderBrowserDialog选定文件夹
选定文件夹 string foldPath = ""; FolderBrowserDialog dialog = new FolderBrowserDialog(); dialog ...
JavaBeginnersTutorial 中文系列教程·翻译完成
原文:JavaBeginnersTutorial 协议:CC BY-NC-SA 4.0 欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远. 在线阅读 ApacheCN 学习资源目录 ...
Nginx 配置 HTTPS 服务器
Nginx 配置 HTTPS 服务器 Chrome 浏览器地址栏标志着 HTTPS 的绿色小锁头从心理层面上可以给用户专业安全的心理暗示,本文简单总结一下如何在 Nginx 配置 HTTPS 服务器, ...
MySQL 1093 - You can't specify target table 'sc' for update in FROM clause
错误代码如下: #(8) 把"邓维杰"同学的成绩全部删除. SELECT * FROM sc WHERE EXISTS(SELECT * FROM student WHERE st ...
还在做廉价的劳动力？部署PXE实现Kickstart无人值守安装
搭建PXE实现Kickstart无人值守安装 1.搭建PXE远程安装服务器 2.实现kicstart无人值守安装 1.PXE介绍及搭载: PXE是有Intel公司开发的网络引导技术,工作在Client ...

k8s全方位监控中-常用rules配置

k8s全方位监控中-常用rules配置的更多相关文章

随机推荐

热门专题