zabbix 监控openshift pod状态

需求：

pod中的容器重启一次则报警通知

pod非Runing 状态则报警

pod中的容器非true状态则报警

三个需求其实是有点重叠的

pod重启期间pod肯定会有非Running状态，只要有重启报警那么pod非Runing也会报警，pod非Runing容器状态肯定非true也会报警

所有报警设置为：

pod重启一次就报警

pod非Runing and 容器非true (#3) and pod非删除 =报警

zabbix server中建一个模板

<?xml version="1.0" encoding="UTF-8"?>

<zabbix_export>

    <version>3.2</version>

    <date>2017-11-23T07:48:53Z</date>

    <groups>

        <group>

            <name>OpenShift</name>

        </group>

    </groups>

    <templates>

        <template>

            <template>OC Pods</template>

            <name>OC Pods</name>

            <description/>

            <groups>

                <group>

                    <name>OpenShift</name>

                </group>

            </groups>

            <applications>

                <application>

                    <name>restartCount</name>

                </application>

                <application>

                    <name>RunningStatus</name>

                </application>

            </applications>

            <items/>

            <discovery_rules>

                <discovery_rule>

                    <name>OC Pods Discover</name>

                    <type>0</type>

                    <snmp_community/>

                    <snmp_oid/>

                    <key>oc.pod.discover</key>

                    <delay>300</delay>

                    <status>1</status>

                    <allowed_hosts/>

                    <snmpv3_contextname/>

                    <snmpv3_securityname/>

                    <snmpv3_securitylevel>0</snmpv3_securitylevel>

                    <snmpv3_authprotocol>0</snmpv3_authprotocol>

                    <snmpv3_authpassphrase/>

                    <snmpv3_privprotocol>0</snmpv3_privprotocol>

                    <snmpv3_privpassphrase/>

                    <delay_flex/>

                    <params/>

                    <ipmi_sensor/>

                    <authtype>0</authtype>

                    <username/>

                    <password/>

                    <publickey/>

                    <privatekey/>

                    <port/>

                    <filter>

                        <evaltype>0</evaltype>

                        <formula/>

                        <conditions/>

                    </filter>

                    <lifetime>7</lifetime>

                    <description/>

                    <item_prototypes>

                        <item_prototype>

                            <name>Pod {#POD_NAME} Restarts</name>

                            <type>0</type>

                            <snmp_community/>

                            <multiplier>0</multiplier>

                            <snmp_oid/>

                            <key>oc.pod.status[{#POD_NAME},restarts]</key>

                            <delay>30</delay>

                            <history>30</history>

                            <trends>0</trends>

                            <status>0</status>

                            <value_type>4</value_type>

                            <allowed_hosts/>

                            <units/>

                            <delta>0</delta>

                            <snmpv3_contextname/>

                            <snmpv3_securityname/>

                            <snmpv3_securitylevel>0</snmpv3_securitylevel>

                            <snmpv3_authprotocol>0</snmpv3_authprotocol>

                            <snmpv3_authpassphrase/>

                            <snmpv3_privprotocol>0</snmpv3_privprotocol>

                            <snmpv3_privpassphrase/>

                            <formula>1</formula>

                            <delay_flex/>

                            <params/>

                            <ipmi_sensor/>

                            <data_type>0</data_type>

                            <authtype>0</authtype>

                            <username/>

                            <password/>

                            <publickey/>

                            <privatekey/>

                            <port/>

                            <description/>

                            <inventory_link>0</inventory_link>

                            <applications>

                                <application>

                                    <name>restartCount</name>

                                </application>

                            </applications>

                            <valuemap/>

                            <logtimefmt/>

                            <application_prototypes/>

                        </item_prototype>

                        <item_prototype>

                            <name>Pod {#POD_NAME} Running</name>

                            <type>0</type>

                            <snmp_community/>

                            <multiplier>0</multiplier>

                            <snmp_oid/>

                            <key>oc.pod.status[{#POD_NAME},running]</key>

                            <delay>30</delay>

                            <history>30</history>

                            <trends>0</trends>

                            <status>0</status>

                            <value_type>4</value_type>

                            <allowed_hosts/>

                            <units/>

                            <delta>0</delta>

                            <snmpv3_contextname/>

                            <snmpv3_securityname/>

                            <snmpv3_securitylevel>0</snmpv3_securitylevel>

                            <snmpv3_authprotocol>0</snmpv3_authprotocol>

                            <snmpv3_authpassphrase/>

                            <snmpv3_privprotocol>0</snmpv3_privprotocol>

                            <snmpv3_privpassphrase/>

                            <formula>1</formula>

                            <delay_flex/>

                            <params/>

                            <ipmi_sensor/>

                            <data_type>0</data_type>

                            <authtype>0</authtype>

                            <username/>

                            <password/>

                            <publickey/>

                            <privatekey/>

                            <port/>

                            <description/>

                            <inventory_link>0</inventory_link>

                            <applications>

                                <application>

                                    <name>RunningStatus</name>

                                </application>

                            </applications>

                            <valuemap/>

                            <logtimefmt/>

                            <application_prototypes/>

                        </item_prototype>

                        <item_prototype>

                            <name>Pod {#POD_NAME} Running True</name>

                            <type>0</type>

                            <snmp_community/>

                            <multiplier>1</multiplier>

                            <snmp_oid/>

                            <key>oc.pod.status[{#POD_NAME},running_true]</key>

                            <delay>30</delay>

                            <history>30</history>

                            <trends>365</trends>

                            <status>0</status>

                            <value_type>3</value_type>

                            <allowed_hosts/>

                            <units/>

                            <delta>0</delta>

                            <snmpv3_contextname/>

                            <snmpv3_securityname/>

                            <snmpv3_securitylevel>0</snmpv3_securitylevel>

                            <snmpv3_authprotocol>0</snmpv3_authprotocol>

                            <snmpv3_authpassphrase/>

                            <snmpv3_privprotocol>0</snmpv3_privprotocol>

                            <snmpv3_privpassphrase/>

                            <formula>1</formula>

                            <delay_flex/>

                            <params/>

                            <ipmi_sensor/>

                            <data_type>0</data_type>

                            <authtype>0</authtype>

                            <username/>

                            <password/>

                            <publickey/>

                            <privatekey/>

                            <port/>

                            <description/>

                            <inventory_link>0</inventory_link>

                            <applications>

                                <application>

                                    <name>RunningStatus</name>

                                </application>

                            </applications>

                            <valuemap/>

                            <logtimefmt/>

                            <application_prototypes/>

                        </item_prototype>

                    </item_prototypes>

                    <trigger_prototypes>

                        <trigger_prototype>

                            <expression>{OC Pods:oc.pod.status[{#POD_NAME},running].str(Running_true)}=0

and

{OC Pods:oc.pod.status[{#POD_NAME},running].str(Pod deleted)}=0

and

{OC Pods:oc.pod.status[{#POD_NAME},running_true].last(#5)}=0</expression>

                            <recovery_mode>0</recovery_mode>

                            <recovery_expression/>

                            <name>Pod {#POD_NAME} No Running</name>

                            <correlation_mode>0</correlation_mode>

                            <correlation_tag/>

                            <url/>

                            <status>0</status>

                            <priority>1</priority>

                            <description/>

                            <type>0</type>

                            <manual_close>1</manual_close>

                            <dependencies/>

                            <tags/>

                        </trigger_prototype>

                        <trigger_prototype>

                            <expression>{OC Pods:oc.pod.status[{#POD_NAME},restarts].str(Warning)}=1</expression>

                            <recovery_mode>1</recovery_mode>

                            <recovery_expression>{OC Pods:oc.pod.status[{#POD_NAME},restarts].str(Warning,#3)}=0</recovery_expression>

                            <name>Pod {#POD_NAME} restarted Warning</name>

                            <correlation_mode>0</correlation_mode>

                            <correlation_tag/>

                            <url/>

                            <status>0</status>

                            <priority>1</priority>

                            <description/>

                            <type>0</type>

                            <manual_close>1</manual_close>

                            <dependencies/>

                            <tags/>

                        </trigger_prototype>

                    </trigger_prototypes>

                    <graph_prototypes/>

                    <host_prototypes/>

                </discovery_rule>

            </discovery_rules>

            <httptests/>

            <macros/>

            <templates/>

            <screens/>

        </template>

    </templates>

</zabbix_export>

模板文件

新建一个自动发现规则，有三个监控项对于上面说的三个需求

zabbix agent

在配置文件末尾中加入

# vim zabbix_agentd.conf

UserParameter=oc.pod.discover,/data/app/zabbix/etc/oc_pod_discover.sh
UserParameter=oc.pod.status[*],/data/app/zabbix/etc/oc_pod_monitor.sh $1 $2

自动发现脚本

# vim oc_pod_discover.sh

#!/bin/bash

TOKEN="123456"

ENDPOINT="www.oc.domain.cn:8443"

WORKSPACE="/data/tmp/oc_monitor"

mkdir -p $WORKSPACE

#获取所有pod只保留pod name

curl -k \

  -H "Authorization: Bearer $TOKEN" \

  -H 'Accept: application/json' \

  https://$ENDPOINT/api/v1/pods 2>/dev/null  > $WORKSPACE/all_pods.json

Pod_Name=(`cat $WORKSPACE/all_pods.json |jq -r '.items | .[] | .metadata | .name' |grep -v build |grep -v deploy`)

#转换为json格式

printf "{\n"

printf '\t"data":[\n'

for ((i=;i<${#Pod_Name[@]};i++))

do

        printf '\t\t{\n'

        num=$(echo $((${#Pod_Name[@]}-)))

        if [ "$i" == ${num} ];

        then

                printf "\t\t\t\"{#POD_NAME}\":\"${Pod_Name[$i]}\"}\n"

        else

                printf "\t\t\t\"{#POD_NAME}\":\"${Pod_Name[$i]}\"},\n"

        fi

done

printf "\t]\n"

printf "}\n"

监控脚本

# vim oc_pod_monitor.sh

#!/bin/bash

TOKEN=""

ENDPOINT="www.oc.domain.cn:8443"

POD_NAME="$1"

Monitoring_type="$2"

WORKSPACE="/data/tmp/oc_monitor"

mkdir -p $WORKSPACE

#通过pod name获得pod所在的namespace5分钟更新一次

NAMESPACE="`cat $WORKSPACE/all_pods.json |jq -r '.items |.[] |.metadata |.name,.namespace' |grep -A1 $POD_NAME |grep -v $POD_NAME`"

#验证pod是否存在

if [ ! -n "$NAMESPACE" ]; then

  if [ "$Monitoring_type" = "running_true" ]; then

    echo ""

    exit

  fi

  echo "Pod deleted"

  exit

fi

#获取pod状态数据

if [ ! -f "$WORKSPACE/${POD_NAME}.status" ]; then

  if [ "$Monitoring_type" = "running_true" ]; then

    echo ""

    exit

  fi

  echo "New Pod"

  exit

fi

Pod_Status="`cat $WORKSPACE/${POD_NAME}.status`"

#验证容器是否在Pending状态

Pending="`echo "$Pod_Status" |jq -r '.status |.phase'`"

if [ "$Pending" = "Pending" ]; then

  if [ "$Monitoring_type" = "running_true" ]; then

    echo ""

    exit

  fi

  echo "Pending"

  exit

fi

#选择要获取的数据

case $Monitoring_type in

   restarts)#监控pod是否重启过

     #获取pod状态数据写到文件里面可供所有项目调用

     curl -k \

       -H "Authorization: Bearer $TOKEN" \

       -H 'Accept: application/json' \

       https://${ENDPOINT}/api/v1/namespaces/$NAMESPACE/pods/$POD_NAME/status 2>/dev/null > $WORKSPACE/${POD_NAME}.status

       find /data/tmp/oc_monitor/ -type f -mtime + -name "*" -exec rm -f {} \;

     #获取pod的状态只保留restartCount的值

     ##获取上次的值

     A_line=`sed -n 1p $WORKSPACE/${POD_NAME}.restartCount`

     B_line_null="`sed -n 2p $WORKSPACE/${POD_NAME}.restartCount`"

     if [ ! -n "$B_line_null" ]; then  #处理有两个restartCount值的pod

       B_line=""

     else

       B_line=`sed -n 2p $WORKSPACE/${POD_NAME}.restartCount`

     fi

     Last_state=`expr $A_line + $B_line`

     ##

     ##获取本次的值

     echo "$Pod_Status" |jq -r '.status |.containerStatuses |.[] |.restartCount' > $WORKSPACE/${POD_NAME}.restartCount

     A_line=`sed -n 1p $WORKSPACE/${POD_NAME}.restartCount`

     B_line_null="`sed -n 2p $WORKSPACE/${POD_NAME}.restartCount`"

     if [ ! -n "$B_line_null" ]; then  #处理有两个restartCount值的pod

       B_line=""

       else

       B_line=`sed -n 2p $WORKSPACE/${POD_NAME}.restartCount`

     fi

     Current_state=`expr $A_line + $B_line`

     ##

     #对比本次拿到的restartCount值与上此的restartCount值

     if [ "$Current_state" -gt "$Last_state" ]; then

       Restart_status="Warning restart_count=$Current_state"

     else

       Restart_status="Normal restart_count=$Current_state"

     fi

     echo "$Restart_status"

  ;;

   running)#监控pod的运行状态和容器的状态返回字符串

     if [ ! -n "$Pod_Status" ]; then

       echo "New Pod"

       exit

       fi

     running_status=`echo "$Pod_Status" |jq -r '.status |.phase'`

     Container_status="`echo "$Pod_Status" |jq -r '.status |.containerStatuses |.[] |.ready' |grep false`"

     if [ ! -n "$Container_status" ]; then

        Container_status="_true"

     else

        Container_status="_false"

     fi

     echo "${running_status}${Container_status}"

  ;;

   running_true)#监控pod中的容器运行状态返回数字

     if [ ! -n "$Pod_Status" ]; then

       echo "New Pod"

       exit

       fi

     Container_status="`echo "$Pod_Status" |jq -r '.status |.containerStatuses |.[] |.ready' |grep false`"

     if [ ! -n "$Container_status" ]; then

        Container_status="true"

     else

        Container_status="false"

     fi

     if [ "$Container_status" = "true" ]; then

        echo ""

     else

        echo ""

     fi

  ;;

   *)

     echo "Error parameters"

     exit

  ;;

esac

zabbix 监控openshift pod状态的更多相关文章

zabbix监控DELL服务器硬件状态
zabbix监控DELL服务器硬件状态登录dell服务的管理页面默认用户名:root 密码:calvin 服务器开放snmp信息,开启完应用 Zabbix服务器导入dell监控硬件模板验证 sn ...
zabbix监控nginx连接状态(转)
zabbix监控nginx zabbix可以监控nginx的状态,关于一个服务的状态可以查看服务本身的状态(版本号.是否开启),还应该关注服务能力(例如以nginx的负载效果:连接数.请求数和句柄数) ...
ZABBIX监控mysql主从状态
模板如下 <zabbix_export> <version>3.4</version> <date>2018-11-30T08:28:28Z</d ...
zabbix监控docker容器状态
前言:前段时间在部署zabbix,有个需求就是需要监控容器的状态也就是cpu 内存 io的占用,于是就自己写了一个脚本,以及模板,在这里分享一下嘿嘿 : ) 废话我也就不多说,直接开始首选,za ...
zabbix 监控wind登录状态
参考博文:http://blog.51cto.com/qicheng0211/1694583 需求:监控win 2008 的用户登录状态,无论用户登录成功与否都要告警(也可以刷选指定用户.指定时间内) ...
contos7 使用zabbix监控物理磁盘状态实例
一.系统环境: 物理机:dell R640 操作系统:centos7 二.安装MegaCli 监控主要是通过MegaCli 软件获取到物理主机的read及硬盘相关状态信息.然后通过zabbix的自定义 ...
zabbix监控nginx日志状态码
监控需求监控Nginx常见的状态码并对其进行监控,对常见的错误状态码创建相对应的触发器以下按照分钟对数据进行抓取 Zabbix_Agentd创建监控脚本 1)创建脚本之前核对Nginx日志格式我这里 ...
Zabbix监控mysql主从复制状态
原理 mysql slave show slave status\G 在输出信息中查看I/O线程和SQL线程的状态值(YES为正常,NO为错误) Slave_IO_Running: Yes Slave ...
使用zabbix监控mariadb性能状态
0x01 前言 zabbix内置Mysql的监控模版,因为mariadb和Mysql两者的相关性,所以这个模版也能用在mariadb services上. 0x02 Mysql 首先要在mariadb ...

随机推荐

springCloud学习之服务注册和发现
leader让完一个简单的springcloud的demo,自己之前听说过springcloud微服务,但是没有重视.现在网上查各种资料,但是感觉不怎么样啊,还是不会,明天晚上把代码给他看,天啦,这个 ...
C语言迷题：有符号数与无符号数的问题（转）
https://my.oschina.net/kelvinfang/blog/134725
解决sudo: npm: command not found
sudo ln -s /opt/node-v11.4.0/bin/npm /usr/bin/npm sudo ln -s /opt/node-v11.4.0/bin/node /usr/bin/nod ...
终端：Xcode模拟器上安装.app方法
有的时候,我们可能需要将别人的Xcode运行之后的程序包(xxx.app)安装在自己的模拟器上,如下我将介绍如何通过终端来安装. 实现获取自己Xcode生成的xxx.app steps 1:在工程d ...
[dpdk] dpdk --lcores参数
dpdk程序的命令行参数 --lcores可以设置lcore到CPU processer的多对多映射关系. 这样既可以提供CPU processor的伸缩扩展,同时也保证了EAL thread的运行环 ...
swf 文件解析
public class TagTypes { // Flash 1 tags public static const TAG_END:uint = 0; ...
HBase 笔记
参考资料:HBase权威指南一行由若干列组成,若干列又构成一个列族一个列族的所有列存储在同一个底层的存储文件里,这个文件叫HFile列族的数量有限制:一个列族里列的数量没限制谓词删除:例如允许用户只 ...
python找出数组中第二大的数
#!usr/bin/env python #encoding:utf-8 ''''' __Author__:沂水寒城功能:找出数组中第2大的数字 ''' def find_Second_large_ ...
Shell基本介绍和使用
Shell 教程 Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁.Shell 既是一种命令语言,又是一种程序设计语言. Shell 是指一种应用程序,这个应用程序提供了一个 ...
JS实现倒计时(天数,时,分,秒)
<!DOCTYPE html> <html> <head> <meta charset="utf-8" > <titl ...

zabbix 监控openshift pod状态

需求：

zabbix server中建一个模板

zabbix agent

zabbix 监控openshift pod状态的更多相关文章

随机推荐

热门专题