CPU触发器:
1)Processor load is too high on {HOST.NAME} {HOST.NAME}上处理器负载太高
触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5
告警等级:警告
2)Disk I/O is overloaded on {HOST.NAME} 磁盘I/O在{HOST.NAME}上重载
触发器表达式:{Zabbix server:system.cpu.util[,iowait].avg(1h)}>30
告警等级:警告
3){HOST.NAME} [CPU Idle]-[< 10%] CPU空闲小于百分之10
触发器表达式:{Zabbix server:system.cpu.util[,idle].count(#5,10,"lt")}=5
告警等级:一般严重
General触发器:
1)Hostname was changed on {HOST.NAME} 主机名被更改
触发器表达式:{Zabbix server:system.hostname.diff(0)}>0
告警等级:信息
2)Host information was changed on {HOST.NAME} 主机信息给更改
触发器表达式:{Zabbix server:system.uname.diff(0)}>0
告警等级:信息
3)HOST.NAME} has just been restarted 重新启动主机
触发器表达式:{Zabbix server:system.uptime.change(0)}<0
告警等级:信息
Keepalived触发器
1){HOST.NAME}keepalived进程宕机,请运维人员确认
触发器表达式:({TRIGGER.VALUE}=0 and {Zabbix server:proc.num[keepalived,,,keepalived].change(0)}<0 and {Zabbix server:proc.num[keepalived,,,keepalived].last(0)}=0) or ({TRIGGER.VALUE}=1 and {Zabbix server:proc.num[keepalived,,,keepalived].last(0)}<>3)
告警等级:严重
Memory触发器
1)Lack of free swap space on {HOST.NAME} 主机上缺少自由交换空间
触发器表达式:{Zabbix server:system.swap.size[,pfree].last(0)}<10
告警等级:警告
2)Lack of available memory on server {HOST.NAME} 主机服务器上缺少可用的内存
触发器表达式:{Zabbix server:vm.memory.size[available].last(0)}<20M
告警等级:一般严重
Security触发器
1)/etc/passwd has been changed on {HOST.NAME} 主机密码文件被更改
触发器表达式:{Zabbix server:vfs.file.cksum[/etc/passwd].diff(0)}>0
告警等级:警告
Processes触发器
1)Too many processes running on {HOST.NAME} 在主机上运行的进程太多
触发器表达式:{Zabbix server:proc.num[,,run].avg(5m)}>30
告警等级:警告
2)Too many processes on {HOST.NAME} 在主机上进程太多
触发器表达式:{Zabbix server:proc.num[].avg(5m)}>1000
告警等级:警告
Performace触发器
1)Processor load is too high on {HOST.NAME} 在主机上处理器负载过高(1分钟)
触发器表达式:{Zabbix server:system.cpu.load[percpu,avg1].avg(5m)}>5
告警等级:警告
OS触发器
1)Configured max number of processes is too low on {HOST.NAME} 主机上配置的最大进程数太低
触发器表达式:{Zabbix server:kernel.maxproc.last(0)}<256
告警等级:信息
2)Configured max number of opened files is too low on {HOST.NAME} 在主机上配置的最大打开文件数太低
触发器表达式:{Zabbix server:kernel.maxfiles.last(0)}<1024
告警等级:信息

出现报警首先看
内存瓶颈 free 查看内存使用情况
vmstat 10(间隔时间)100(监控次数) 查看swap in/out 详细定位是否存在性能瓶颈
sar -r 3 查看内存使用情况不包括swap情况
CPU瓶颈 top -H 按照CPU消耗高低排序
ps -Lp 进程号CU 查看某个进程的CPU消耗排序
cat /proc/cpuinfo|grep 'processor'|wc -l 查看cpu核数
top 查看cpu总体消耗,包括分项消耗如user,system,idle,nice等消耗
sar -u 3(间隔时间) 查看cpu总体消耗占比
top -b -n 1 | awk ‘{if (NR<=7)print;else if($8==”D”){print;count++}}END{print “Total status D:”count}’ 计算在cpu load里面的uninterruptedsleep的任务数量

网络瓶颈 cat /var/log/messages 查看内核日志,查看是否丢包
watch more /proc/net/dev 用于定位丢包,错包情况,以便看网络瓶颈
netstat -na|grep ESTABLISHED|wc -l 查看tcp连接成功状态的数量
netstat -na|awk’{print $6}’|sort |uniq -c |sort -nr 看tcp各个状态数量
netstat -i 查看网络错误
ss state ESTABLISHED| wc -l 更高效地统计tcp连接状态为ESTABLISHED的数量
cat /proc/net/snmp 查看和分析240秒内网络包量,流量,错包,丢包 用于计算重传率tcpetr=RetransSegs/OutSegs
ping ip 测试网络性能
traceroute ip 查看路由经过的地址 常用于定位网络在各个路由区段的耗时
dig 域名 查看域名解析地址
dmesg 查看系统内核日志

磁盘瓶颈 iostat -x -k -d 1 详细列出磁盘的读写情况 当看到I/O等待时间所占CPU时间的比重很高的时候,首先要检查的就是机器是否正在大量使用交换空间,同时关注iowait占比cpu的消耗是否很大,如果大说明磁盘存在大的瓶颈,同时关注await,表示磁盘的响应时间以便小于5ms

                  iotop                                       查看哪个进程在大量读取IO 一般先通过iostat查看是否存在io瓶颈,再定位哪个进程在大量读取IO
df -hl 查看磁盘剩余空间
du -sh 查看磁盘使用了多少空间

应用瓶颈 ps -ef | grep java 查看某个进程的id号 
ps -ef | grep httpd| wc -l 查看特定进程的数量
cat .log | grep Exception | wc -l 统计日志文件中包含特定异常数量
jstack -l pid 用于查看线程是否存在死锁 
awk’{print $8}’ 2017-05-22-access_log|egrep ’301|302′| wc -l 统计log中301、302状态码的行数,$8表示第八列是状态码,可以根据实际情况更改 常用于应用故障定位
grep ‘wholesaleProductDetailNew’ cookie_log | awk ‘{if($10==”200″)}’print}’ | awk ‘print $12′ | more 打印包含特定数据的12列数据 
grep “2017:05:22″ cookielog | awk ‘($12>0.3){print $12 “–” $8}’ | sort > 目录地址 对apache或者nginx访问log进行响应时间排序,$12表示cookie log中的12列表示响应时间 
grep -v ‘HTTP/1.1″ 200′ 取出非200响应码的URL
pgm -A -f 应用集群名称 “grep “’301 ‘ log文件地址 | wc -l 查看整个集群的log中301状态码的数量
ps -efL | grep [PID] | wc -l 查看某个进程创建的线程数
find / -type f -name “*.log” | xargs grep “ERROR” 统计所有的log文件中,包含Error字符的行 这个在排查问题过程中比较有用
-XX:HeapDumpPath=/home/logs -Xloggc:/home/log/gc.log -XX:+PrintGCDetails -XX:+PrintGCDateStamps 在Java启动参数中加入,打印gc日志
-server -Xms4000m -Xmx4000m -Xmn1500m -Xss256k -XX:PermSize=340m -XX:MaxPermSize=340m -XX:+UseConcMarkSweepGC 调整JVM堆大小 xss是栈大小

zabbix监控常见系统报错的更多相关文章

  1. SAP QA32 做使用决策系统报错:分类数据的不一致性=>交易终止

    SAP QA32 做使用决策系统报错:分类数据的不一致性=>交易终止 QA32,对如下检验批做处理,系统报错, 试图使用MSC3N去显示这个批次主数据,同样报错, 原因在于批次的分类数据产生后, ...

  2. Linux 系统报错 rcu_preempt detected stalls on CPUs/tasks

    说在前面的一些废话: 这是什么错误我不知道,为什么出现我不知道! 那为什么还要把他写出来了,只是因为这个错误遇到了,而且浪费了我很多时间和精力. 故事留给自己看,解决办法就是,重新升级一下Linux系 ...

  3. PHP+mysql系统报错:PHP message: PHP Warning: Unknown: Failed to write session data (files)

    PHP+mysql系统报错:PHP message: PHP Warning:  Unknown: Failed to write session data (files) 故障现象,后台页面点击没有 ...

  4. linux运维常见英文报错中文翻译(菜鸟必知)

    linux常见英文报错中文翻译(菜鸟必知) 1.command not found  命令没有找到 2.No such file or directory  没有这个文件或目录 3.Permissio ...

  5. 由于更换硬盘没有删除系统自启动读取挂载硬盘导致系统报错:fsck.ext4 unable to resolve 'UUID=a4a7a0f7-b54f-4774-9fb1'

    由于更换硬盘没有删除系统自启动读取挂载硬盘导致系统报错:fsck.ext4 unable to resolve 'UUID=a4a7a0f7-b54f-4774-9fb1' 此时进入系统已root模式 ...

  6. Linux常见英文报错中文翻译(菜鸟必知)

    Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...

  7. Linux常见英文报错中文翻译

    Linux常见英文报错中文翻译(菜鸟必知) 1.command not found 命令没有找到 2.No such file or directory 没有这个文件或目录 3.Permission ...

  8. SAP QA32试图做UD,系统报错-工厂 BTYC中的 QM 基选设置需要维护

    SAP QA32 试图做UD,系统报错 - 工厂 BTYC 中的 QM 基选设置需要维护 - 检验批 10000062593,试图做使用决策,系统报错, 工厂 BTYC 中的 QM 基选设置需要维护 ...

  9. Zabbix监控win10系统

    Zabbix监控win10系统 1. 在win10下安装zabbix-agent zabbix-agent下载地址:https://www.zabbix.com/downloads/4.2.6/zab ...

随机推荐

  1. kvm虚拟机相关

    一.虚拟机与宿主机鼠标不同步问题: https://blog.csdn.net/u012255731/article/details/53006195 先关闭虚拟机,想要修改鼠标和宿主机界面同步方法如 ...

  2. Android开发中常见的设计模式(一)——单例模式

    首先了解一些单例模式的概念. 确保某一个类只有一个实例,而且自行实例化并向整个系统提供这个实例. 这样做有以下几个优点 对于那些比较耗内存的类,只实例化一次可以大大提高性能,尤其是在移动开发中. 保持 ...

  3. ASP.NET前台代码绑定后台变量方法总结

    经常会碰到在前台代码中要使用(或绑定)后台代码中变量值的问题.一般有<%= str%>和<%# str %>两种方式,这里简单总结一下.如有错误或异议之处,敬请各位指教. 一方 ...

  4. 字符串流stringReader

    String info ="good good study day day up";StringReader stringReader = new StringReader(inf ...

  5. delphi treeview checkbox

    delphi treeview checkbox 最新版Berlin还没有带checkbox的treeview?

  6. 微信小程序request请求封装

    var app = getApp(); function request(url,postData,doSuccess,doFail,doComplete){ var host = getApp(). ...

  7. js 迭代 方法

    在js 中,有一些方法, 可以很方便的遍历出数据,不用进行for循环就可以,是怎么实现的呢? 例如:在javascript 中的forEach 方法:打印一个数组的索引和项目: 1. forEach  ...

  8. C语言复习:文件操作

    文件操作专题 C语言文件读写概念 文件分类 按文件的逻辑结构: 记录文件:由具有一定结构的记录组成(定长和不定长) 流式文件:由一个个字符(字节)数据顺序组成 按存储介质: 普通文件:存储介质文件(磁 ...

  9. UNITY2018.3 在editor下运行时new memoryprofiler显示 shader占用内存很大的问题在安卓上并没有看到

    在安卓机上完全看不到shader占用的内存,但问题是,shader在安卓上真的几乎不占用内存了?(我们的游戏中只使用了mobile下的shader) 参考下面这个文章,说是真机上也有: Unity3D ...

  10. vue项目分辨率

    vue项目分辨率写在这里: