首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
zabbix在运维方面的监控方法小结
】的更多相关文章
zabbix在运维方面的监控方法小结
一些经典的运维问题: .配置文件中有空格,导致服务端下发的域名出现问题 .修改数据库没有备份 .修改dnspod问题,指向了错误的IP地址 .时间不一致,需要重新设定时区 .启动程序必须是最新版本,如:.jar 有可能没有杀死老版本的程序 .ssl证书更换(cdn,slb,nginx,tomcat,haproxy,upyun,qiniu) .域名解析,经过通用高防以后无法获取客户端的真实IP地址,获取的全部是高防的IP地址 .每个业务应用都需要至少双实例(避免单点问题) slb,nginx,ja…
运维架构服务监控Open-Falcon
一. 介绍 监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事前及时预警发现故障,事后提供翔实的数据用于追查定位问题.监控系统作为一个成熟的运维产品,业界有很多开源的实现可供选择.当公司刚刚起步,业务规模较小,运维团队也刚刚建立的初期,选择一款开源的监控系统,是一个省时省力,效率最高的方案.之后,随着业务规模的持续快速增长,监控的对象也越来越多,越来越复杂,监控系统的使用对象也从最初少数的几个SRE,扩大为更多的DEVS,SRE.这时候,监控系统的容量和用户的"使用效率"成…
zabbix自动化运维学习笔记(服务器安装)
最近博主开始接触自动化运维.首先就是zabbix这个开源的监控系统 一开始博主只是在自己的虚拟机上尝试安装.最后终于开始在公司的服务器上正式安装,教程博主也是通过度娘找的 这是原文:链接 安装环境:Centos 6.5 zabbix版本:zabbix-2.4.5 此版本下载云盘下载地址:百度云 官网链接:链接 博主一开始遇到很多权限问题.最终还是用root用户安装的 第一步先安装基础依赖包.主要如果本身就已经安装的包不用再次安装.可能会导致多个版本: [root@zabbix-server ~…
AI模型运维——GPU性能监控NVML和DCGM
最近一年负责运维的GPU主机越来越多,发现现有的监控项无法很好的了解GPU的性能和负载情况,研究了下官方文档,在此记录. 一.NVML和DCGM NVML:https://developer.nvidia.com/nvidia-management-library-nvml DCGM:https://developer.nvidia.com/dcgm 从网址就能看出,这两个工具都是nvidia官方推出的.都是用C/C++编写的底层库. NVML的操作命令是nvidia-smi,DCGM的操作命令…
zabbix之运维疑难总结
2.trousers包 zabbix默认情况下要求trousers包的版本是0.3.12版本以上.如果低于这个版本,有可能zabbix-server服务启动不成功.在mysql7.1版本以上可能会使用老版本的trousers版本,这点要注意.…
zabbix自动化运维学习笔记(服务器配置)
继上次博主整理的安装后,这次是配置步骤 首先打开zabbix的安装web地址 http://xx.xx.xx.xx/zabbix/setup.php xx.xx.xx.xx是服务器的IP地址 由于博主的语言已经设置成中文了,下面的截图中的文件有一部分被翻译了 点击下一步: 校验所有依赖程序.设置是否安装配置成功 再点击下一步: 设置数据库连接信息后,需要点击[Test connecttion] 检测连接状态成功后 再点击下一步: 设置端口号后.预览设置信息并完成配置 进入zabbix首页:…
ZCGL大数据平台日常运维问题与解决方法
问题:HBase停止 解决方法:重新启动HBase,如下所示 表层问题:插入和查询HBase速度比较慢 排查一,查看HBase节点状态,发现正常运行: 排查二,查看访问HBase服务的状态,发现服务停止: 依次点击服务实例,查看服务状态 133和135节点上的服务已经停止 134节点上的服务正常运行 深层问题诊断:三个节点中有两个节点的HBase访问服务停止了,但是Eureka并没有将停止的服务从服务列表中移除,导致请求依然发给停止的服务: 解决方法:配置Hystrix熔断服务,当发给业务服务的…
无需认证的mail,适用于ZABBIX等运维系统
cat main.cf | grep "^\s[^# \t].$" queue_directory = /var/spool/postfix command_directory = /usr/sbin daemon_directory = /usr/libexec/postfix data_directory = /var/lib/postfix mail_owner = postfix myhostname = smtp.meidian.pub mydomain = gomeplus…
监控和安全运维 1.4 nagios安装
1. Nagios 简介是一个开源软件,可以监控网络设备网络流量.Linux/windows主机状态,甚至可以监控打印机它可以运行在Linux上或windows上基于浏览器的web界面方便运维人员查看监控项目的状态支持web界面配置.管理操作支持短信.邮件通知可以自定义脚本实现自定义化监控Nagios官网 http://www.nagios.org 2. Nagios安装 - 服务端(192.168.1.117)Centos6默认的yum源里没有nagios相关的rpm包,但是我们可以安装一个e…
Redis 之sentinel运维监控
有三台redis服务器6379.6380.6381,配置6379为主服务器,6380与6381都为6379的从服务器.如果主服务器6379挂掉了,我们怎么办? 方式一:手动修改从服务器的配置,将6380设置为主服务器,6381为6380的从服务器,并且6380设置为可写,6381为只读. 方式二: 运用运维工具sentinel监控…