监控平台的话,各有优劣,但基本都可以满足需求.等达到一定监控指标后,发现,最困难的是监控项目的管理. CMDB中小规模(服务器<=1k):Zabbix大规模(1k>=服务器<=10k):Nagios进行二次开发超大规模(服务器>=10k):开发适应自己平台的监控软件吧另推荐个牛逼的东西:http://prometheus.io 作者:好撑链接:https://www.zhihu.com/question/19973178/answer/131911060来源:知乎著作权归作者所有.…
前言 Prometheus是CNCF的一个开源项目,Google BorgMon监控系统的开源版本,是一个系统和服务的监控系统.周期性采集metrics指标,匹配规则和展示结果,以及触发某些条件的告警发送. 特点 Prometheus主要区别于其他监控系统的特点是: 多维度数据模型(时序数据是由指标名字和kv结构的维度定义) 灵活的查询语言(PromQL) 不依赖分布式存储.每个server是一个自治的节点. 通过HTTP拉取收集时序数据,同时提供push gateway供用户主动推送数据,主要…
系统架构介绍 整个实时监控系统的架构是先由 Flume 收集服务器产生的日志 Log 和前端埋点数据, 然后实时把这些信息发送到 Kafka 分布式发布订阅消息系统,接着由 Spark Streaming 消费 Kafka 中的消息,同时消费记录由 Zookeeper 集群统一管理,这样即使 Kafka 宕机重启后也能找到上次的消费记录继而进行消费.在这里 Spark Streaming 首先从 MySQL 读取规则然后进行 ETL 清洗并计算多个聚合指标,最后将结果的一部分存储到 Hbase…
前文我们了解了分布式监控系统zabbix的相关组件的作用和zabbix的部署,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/13997582.html:今天我们来了解下zabbix的基础使用: 在开始使用zabbix之前,我们先来了解下zabbix的一些术语 1.监控项(item):什么是监控项? 在zabbix中监控项(item)是一个核心的东西,所有监控都是围绕监控项展开的,可以说没有监控项就没有我们想要的指标数据:所以简单讲监控项就是被监控对象的指标…
前文我们了解了zabbix的网络发现功能,以及结合action实现自动发现主机并将主机添加到zabbix hosts中,链接指定模板进行监控:回顾请参考https://www.cnblogs.com/qiuhom-1874/p/14020847.html:今天我们来了解下zabbix的主动监控.被动监控以及web监控相关话题: 1.什么是主动监控?什么是被动监控? 我们知道获取数据的方式有两种,一种是get,一种是push:在zabbix中描述主动监控和被动监控都是站在agent的一方来描述的:…
小米开源监控系统Open-Falcon安装使用笔记-BB保你大-51CTO博客 https://blog.51cto.com/chenguomin/1865550…
1.为什么要使用监控系统? 我们知道一个系统不管怎么讲它都会出故障,我们为了保证线上业务的最大化的可用性,通常我们要给关键业务做高可用:做高可用的目的是为了让故障发生时,能够有一个备用的解决方案,将故障转移,从而实现服务的高可用性:那么问题来了,我们怎么知道系统发生了故障或者将要发生故障呢?怎么去把将要发生的故障扼杀在摇篮里呢?这个时候我们就需要用到监控系统:监控系统本质上不是业务系统,没有监控系统,线上业务系统也是可以正常运行的,它的存在主要是方便我们对业务系统的重要指标数据做采集.分析,使得…
参考文档: 大众点评的实时监控系统分析(一) CAT_source_analyze 透过CAT,来看分布式实时监控系统的设计与实现 深度剖析开源分布式监控CAT [分布式监控CAT] Client端源码解析 大众点评Cat--架构分析 大众点评Cat--Server模块架构分析 Plexus,Spring之外的IoC容器 plexus使用(一) Spring Cloud Sleuth使用简介 Spring Cloud Sleuth 整合Zipkin.RabbitMQ 和 (Mysql或Elast…
https://www.cnblogs.com/yeahwell/p/cat.html 参考文档: 大众点评的实时监控系统分析(一) CAT_source_analyze 透过CAT,来看分布式实时监控系统的设计与实现 深度剖析开源分布式监控CAT [分布式监控CAT] Client端源码解析 大众点评Cat--架构分析 大众点评Cat--Server模块架构分析 Plexus,Spring之外的IoC容器 plexus使用(一) Spring Cloud Sleuth使用简介 Spring C…
前文我们了解了zabbix的宏,自定义item和模板的相关话题,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/14013331.html:今天我们来了解下zabbix的网络发现功能: 1.为什么要使用网络发现功能呢? 我们知道使用zabbix监控系统去监控一个集群,通常我们会使用各种信道去对应server上采集数据,这意味着每台server上必须能够支持zabbix上定义的信道去采集数据:比如我们使用zabbix agent这种信道去server上采集数据…
动环监控系统简述 1.术语介绍 1.1 省集中监控中心-Province Supervision Center(PSC) 面向多FSU管理的高级监控层次,即省集中监控中心,通过开放的数据协议,连接监控范围内的FSU. 1.2 现场监控单元-Field supervision unit(FSU) 监控系统的最小管理子系统,由若干监控模块和其它辅助设备组成,面向直接的设备数据采集.处理的监控层次,可以包含采样.数据处理.数据中继等功能, 监控范围一般为一个独立的通信局(站)或大型局(站)内相对独立的…
最近开发遇到一个问题:需要查询一个大时间段内的数据,分1000个小段,即为1000个点.X轴是时间,Y轴是该小时间段内统计后数据.注意:数据返回是一个list,其中每个对象返回值都是该小时间段内数据统计出来的,且需要根据入参顺序返回(这样前端展示就方便).举例,查询12点到1点的数据,查询频率是30分钟,那么就需要查询11:30-12:00,12:00-12:30,12:30-1:00这三段数据(因为监控系统都是查询过去的数据,所以12点的那个值应该是之前半个小时的).问题来了, 方案一:直接热…
一.背景 这个项目是一个监控系统,主要监控主机.网络设备.应用等.主机监控的数量有1500台左右,数量还在不断增长,加上网络设备和应用,目前总共监控的指标达到近40万个. 二.问题 一开始为了快速交付,采用的是MySQL来存储采集的指标数据,刚开始指标不是很多,采集频率也不是很高,业务还是比较稳当的. 但是随着时间的推移,接入的指标越来越多,问题开始暴露出来了,主要表现在以下几个方面: 1. MySQL的数据占用空间增长很快,一天差不多要增长2个G,不到1年时间指标历史表单表达到了500G+:…
1.配置好yum源,为了提高效率建议搭建本地yum源 yum install -y http*  yum install -y mysql*  yum install -y php-*  yum install -y net-snmp*  yum install -y httpd gcc glibc glibc-common gd gd-devel php php-gd ntp 2.安装nagios相关软件 #!/bin/sh NAGIOS_TOOLS_DIR=/home/oldboy/tool…
前文我们了解了zabbix的被动.主动以及web监控相关话题,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/14024212.html:今天我们来了解下zabbix使用SNMP和JMX信道采集数据的相关话题: 1.SNMP协议介绍  SNMP是英文"Simple Network Management Protocol"的缩写,中文意思是"简单网络管理协议,SNMP是一种简单网络管理协议,它属于TCP/IP五层协议中的应用层协议,用于网络…
前文我们聊了下zabbix的基础使用,包括主机的添加.监控项.触发器.action以及告警通知的配置,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/14007342.html:今天我们来了解下zabbix的宏.模板和自定义监控项的相关话题: 1.什么是宏? 简单讲宏就是一个字符串变量,作用和变量作用很类似:不同的是宏它是一个常量,通常是一个固定值的替代形式:宏主要作用是方便我们配置一些经常需要修改的值,用宏替换比较方便:比如我们要监控700台nginx,其…
前文我们了解了zabbix 使用snmp和jmx信道采集数据的相关使用配置,回顾请参考https://www.cnblogs.com/qiuhom-1874/p/14029864.html:今天我们来说zabbix proxy: 1.zabbix proxy是什么?为什么要使用zabbix proxy? 简单讲zabbix proxy就是zabbix server的代理服务,它能帮助zabbix server采集数据,然后再统一的发送给zabbix server :它的功能和zabbix ser…
1.Nagios安装 yum install -y nagios.i686 yum install -y nagios-plugins-all.i686 安装完后会在apache的配置文件目录下/etc/httpd/conf.d/产生一个外部的配置文件nagios.conf service httpd start service nagios start default user nagiosadmin password nagiosadmin 2.配置文件生成器 Django前期的收集主机信息…
借鉴一下别人的,自己做个记录,我觉得推荐还是使用open-falcon,最重要的一点是有完善的中文帮助文档. 帮助文档地址:https://book.open-falcon.org/zh/index.html…
参考https://book.open-falcon.org/zh_0_2/quick_install/prepare.html一.安装后端1.环境准备yum -y install redisyum install golang -y ##需要epel源配置环境变量(/etc/profile)export GOROOT=/usr/lib/golangexport GOPATH=/home配置mysqlyum install -y mysql-server/etc/init.d/mysqld st…
Zabbix vs Nagios vs PandoraFMS: an in depth comparison - Pandora FMS - The Monitoring Bloghttps://blog.pandorafms.org/zabbix-vs-nagios-vs-pandorafms-an-in-depth-comparison/ 开源监控系统对比(Ganglia.Open-falcon.Prometheus.Zabbix) - Wds的技术博客 - 关注Puppet 开源软件 自动…
Zabbix监控系统深度实践(企业级分布式系统自动化运维必选利器,大规模Zabbix集群实战经验技巧总结,由浅入深全面讲解配置.设计.案例和内部原理) 姚仁捷 著  ISBN 978-7-121-24013-3 2014年8月出版 定价:69.00元 364页 16开 编辑推荐 国内最大规模Zabbix集群负责人力作 全面讲解Zabbix配置应用,深入剖析Zabbix内部原理 用真实工作需求驱动,以独家实践案例指引,助您监控利器出鞘 Zabbix是目前最流行的分布式图形化开源监控系统解决方案,它…
搭建zabbix监控系统详解 文:warren   博文大纲:一.前言 二.zabbix监控架构三.搭建Zabbix监控服务器四.搭建过程中遇到有些服务无法正常启动的解决办法 一.前言 : 要想实时的了解服务器的运行状况并且能在出现问题时及时解决,利用监控软件是一个很好的选择,而zabbix监控系统则在众多监控软件中脱颖而出. zabbix是一个基于web界面的企业级开源监控软件,Zabbix服务器需要LAMP环境或LNMP环境,提供分布式系统监控与网络监视功能.具备主机的性能监控,网络设备性能…
Zabbix企业级开源监控解决方案 目录 Zabbix企业级开源监控解决方案 一.Zabbix 1. 监控系统的必要性 2. 监控软件的作用 3. Zabbix的定义 4. Zabbix的监控原理 5. Zabbix常见的五个程序. 5.1 zabbix server 5.2 zabbix agent 5.3 zabbix proxy 5.4 zabbix get 5.5 zabbix sender 二.安装部署Zabbix 5.0 1. 部署Zabbix服务端 1.1 服务器配置 1.2 服务…
第1章 简介 ganglia是一款为HPC(高性能计算) 集群设计的可扩展性 的分布式监控系统,它可以监视和显示集群中节点的各种状态信息,他由运行在各个节点上的gmond守护进程来采集 CPU.内存.磁盘利用率.I/O负载.网络流量情况等方面的数据.然后汇总到gmetad守护进程下,使用rrdtool存储数据,然后将历史数据以曲线方式通过PHP页面呈现. ganglia作为一款用于Linux环境中的监控软件,它擅长的的是从节点中按照用户的需求以较低的代价采集数据.但是ganglia在预警以及发生…
使用目的? 在公司项目中需要做一个日志监控,最开始选择的是efk,但是efk的资料相对较少并且之前对这几个产品都没接触过,使用起来难度.于是选择了zabbix作为项目的运维监控系统. zabbix能做什么? zabbix主要是用来网络监控.系统监控.应用监控等场景.zabbix分为server端和agent端,文章前半部分都是在讲server端的安装操作,后面结尾讲解agent的安装操作. 搭建环境 centos7.0,lnmp集成环境(mysql5.7,php7.2),zabbix4.0版本.…
Opserver是Stack Exchange下的一个开源监控系统,系统本身由C#语言开发的ASP.NET(MVC)应用程序,无需任何复杂的应用配置,入门很快.下载地址:https://github.com/opserver/Opserver.据说,国内腾讯公司内部也有使用.接下来就着重给大家介绍下Opserver的安装配置过程. 首先,解压下载的项目文件,启动VS,项目结构如下: 其次,打开解决方案下的Config文件夹,我们可以看到很多以example为扩展名的文件,这些就是Opserver…
一.Linux下开源监控系统简单介绍1)cacti:存储数据能力强,报警性能差2)nagios:报警性能差,存储数据仅有简单的一段可以判断是否在合理范围内的数据长度,储存在内存中.比如,连续采样数据存储,有连续三次不在合理范围内的数据就报警3)zabbix:结合上面两种工具的优点,又可以存储数据,又可以报警. Zabbix是一个基于Web界面提供分布式系统监视及网络监视功能的企业级开源解决方案.借助Zabbix可很轻松地减轻运维人员们繁重的服务器管理任务,实现业务系统持续运行.下面会逐步介绍Za…
一.Open-Falcon介绍 1.监控系统,可以从运营级别(基本配置即可),以及应用级别(二次开发,通过端口进行日志上报),对服务器.操作系统.中间件.应用进行全面的监控,及报警,对我们的系统正常运行的作用非常重要. 2.基础监控 CPU.Load.内存.磁盘.IO.网络相关.内核参数.ss 统计输出.端口采集.核心服务的进程存活信息采集.关键业务进程资源消耗.NTP offset采集.DNS解析采集,这些指标,都是open-falcon的agent组件直接支持的. Linux运维基础采集项:…
官方文档 https://book.open-falcon.org/zh/intro/index.html 一.Open-Falcon介绍 1.监控系统,可以从运营级别(基本配置即可),以及应用级别(二次开发,通过端口进行日志上报),对服务器.操作系统.中间件.应用进行全面的监控,及报警,对我们的系统正常运行的作用非常重要. 2.基础监控 CPU.Load.内存.磁盘.IO.网络相关.内核参数.ss 统计输出.端口采集.核心服务的进程存活信息采集.关键业务进程资源消耗.NTP offset采集.…