大浪淘沙,2024 年的今天,市面上很多监控系统慢慢淡出了大家的视野,而一些新的监控系统也逐渐崭露头角。今天我们就来看看 2024 年的当下,哪些 IT 运维监控系统最值得关注。

Prometheus

毫无疑问,Prometheus 是最值得关注的监控系统,因为 Prometheus 的规范和生态都非常厉害,很多中间件、数据库,直接就内置支持了 Prometheus,比如 ETCD、Kubernetes、RabbitMQ、Nginx VTS 等等,这个势能是非常强大的。

尤其是在容器和微服务监控场景,Prometheus 生态是不二之选,因为:

  • 由于资源的生命周期比较短,通常是基于服务发现来发现监控目标,而不是资产管理式(Zabbix就是资产管理式)。
  • 多维度筛选的需求强烈,比如通过标签聚合、过滤、分组等。需要一个针对性的 Query Language。PromQL 就是为此而生。

当然,这里我们说的是 Prometheus 生态,至于是否真的使用 Prometheus 二进制倒不一定,因为 Prometheus 本身的存储和查询性能并不是很好,所以很多公司会选择使用 Prometheus 的兼容产品,比如 VictoriaMetrics、Thanos 等。

Grafana

Prometheus 可以搞定数据采集、存储问题,并提供查询接口、查询语言,但是对于数据的展示,Prometheus 本身并不是很强大,通常大家会选择使用 Grafana 作为展示工具。

Grafana 不仅仅为 Prometheus 提供了很多的 Dashboard 模板,而且还支持多种数据源,比如 InfluxDB、Elasticsearch、Loki、MySQL、PostgreSQL、CloudWatch、Zabbix 等等。Grafana 的可视化能力,基本就是开源领域的标杆甚至事实标准了。

Nightingale

很多公司有多套 Prometheus,我在社区里见过一个公司有 200 多套 Prometheus,四五套、八九套的更是比比皆是,此时,大家就很想统一管理,比如公司有 8 套 Kubernetes,每套 Kubernetes 都有一个 Prometheus,这些 Prometheus 的数据类似,告警规则通用,每次修改一个告警规则,要修改 8 套 Prometheus,这就很麻烦了。另外,监控能力作为基础能力,通常是开放给公司所有业务研发团队,需要一些权限管控、知识沉淀的能力,Nightingale 可以帮助你解决这些问题。

Nightingale 的核心是做一个告警引擎,支持对接 Prometheus、VictoriaMetrics、Thanos、M3DB、Loki 等多种数据源,统一管理告警规则。而且考虑了边缘机房网络割裂的场景,即便是边缘机房和中心机房之间的网络坏掉了,边缘机房内部也可以自闭环生成、发送告警。

Zabbix

Zabbix 相对比较老了,擅长服务器、网络设备的监控,不擅长 Kubernetes、微服务的监控,由于越来越多的公司采用公有云,公有云自然搞定了硬件、网络设备的监控,所以 Zabbix 的市场份额在逐渐下降。

国内很多公司在使用 Zabbix,社区较为活跃,很多公司基于 Zabbix 封装了商业化产品,如果你是网工或系统运维,Zabbix 还是值得关注的。

其他

当然,还有一些其他的监控系统,比如:Cacti、Nagios,都太老了,不推荐使用。Cacti 在网工圈子里还是有一定的市场份额,Nagios 基本销声匿迹了。

监控作为稳定性保障的重要手段,涉及到的内容非常驳杂,如果您找乙方协助构建监控、可观测性方案,欢迎联系我们做产品技术交流:https://flashcat.cloud/contact/

2024 年了,IT 运维监控系统都有哪些推荐?的更多相关文章

  1. Lnmp搭建zabbix运维监控系统

    使用目的? 在公司项目中需要做一个日志监控,最开始选择的是efk,但是efk的资料相对较少并且之前对这几个产品都没接触过,使用起来难度.于是选择了zabbix作为项目的运维监控系统. zabbix能做 ...

  2. 运维监控系统之Open-Falcon

    一.Open-Falcon介绍 1.监控系统,可以从运营级别(基本配置即可),以及应用级别(二次开发,通过端口进行日志上报),对服务器.操作系统.中间件.应用进行全面的监控,及报警,对我们的系统正常运 ...

  3. 建设DevOps统一运维监控平台,全面的系统监控 Zabbix VS Nagios VS Open-Falcon OR Prometheus

    前言 随着Devops.云计算.微服务.容器等理念的逐步落地和大力发展,机器越来越多,应用越来越多,服务越来越微,应用运行基础环境越来多样化,容器.虚拟机.物理机不一而足.面对动辄几百上千个虚拟机.容 ...

  4. 优化系统资源ulimit《高性能Linux服务器构建实战:运维监控、性能调优与集群应用》

    优化系统资源ulimit<高性能Linux服务器构建实战:运维监控.性能调优与集群应用> 假设有这样一种情况,一台Linux 主机上同时登录了10个用户,在没有限制系统资源的情况下,这10 ...

  5. 优化Linux内核参数/etc/sysctl.conf sysctl 《高性能Linux服务器构建实战:运维监控、性能调优与集群应用》

    优化Linux内核参数/etc/sysctl.conf  sysctl  <高性能Linux服务器构建实战:运维监控.性能调优与集群应用> http://book.51cto.com/ar ...

  6. CentOS服务器运维监控Nagios(一)

    CentOS下搭建Nagios 王尚 2014.11.09 操作系统:CentOS-6.5-i386-bin-DVD1.iso 安装在VM中进行测试的. 本章需要的软件链接: php-5.3.2.ta ...

  7. 运维监控-基于yum的方式部署Zabbix Server 4.0 版本

    运维监控-基于yum的方式部署Zabbix Server 4.0 版本 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.如何选择zabbix版本 1>.打开zabbix官方 ...

  8. 运维监控-Open-Falcon介绍

    运维监控-Open-Falcon介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Open-Falcon 介绍 监控系统是整个运维环节,乃至整个产品生命周期中最重要的一环,事 ...

  9. 详解Linux运维工具:运维流程管理、运维发布变更、运维监控告警

     概述 应用上线后,运维工作才刚开始,具体工作可能包括:升级版本上线工作.服务监控.应用状态统计.日常服务状态巡检.突发故障处理.服务日常变更调整.集群管理.服务性能评估优化.数据库管理优化.随着应用 ...

  10. Telegraf+Influxdb+Grafana自动化运维监控

    概述:Telegraf收集信息,influxdb时序数据库存储数据,grafana平台展示数据,并进行监控告警,组成一个自动化运维监控平台. 一.influxdb ​ InfluxDB是一个由Infl ...

随机推荐

  1. 2024-06-15:用go语言,Alice 和 Bob 在一个环形草地上玩一个回合制游戏。 草地上分布着一些鲜花,其中 Alice 到 Bob 之间顺时针方向有 x 朵鲜花,逆时针方向有 y 朵鲜花

    2024-06-15:用go语言,Alice 和 Bob 在一个环形草地上玩一个回合制游戏. 草地上分布着一些鲜花,其中 Alice 到 Bob 之间顺时针方向有 x 朵鲜花,逆时针方向有 y 朵鲜花 ...

  2. 三种方法教你下载 Windows 10 和 Windows 11 原生镜像

    原文地址:https://itxiaozhang.com/three-methods-to-download-windows-10-and-windows-11-iso/ 本文配合视频食用效果最佳,视 ...

  3. Ubuntu 使用 SVN 管理 项目

    背景 公司的项目需要在 Linux 环境进行开发,而都是使用 SVN 进行管理的.习惯了 SVN-GUI 的我,需要学习 SVN 的命令行. 准备 安装 SVN sudo apt-get apt-ge ...

  4. Apline部署K3s的Agent

    之前我们在Ubuntu上部署了K3s的Server节点(传送门),这次我们加入两台K3s的Agent节点搭建一个K3s的3节点工作环境. 需要准备好网络环境,确保三台VM之间是可以ping通的,设置好 ...

  5. 【论文阅读】Pylot: A Modular Platform for Exploring Latency-Accuracy Tradeoffs in Autonomous Vehicles

    参考与前言 resource 代码:https://github.com/erdos-project/pylot 论文地址:https://www.ionelgog.org/data/papers/2 ...

  6. 3568F-翼辉SylixOS国产操作系统演示案例

     

  7. 【Error】mysql的error.log中ranges: 268 max_threads: 4 split: 268 depth: 2是什么意思?

    2021-12-08T09:36:39.612332+08:00 44213799 [Note] [MY-011825] [InnoDB] Parallel scan: 4 2021-12-08T09 ...

  8. IIS部署错误HTTP Error 500.36 ASP.NET Core IIS hosting failure(out-of-process)

    错误提示 HTTP Error 500.36 - ASP.NET Core IIS hosting failure (out-of-process) The out of process reques ...

  9. 阿里云服务器Docket安装RabbitMQ 3.8.12

    DocketMQ安装RabbitMQ 地址:https://hub.docker.com/ 拉取镜像 docker pull rabbitmq:3.8.12-management-alpine 运行 ...

  10. Simple WPF: WPF自定义一个可以定义步长的SpinBox

    最新内容优先发布于个人博客:小虎技术分享站,随后逐步搬运到博客园. 通过WPF的按钮.文本输入框实现了一个简单的SpinBox数字输入用户组件并可以通过数据绑定数值和步长.本文中介绍了通过Xaml代码 ...