FAQ：zabbix 频繁丢失数据问题分析处理

武平宁 2024-05-21 12:48:24 原文

问题描述

在grafana上看到历史数据的绘图断断续续。

问题分析

1 性能瓶颈

一开始以为是哪里的性能遇到瓶颈，把服务器和zabbix的监控数据看了一遍，各个指标都没有问题。

2 上网百度

没有找到解决问题的明确思路。

3 翻看日志

有query failed: [1062] Duplicate entry '109843-1680812604-22807' for key 'PRIMARY' [insert into history

3.1 日志分析

先过滤日志、取出所有报错的监控项，再去数据库中查询，得到监控项的主机信息，发现所有主机都是同一个组里的。

4 抓包

发现确实有重复的数据包，而且配置是每半分钟收集一次的指标数据，每隔10秒就收到一个数据。

5 检查zabbix配置和数据库表

并没有问题，于是将问题发到社区论坛上求助。

6 社区求助

社区大佬给我发了个相关问题链接，链接里介绍了"zabbix 删除、重新添加主机可能会导致数据库中出现脏数据"的情况

7 得到提示

之前确实批量删除又重建过这一组主机，还操作了两次，应该是这个操作出现了脏数据。

第一次问题解决

把有问题的那一组主机删除、再重新添加一次

问题分析（二）

过了几天发现问题又出现了。

1 这次进行更细致的抓包，分析每一个报文

发现：

正常情况下，客户端每两分钟向服务端请求一次全量的监控列表;
在数据重复一遍的节点上，每两分钟请求了两次。

第二次问题解决

重启所有问题节的 zabbix_agentd，问题解决。

结论

主动模式下agent向server请求监控列表的机制可能存在bug;

异常发生时，重启该节点agent即可。

FAQ：zabbix 频繁丢失数据问题分析处理的更多相关文章

记一次OGG数据写入HBase的丢失数据原因分析
一.现象二.原因排查2.1 SparkStreaming程序排查2.2 Kafka数据验证2.3 查看OGG源码2.3.1 生成Kafka消息类2.3.2 Kafka配置类2.3.3 Kafka 消息 ...
HBase丢失数据的故障和原因分析
hbase的稳定性是近期社区的重要关注点,毕竟稳定的系统才能被推广开来,这里有几次稳定性故障和大家分享. 第一次生产故障的现象及原因现象: 1 hbase发现无法写入 2 通过hbc ...
Lily HBase Indexer同步HBase二级索引到Solr丢失数据的问题分析
一.问题描述二.分析步骤2.1 查看日志2.2 修改Solr的硬提交2.3 寻求StackOverFlow帮助2.4 修改了read-row="never"后,丢失部分字段2.5 ...
.Net读取Excel文件时丢失数据的问题（转载）
相信很多人都试过通过OleDB读取Excel文件,这种方法效率十分高,只是有一点会让人十分头痛,就是当一列中既有混合型数据,又有纯数据时,往往容易丢失数据. 百度过后,改连接字符串 “HDR=YES; ...
在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析
在HDInsight中从Hadoop的兼容BLOB存储查询大数据的分析低成本的Blob存储是一个强大的.通用的Hadoop兼容Azure存储解决方式无缝集成HDInsight.通过Hadoop分布式 ...
zabbix 自定义指标数据来源
1.cpu load https://blog.csdn.net/scugxl/article/details/77199403 1)基本含义:运行队列长度,表示当前有多少个正在等待的进程和正在执行的 ...
使用ehcache持久化数据到磁盘并且在应用服务器重启后不丢失数据
使用ehcache时如何持久化数据到磁盘,并且在应用服务器重启后不丢失数据1.如何持久化到磁盘使用cache.flush(),每次写入到cache后调用cache.flush() ,这样ehcache ...
《Wireshark数据包分析实战》 - http背后，tcp/ip抓包分析
作为网络开发人员,使用fiddler无疑是最好的选择,方便易用功能强. 但是什么作为爱学习的同学,是不应该止步于http协议的,学习wireshark则可以满足这方面的需求.wireshark作为抓取 ...
Kafka重复消费和丢失数据研究
Kafka重复消费原因底层根本原因:已经消费了数据,但是offset没提交. 原因1:强行kill线程,导致消费后的数据,offset没有提交. 原因2:设置offset为自动提交,关闭kafka时 ...
iOS开发——项目实战总结&数据持久化分析
数据持久化分析 plist文件(属性列表) preference(偏好设置) NSKeyedArchiver(归档) SQLite 3 CoreData 当存储大块数据时你会怎么做? 你有很多选择,比 ...

随机推荐

Apache hudi 核心功能点分析
Hudi 文中部分代码对应 0.14.0 版本发展背景初始的需求是Uber公司会有很多记录级别的更新场景,Hudi 在Uber 内部主要的一个场景,就是乘客打车下单和司机接单的匹配,乘客和司机分别 ...
Linux修改系统时间（手动/自动同步）
一.手动修改 1.在终端窗口中输入date来查看系统当前的时间. 2.使用命令:"date -s 完整日期时间(YYYY-MM-DD hh:mm:ss)" 3.最后使用命令:&qu ...
2023-03-18：给定一个长度n的数组，每次可以选择一个数x，让这个数组中所有的x都变成x+1，问你最少的操作次数，使得这个数组变成一个非降数组。 n ＜= 3 * 10^5， 0 ＜= 数值
2023-03-18:给定一个长度n的数组,每次可以选择一个数x, 让这个数组中所有的x都变成x+1,问你最少的操作次数, 使得这个数组变成一个非降数组. n <= 3 * 10^5, 0 &l ...
2021-07-15：接雨水 II。给你一个 m x n 的矩阵，其中的值均为非负整数，代表二维高度图每个单元的高度，请计算图中形状最多能接多少体积的雨水。
2021-07-15:接雨水 II.给你一个 m x n 的矩阵,其中的值均为非负整数,代表二维高度图每个单元的高度,请计算图中形状最多能接多少体积的雨水. 福大大答案2021-07-15: 小根堆 ...
2021-09-09：企鹅厂活动发文化衫，文化衫有很多种，企鹅们都穿文化衫。采访中，企鹅会说还有多少企鹅跟他穿一种文化衫。有些企鹅没被采访到，将这些回答放在answers数组里，返回活动中企鹅的最少数
2021-09-09:企鹅厂活动发文化衫,文化衫有很多种,企鹅们都穿文化衫.采访中,企鹅会说还有多少企鹅跟他穿一种文化衫.有些企鹅没被采访到,将这些回答放在answers数组里,返回活动中企鹅的最少数 ...
选择结构do...while语句
// do..while语句 #include<stdio.h> int main() { int a = 0; do { a++; printf("HelloWorld\n&q ...
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统预测部署简介与总览
百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统预测部署简介与总览百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 Paddle Infer ...
htop 和 bashtop 的一些不足
htop 和 bashtop 都是 Linux 资源监视器中非常好用的工具,尤其对于展示当前 Linux 操作系统的处理器.内存.硬盘.网络和进程等各项资源的使用情况与状态.但它们都有一个问题,就是当 ...
Vue——计算属性、监听属性、Vue生命周期、组件介绍和使用、组件间通信、ref属性
计算属性 // 1 计算属性是基于他们的依赖变量进行缓存的 // 2 计算属性只有在它的相关依赖变量发生改变时才会重新求值,否则不会变(函数只要页面变化,就会重新运算) // 3 计算属性就像pyth ...
深度学习应用篇-推荐系统[12]：经典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型对比
深度学习应用篇-推荐系统[12]:经典模型-DeepFM模型.DSSM模型召回排序策略以及和其他模型对比 1.DeepFM模型 1.1.模型简介 CTR预估是目前推荐系统的核心技术,其目标是预估用户点 ...