日常Bug排查-集群逐步失去响应】的更多相关文章

日常Bug排查-系统失去响应-Redis使用不当 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材_. Bug现场 开发反应线上系统出现失去响应的现象,收到业务告警已经频繁MarkAndSweep(Full GC)告警.于是找到笔者进行排查. 看基础监控 首先呢,当然是看我们的监控了,找到对应失去响应的系统的ip,看下我们的基础监控. 机器内存持续上升.因为我们是java系统,堆的大小一开始已经设置了最大值. --XX:Xms2g -Xm…
日常Bug排查-消息不消费 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材_. Bug现场 某天下午,在笔者研究某个问题正high的时候.开发突然找到笔者,线上某个系统突然消费不了queue了.Queue不消费也算是日常问题了.淡定的先把流量切到另一个机房,让问题先恢复再说. 消息累积 然后就是看不消费的queue到哪去了,打开mq(消息中间件)控制台,全部累积到mq上了. 同时开发对笔者反映,只有这个queueu积累了,其它queue…
探针配置失误,线上容器应用异常死锁后,kubernetes集群未及时响应自愈重启容器? 探针配置失误,线上容器应用异常死锁后,kubernetes集群未及时响应自愈重启容器? 线上多个服务应用陷入了死循环,大量服务访问不通,陷入死循环的应用长时间搁置,并没有进行自愈. k8s应用容器没有检测到应用陷入了故障,容器未及时重启? 囧么肥事-胡说八道 弄清楚为什么要使用容器探针? kubernetes 集群的好处是可以监测应用容器健康状态,在必要时候进行故障自愈.Pod管家一旦调度到某个节点,该节点上…
日常Bug排查-抛异常不回滚 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材_. Bug现场 最近有人反映java应用操作数据库的时候,抛异常不回滚.这还了得,不过笔者笃定肯定是用法的锅,不然就全乱套了.所以笔者去Review他的代码. 代码片段 @Transacion(value="x") public void s1() throw MyException{ update(1); throwBusinessExceptio…
日常Bug排查-Nginx重复请求? 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,其中不乏一些看起来很低级但很容易犯的问题. 问题现场 有一天运维突然找到我,要我协助排查一个问题.业务开发怀疑Nginx会重复相同的请求,就感觉Nginx自己重试了一样.而PE给我看了下他们的配置,并没有配置任何重试. 第一感觉 我第一感觉就是应该不是Nginx的问题.但是开发怎么得出Nginx重试这个结论的呢? 跟随业务开发思路 于是笔者翻了下他们的邮件,他们是通过P…
​一.引言 随着腾讯云 Elasticsearch 云产品功能越来越丰富,ES 用户越来越多,云上的集群规模也越来越大.我们在日常运维工作中也经常会遇到一些由于前期集群规划不到位,导致后期业务增长集群规模大了之后带来的各种各样的集群可用性及稳定性问题. 这里列举下其中比较典型的几种集群规划问题: 节点规格规划问题:集群数量很大,但是每个节点的配置很低: 索引分片规划问题:索引很小,但是设置了几十个分片,或者索引很大,只设置了两三个分片: 分片数量规划问题:集群中包含 10万+ 的分片. 正所谓磨…
原文地址:http://www.cnblogs.com/verrion/p/redis_structure_type_selection.html  Redis分布式集群几点说道 Redis数据量日益增大,使用的公司越来越多,不仅用于做缓存,同时趋向于存储这一块,这样必促使集群的发展,各个公司也在收集适合自己的集群方案,目前行业用的比较多的是下面几种集群架构,大部分都是采用分片技术,保证单实例内存增大带来的一系列问题,下面所列出的codis方案目前正在不断测试过程中,测试过程没有展示出来,主要从…
Redis数据量日益增大,使用的公司越来越多,不仅用于做缓存,同时趋向于存储这一块,这样必促使集群的发展,各个公司也在收集适合自己的集群方案,目前行业用的比较多的是下面几种集群架构,大部分都是采用分片技术,保证单实例内存增大带来的一系列问题,下面所列出的codis方案目前正在不断测试过程中,测试过程没有展示出来,主要从以下几点出发. 测试架构和性能: 1.keepalived+haproxy故障测试 2.Zookeeper集群节点测试 3.Codis-proxy集群节点测试 4.Codis-se…
一:HDFS系统架构 (一)利用secondary node备份实现数据可靠性 (二)问题:NameNode的可用性不高,当NameNode节点宕机,则服务终止 二:HA架构---提高NameNode服务的可用性 架构中至少有两个NameNode节点 (此处以两个NameNode举例) (一)两个NN节点在某个时间只能有一个节点正常响应客户端请求,响应请求的必须为ACTIVE状态的那一台.另一台为standby备用 在高可用模式下,这一对NameNode节点,叫做Federation (二)当a…
openfire压测概述 个月左右的测试,总算得到预定目标(3台服务器,并发50w用户在线) 测试环境搭建 压测客户端无他-tsung,尝试了windows安装perl失败后,使用centOS6.5作为压测机 压测服务器,因为集群需要大内存,因而安装了64位的centos6.7. 所幸这些都可以使用vmware虚拟机,只要装好一台,通过简单copy就能复制出多台.实际上,一共也就使用了6台硬件设备. 设备类别 台数 系统 虚拟机操作系统 说明 OF服务器 3 i54570,12G,Win7 Ce…