记一次生产事故的排查与优化—

一、现象

　　在服务器上通过curl命令调用一个Java服务的查询接口，半天没有任何响应。关于该服务的基本功能如下：

1、该服务是一个后台刷新指示器的服务，即该服务会将用户需要的指示器数据提前计算好，放入redis中，当用户请求指示器数据时便从redis中获取；

2、指示器涉及到的模型数据更新时会发送消息到kafka，该服务监听kafka消息，收到消息后触发指示器刷新任务；

3、对于一些特殊的指示器，其涉及的项目和模型较多，且数据量比较大，无法通过kafka消息来触发刷新，否则一直处于刷新过程中，便每隔10分钟定时进行指示器的刷新，以尽量保证的数据的及时性；

4、该服务不对外提供接口，只预留一些指示器刷新的监控接口，供内部开发人员使用；

5、相同代码还部署了另外一个服务对外开放，用户请求指示器数据时就向其请求，如果redis缓存中有便直接返回，没有的话那个服务便实时计算。

二、排查

1、打印堆栈

　　看到上述的现象，第一反应就是服务挂了，于是便通过jps命令查看该服务的进程号，发现服务还在。那么会不会是tomcat的线程被占满，没有线程去响应请求，但是按理说是不会的，因为该服务并没有对外提供接口。抱着好奇心还是通过jstack pid命令打印出堆栈来查看，如下图所示。发现当前只有10个tomcat的线程，并且都处于空闲状态，那么就不可能因为线程被占满而导致curl接口没有响应。

2、查看socket连接

　　就在一筹莫展之时，同事告诉我zabbix监控那边会每隔一分钟调用该服务的查询接口来获取当前的刷新任务数，从而展示在zabbix上进行实时监控。这时赶紧调用netstat -anp|grep 9097命令查看一下当前是否有请求，发现zabbix那边的请求全部卡死了。

这些卡死的请求全部都在ESTABLISHED状态，基本上把tomcat的socket连接全部占满了，这下终于明白为啥调用查询接口，服务没有响应了，但是为什么这些查询接口会卡死呢？

3、查看JVM基本信息

　　想要弄明白这个问题，还是要查看一下JVM内部的信息，是否内存溢出或者CPU占满，这里采用arthas插件，下载arthas后就可以通过java -jar arthas-boot.jar直接启动。

该服务是第一个，选择1按enter键进入

通过dashboard命令查看服务运行的基本信息

　　从上图可以看出，CPU占用率不是很高，但是内存占用率比较高，特别是老年代，该服务总共分配了20G的内存，新生代10G，老年代10G 。服务启动不久后就进行了Full GC，很快老年代就被占满，这说明有很多大对象在内存中，并且没有被Minor GC回收掉，进入了老年代。

4、查看GC日志

　　为了验证我的猜想，通过jstat -gcutil 221446 1s命令每隔1s将GC信息实时打印出来，如下图所示。

　　E表示Eden区的内存占用率，O表示老年代的内存占用率，YGC表示年轻代GC的次数，YGCT表示年轻代GC的时间总和，FGC表示Full GC的次数，FGCT表示Ful GC的时间总和。从上图可以看出，在195次Full GC后，Eden区仅仅过了4秒内存就基本上满了，这时又发生了Full GC，即第196次Full GC。

　　从上图可以看出，用两次的FGCT相减，即4301减去4277，可以知道196次Full GC花了大约24秒，这期间服务基本上处于停滞的状态，而且从Full GC后的老年代内存占用率可以看出，并没有回收老年代多少内存，占用率依旧很高。这意味着几秒后又将进行Full GC操作，反复循环。由此看出，该服务基本上一直处于卡死的状态，内存将要溢出。那么，到底是什么对象长期占据着内存呢？

5、分析dump文件

　　这时想起，该服务为了提高相似指示器的计算效率，使用了google的缓存guava。每次计算完指示器后会将该指示器涉及到的模型数据存储在缓存中，下次计算相同模型的指示器时可以直接从内存中获取，而不需要访问数据库，因为数据量比较大，所以可以显著提升查询指示器的效率。guava缓存的失效时间是30分钟，也就是说30分钟内的Full GC是无法回收多少内存的。为了证明我的猜想，就在服务启动参数上增加了-XX:+HeapDumpOnOutOfMemoryError。这样在服务内存溢出时会自动生成dump文件，将dump文件导出，通过VisualVM就可以分析出究竟是什么占据着内存。

　　由于我的电脑内存有限，无法打开20G的dump文件，就将服务内存调整为3G，guava缓存分配2G，运行一段时间就生成了dump文件，通过VisualVm打开，如下图所示。

从上图可以看出，byte数组占据了46%的内存空间，点击byte[]实例可以看到具体是哪些数据占据了内存，如下图所示。

可以看到byte数组有大量的LazyString类型，即com.mysql.cj.util.LazyString，点击详情查看。

　　发现好多ResultSet没有被释放，这就是查询指示器模型数据的返回结果。由于这些模型数据都被缓存对象引用着，而且缓存的有效期是30分钟，所以新生代GC无法回收，直到进入老年代，如果没有超过30分钟缓存有效期Full GC也不会回收，所以内存被占满。由于这些指示器计算都是并发的，30个线程同步查询数据会导致内存中有大量的数据缓存对象，从而导致内存溢出。

三、优化

　　针对以上分析出的原因，有以下两点优化建议：

1、不再使用guava缓存，每次都实时查询指示器的数据。因为该服务是后台刷新服务，将计算的好指示器结果存入redis缓存，不需要直接给用户提供服务。因此，该服务不需要计算很快，只需要正确即可，取消guava缓存后新生代GC会很快回收掉不再使用的大对象，使得这些对象不会进入老年代引发Full GC，即使进入老年代也能通过Full GC回收掉，不至于内存溢出。

2、降低线程的并发数。虽然不使用缓存会提高内存的使用率，但是如果并发数过高，并且指示器数据量过大，那么在某一瞬间内存也会被占满，且不会被Minor GC回收掉，从而进入老年代，直到触发Full GC。

　　只有做到以上两点，并且适当调大服务内存，这样才会尽量让大量的垃圾数据在年轻代就GC掉，而不是进入到老年代引发Full GC。

　　上图是优化后的GC日志，可以看出，新生代GC后回收了很多垃圾，并且很少一分部分对象会进入到老年代，这样会减少Full GC的次数，从而解决系统卡死的问题。

四、总结

通过本次事故的排查，对于服务假死这样的现象，一般的排查过程为：

1、查看服务进程是否存在；

2、根据进程号查看CPU占用率和内存占用率，这里可以使用arthas这样第三方的插件，也可以使用jdk自带的工具，如jstack，jstat，jmap等；

3、查看GC日志；

4、如果有内存溢出情况，可以查看dump文件找出溢出点。

记一次生产事故的排查与优化——Java服务假死的更多相关文章

记一次阿里云oss文件上传服务假死
引言记得以前刚开始学习web项目的时候,经常涉及到需要上传图片啥的,那时候都是把图片上传到当前项目文件夹下面,每次项目一重启图片就丢了.虽然可以通过修改/tomcat/conf/server.xml ...
一次 select for update 的悲观锁使用引发的生产事故
1.事故描述本月 8 日上午十点多,我们的基础应用发生生产事故.具体表象为系统出现假死无响应.查看事发时间段的基础应用 error 日志,没发现明显异常.查看基础应用业务日志,银行结果处理的部分普遍 ...
记一次k8s pod频繁重启的优化之旅
关键词:k8s.jvm.高可用 1.背景最近有运维反馈某个微服务频繁重启,客户映像特别不好,需要我们尽快看一下. 听他说完我立马到监控平台去看这个服务的运行情况,确实重启了很多次.对于技术人员来说, ...
记一次线上bug排查-quartz线程调度相关
记一次线上bug排查,与各位共同探讨. 概述:使用quartz做的定时任务,正式生产环境有个任务延迟了1小时之久才触发.在这一小时里各种排查找不出问题,直到延迟时间结束了,该任务才珊珊触发.原因主要就 ...
记一次生产主机中挖矿病毒"kintegrityds"处理过程！
[记一次生产挖矿病毒处理过程]: 可能性:webaap用户密码泄露.Jenkins/redis弱口令等. 1.监控到生产主机一直load告警 2.进服务器 top查看进程,发现挖矿病毒进程,此进程持续 ...
Kafka 异步消息也会阻塞？记一次 Dubbo 频繁超时排查过程
线上某服务 A 调用服务 B 接口完成一次交易,一次晚上的生产变更之后,系统监控发现服务 B 接口频繁超时,后续甚至返回线程池耗尽错误 Thread pool is EXHAUSTED.因为服务 B ...
生产事故（MongoDB数据分布不均解决方案）
可以很明显可以看到我们这个集合的数据严重分布不均匀. 一共有8个分片,面对这个情况我首先想到的是手动拆分数据块,但这不是解决此问题的根本办法. 造成此次生产事故的首要原因就是片键选择上的问题,由于片键 ...
解Bug之路-记一次存储故障的排查过程
解Bug之路-记一次存储故障的排查过程高可用真是一丝细节都不得马虎.平时跑的好好的系统,在相应硬件出现故障时就会引发出潜在的Bug.偏偏这些故障在应用层的表现稀奇古怪,很难让人联想到是硬件出了问题, ...
JAVA服务实例内存高问题排查及解决
生产服务内存高问题问题描述 1."计算中心" 服务在生产环境运行一段时间后,实际占用内存4.8G,业务运行正常,未出现OOM.(本文以此服务进行排查) 2.生产环境的老项目,均出 ...

随机推荐

ubuntu root密码问题
安装完Ubuntu后忽然意识到没有设置root密码,不知道密码自然就无法进入根用户下.到网上搜了一下,原来是这麽回事.Ubuntu的默认root密码是随机的,即每次开机都有一个新的root密码.我们可 ...
原生js实现架子鼓特效
这是代码完成的效果,按下abcd会出现对应的架子鼓音乐的效果. 简单的介绍下代码思路,html和css部分就不多说了. 重要的是js部分. 大致是这样的, 首先获取到所有的按钮为一个数组,然后遍历整个 ...
【Android开发】【第三方SDK】安卓版分词功能
功能介绍: 获取剪切板内容,进行分词: 点击分解后的词,填入输入框: 点击叉号将地址拼接起来返回主界面用途: 增加用户的体验效果,可以直接在微信上复制地址,然后通过此功能确认地址. 附上git地址 ...
mysql数据乱码
更改数据库安装时的字符编码.打开mysql安装目录,找到my.ini文件,通过使用记事本的方式打开,将这里面的default-character-set=latin1修改成gbk,注意这里面有两处需要 ...
华为交换机Stelnet ssh/rsa验证模式下16进制公钥生成方法
1.生成秘钥需要在你自己电脑上生成执行下面命令,默认生成位置是~/.ssh ssh-keygen -t rsa -b 1024 -f yourkeyname -C "备注" 参 ...
Python入门-安装Python开发环境
1.安装开发环境 #方法一:直接安装anaconda,解释器和环境,一个软件就可以包括,简单方便参考地址:https://www.cnblogs.com/sui776265233/p/1145300 ...
MySql各版本
Mysql 各个版本区别: 1.MySQL Community Server 社区版本,开源免费,但不提供官方技术支持. 2.MySQL Enterprise Edition 企业版本,需付费,可以试 ...
LAN交换机自学习算法
LAN交换机自学习算法提示第二层交完全忽略帧的数据部分协议,仅根据第二层以太网的MAC地址做出转发决策. MAC地址表有时又被称作内容可编址内存(CAM)表检查源MAC地址如果源MAC地址不存 ...
C++五子棋(二)——游戏界面与棋子渲染
准备我们首先要在程序中定义一个名为drawPNG的函数,用于输出png格式图片并使背景透明引入头文件(需要提前安装EasyX) #include <graphics.h> 定义函数 d ...
第十三届蓝桥杯省赛C/C++ B组
@(第十三届蓝桥杯省赛C/C++B组) A顺子日期答案是1478 B顺子日期答案14(如果012算的话) C刷题统计数据范围1e18,所以不能直接暴力,先取余,再暴力剩下的 #include&l ...

记一次生产事故的排查与优化——Java服务假死

记一次生产事故的排查与优化——Java服务假死的更多相关文章

随机推荐

热门专题