记一次生产环境tomcat线程数打满情况分析
前言
旨在分享工作中遇到的各种问题及解决思路与方案,与大家一起学习. -- 学无止境, 加油 ! Just do it !
问题描述
运行环境描述
tomcat-8.5
单节点(该应用集群20个节点) avg-tps 250,max-tps 350
tomcat max-threads:200 (下图蓝色线)
tomcat busy-threads 正常(下图绿色线)
tomcat cur-threads飞升(下图黄色线)
每次黄色线上升时可以发现原本平均响应时间100ms内的接口响应时间均在3-10s

提出问题
使用grafana监控发现服务某个节点的cur线程数会暴涨直至Max-threads数且一直无法回收
期望
解决cur-threads回收问题,让线程正常回收
原因分析
线程问题首先来一波jstack
上图是当时某个节点线程飙升时dump下来的线程日志,在这个时间点的线程中有大量的TIMED_WAITING 状态,可以先复习一波线程状态了,走起.Java线程的5种状态
新建状态(New): 线程对象被创建后,就进入了新建状态。例如,Thread thread = new Thread()。
就绪状态(Runnable): 也被称为“可执行状态”。线程对象被创建后,其它线程调用了该对象的start()方法,从而来启动该线程。例如,thread.start()。处于就绪状态的线程,随时可能被CPU调度执行。
运行状态(Running): 线程获取CPU权限进行执行。需要注意的是,线程只能从就绪状态进入到运行状态。
阻塞状态(Blocked): 阻塞状态是线程因为某种原因放弃CPU使用权,暂时停止运行。直到线程进入就绪状态,才有机会转到运行状态。阻塞的情况分三种:
等待阻塞 -- 通过调用线程的wait()方法,让线程等待某工作的完成。
同步阻塞 -- 线程在获取synchronized同步锁失败(因为锁被其它线程所占用),它会进入同步阻塞状态。
其他阻塞 -- 通过调用线程的sleep()或join()或发出了I/O请求时,线程会进入到阻塞状态。当sleep()状态超时、join()等待线程终止或者超时、或者I/O处理完毕时,线程重新转入就绪状态。
死亡状态(Dead): 线程执行完了或者因异常退出了run()方法,该线程结束生命周期。

Jstack中常见的线程状态
RUNNABLE 线程运行中或I/O等待
BLOCKED 线程在等待monitor锁(synchronized关键字)
TIMED_WAITING 线程在等待唤醒,但设置了时限(lock.wait(10))
WAITING 线程在无限等待唤醒(lock.wait(10))
复习完了,结合上面的线程日志以及服务中高并发的接口,找到有用到lock锁的接口,分析代码,到这一步基本算是找到解题思路了,如此多的线程等待是因为并发的查询接口缓存穿透了 接下来还要dump下这个节点的堆内存来具体分析,准确定位,下图是堆内存日志:
很明显可以看到堆中的大对象内容,结合实际业务可以准确定位需要优化的接口了,那么cur-threads线程数为什么一直增长呢?为什么不回收呢?带着这两个疑问,我们先去找下tomcat官网针对这两个参数的描述; 
上图可以看到最大线程数默认是200,初始化空闲线程数10,与我们线上环境一致(附上图中tomcat资料链接)

上图也是找的tomcat官网(附上图中tomcat资料),第三个参数 maxIdleTime 线程闲置一分钟后会被回收
总结
cur-threads一直增长的原因
接口并发且发生了大量缓存穿透(线程日志中大量time_wait线程是项目中防缓存穿透使用的锁),造成锁等待,进而造成tomcat当前线程不够用,所以cur线程数据增加,每次在线程数增加的时候接口响应均达到秒级别,可能创建Thread比较消耗资源,这块有待验证!
tomcat线程一直不回收的原因
Tomcat线程池每次从队列头部取线程去处理请求,请求完结束后再放到队列尾部,在高并发下,每个线程都会在短时间内被使用,达不到1分钟空闲被回收的条件
解决方案与建议
需要优化响应慢的接口(治本)
如果可以,降低接口并发(治标)
适当增加tomcat的maxThreads值可以提升应用性能(不是越大越好,最优配置数值需要模拟pro环境经过大量压测对比得出)
优化后

本次改造有两个点
降低并发(比如serv A->serv-B,查询并发比较高,可以根据实际业务考虑在A系统做缓存,降低B系统并发)
优化响应慢的接口 (如果业务复杂可以先考虑设计是否合理再考虑技术改造(多线程,缓存中间件))
上图是在改造后的第二天可以明显看到cur线程数有一个下降,基本验证思路正确.
欢迎关注个人订阅号:Java技术宝典 ,及时获取最新分享. 
记一次生产环境tomcat线程数打满情况分析的更多相关文章
- 聊下并发和Tomcat线程数(错误更正)
本文前半部分结论存在严重错误,请看最后2015-1-20更新部分. 最近一直在解决线上一个问题,表现是: Tomcat每到凌晨会有一个高峰,峰值的并发达到了3000以上,最后的结果是Tomcat线程池 ...
- 浅谈并发和tomcat线程数
假设Tomcat每到固定一个时间会有一个高峰,峰值的并发达到了3000以上,最后的结果是Tomcat线程池满了,日志看很多请求超过了1s. 服务器性能很好,Tomcat版本是7.0.54,配置如下 & ...
- 并发和Tomcat线程数
转自 http://zhanjindong.com 最近一直在解决线上一个问题,表现是: Tomcat每到凌晨会有一个高峰,峰值的并发达到了3000以上,最后的结果是Tomcat线程池满了,日志看很多 ...
- Tomcat线程数与处理速度的关系
问题:Tomcat线程数是不是越大越好呢? 答案肯定是否定的. Tomcat的处理速度跟线程数不是完全成正比的,设置不恰当会出现相反的效果.服务的负载计算包括了CPU的使用率和资源等待. 第一种情况, ...
- tomcat高并发优化的参数优化并查看tomcat线程数
在Tomcat配置文件conf下面 server.xml 中的配置中和连接数相关的参数有: minProcessors:最小空闲连接线程数,用于提高系统处理性能,默认值为10 maxProcessor ...
- 记一次生产环境thrift服务的配置问题
问题现象 有客户反馈我们的产品有时反应很慢,处理会出现超时. 问题分析过程 1.第一反应可能是用户增加,并发量太大了,询问了运营,最近用户注册数据并没有猛增. 2.分析access日志,发现有隔一段时 ...
- spring boot tomcat 线程数 修改初始线程数 统计性能 每百次请求耗时
[root@f java]# tail -30 nohup.outsearchES-TimeMillisSpent:448P->1602@fT->http-nio-8080-exec-3t ...
- 记一次生产环境axis2服务特别慢的问题。
情况如下: 某服务,在测试环境测试的时候整个响应过程也就0.5s左右,测试环境和生产环境axis2版本一致,tomcat版本一致,但是生产环境需要差不多20S. 后来,越来越慢,导致服务一起来,整个生 ...
- 聊下并发和Tomcat线程数(Updated)
最近一直在解决线上一个问题,表现是: Tomcat每到凌晨会有一个高峰,峰值的并发达到了3000以上,最后的结果是Tomcat线程池满了,日志看很多请求超过了1s. 服务器性能很好,Tomcat版本是 ...
随机推荐
- 虚拟DOM Vitural DOM Tree
提起Virtual DOM,总是给人一种高深莫测的感觉,大家都知道它比DOM快.那么Virtual DOM到底是何方神圣呢?在深入理解Virtual DOM之前,先让我们回顾一下DOM. 一.什么 ...
- 设计模式:visitor模式
核心:将数据结构和数据的处理分开 注意:注意函数的参数传递和调用关系 例子: class Element; class Visitor { public: virtual void Visit(Ele ...
- DJANGO-天天生鲜项目从0到1-008-列表页
本项目基于B站UP主‘神奇的老黄’的教学视频‘天天生鲜Django项目’,视频讲的非常好,推荐新手观看学习 https://www.bilibili.com/video/BV1vt41147K8?p= ...
- 【Nginx】并发量太高,Nginx扛不住?这次我错怪Nginx了!!
写在前面 最近,在服务器上搭建了一套压测环境,不为别的,就为压测下Nginx的性能,到底有没有传说中的那么牛逼!具体环境为:11台虚拟机,全部安装CentOS 6.8 64位操作系统,1台安装部署Ng ...
- Delphi获取文件名、不带扩展名文件名、文件所在路径、上级文件夹路径的方法
1.获取不带扩展名的文件名方法,利用ChangeFileExt函数修改传入参数的扩展为空,并不会对文件本身产生变更. ChangeFileExt(ExtractFileName('D:\KK\Test ...
- SOLID:面向对象设计的前五项原则
S.O.L.I.D是Robert C. Martin提出的前五个面向对象设计(OOD)原则的首字母缩写,他更为人所熟知的名字是Uncle Bob. 将这些原理结合在一起,可使程序员轻松开发易于维护 ...
- 7个获取访问者真实IP的方法,速学!!!
通常情况下,网站访问并不是简单地从用户的浏览器直达服务器,中间可能部署有CDN.WAF.高防.例如,采用这样的架构:“用户 > CDN/WAF/高防 > 源站服务器” .那么,在经过多层代 ...
- 读懂操作系统之快表(TLB)原理(七)
前言 前不久.我们详细分析了TLB基本原理,本节我们通过一个简单的示例再次叙述TLB的算法和原理,希望借此示例能加深我们对TLB(又称之为快表,深入理解计算机系统(第三版)又称之为翻译后备缓冲区)的理 ...
- emacs org-mode 中文手册精简版(纯小白)
一只小白看了大佬的讲解视频结合其他大佬给整理的笔记再结合emacs 官方英文手册,觉得自己的知识好像增加了. 当时自己在全网搜索的时候没有看到那种纯小白的手册,本小白就写了这个,就当奉献社会了.若有不 ...
- pandas_使用透视表与交叉表查看业绩汇总数据
# 使用透视表与交叉表查看业绩汇总数据 import pandas as pd import numpy as np import copy # 设置列对齐 pd.set_option("d ...