JVM命令-java服务器故障排查
一、top(Linux命令)
执行top命令: (查看进程15477的详细情况,下文用到)
系统信息(前五行):
- 第1行:Top 任务队列信息(系统运行状态及平均负载),与uptime命令结果相同。
- 第1段:系统当前时间,例如:16:07:37
- 第2段:系统运行时间,未重启的时间,时间越长系统越稳定。
- 格式:up xx days, HH:MM
- 例如:241 days, 20:11, 表示连续运行了241天20小时11分钟
- 第3段:当前登录用户数,例如:1 user,表示当前只有1个用户登录
- 第4段:系统负载,即任务队列的平均长度,3个数值分别统计最近1,5,15分钟的系统平均负载
- 系统平均负载:单核CPU情况下,0.00 表示没有任何负荷,1.00表示刚好满负荷,超过1侧表示超负荷,理想值是0.7;
- 多核CPU负载:CPU核数 * 理想值0.7 = 理想负荷,例如:4核CPU负载不超过2.8何表示没有出现高负载。
- 第2行:Tasks 进程相关信息
- 第1段:进程总数,例如:Tasks: 231 total, 表示总共运行231个进程
- 第2段:正在运行的进程数,例如:1 running,
- 第3段:睡眠的进程数,例如:230 sleeping,
- 第4段:停止的进程数,例如:0 stopped,
- 第5段:僵尸进程数,例如:0 zombie
- 第3行:Cpus CPU相关信息,如果是多核CPU,按数字1可显示各核CPU信息,此时1行将转为Cpu核数行,数字1可以来回切换。
- 第1段:
us
用户空间占用CPU百分比,例如:Cpu(s): 12.7%us, - 第2段:
sy
内核空间占用CPU百分比,例如:8.4%sy, - 第3段:
ni
用户进程空间内改变过优先级的进程占用CPU百分比,例如:0.0%ni, - 第4段:
id
空闲CPU百分比,例如:77.1%id, - 第5段:
wa
等待输入输出的CPU时间百分比,例如:0.0%wa, - 第6段:
hi
CPU服务于硬件中断所耗费的时间总额,例如:0.0%hi, - 第7段:
si
CPU服务软中断所耗费的时间总额,例如:1.8%si, - 第8段:
st
Steal time 虚拟机被hypervisor偷去的CPU时间(如果当前处于一个hypervisor下的vm,实际上hypervisor也是要消耗一部分CPU处理时间的)
- 第1段:
- 第4行:Mem 内存相关信息(Mem: 12196436k total, 12056552k used, 139884k free, 64564k buffers)
- 第1段:物理内存总量,例如:Mem: 12196436k total,
- 第2段:使用的物理内存总量,例如:12056552k used,
- 第3段:空闲内存总量,例如:Mem: 139884k free,
- 第4段:用作内核缓存的内存量,例如:64564k buffers
- 第5行:Swap 交换分区相关信息(Swap: 2097144k total, 151016k used, 1946128k free, 3120236k cached)
- 第1段:交换区总量,例如:Swap: 2097144k total,
- 第2段:使用的交换区总量,例如:151016k used,
- 第3段:空闲交换区总量,例如:1946128k free,
- 第4段:缓冲的交换区总量,3120236k cached
进程信息:
在top命令中按f按可以查看显示的列信息,按对应字母来开启/关闭列,大写字母表示开启,小写字母表示关闭。带*号的是默认列。
- A:
PID
= (Process Id) 进程Id; - E:
USER
= (User Name) 进程所有者的用户名; - H:
PR
= (Priority) 优先级 - I:
NI
= (Nice value) nice值。负值表示高优先级,正值表示低优先级 - O:
VIRT
= (Virtual Image (kb)) 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES - Q:
RES
= (Resident size (kb)) 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA - T:
SHR
= (Shared Mem size (kb)) 共享内存大小,单位kb - W:
S
= (Process Status) 进程状态。D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程 - K:
%CPU
= (CPU usage) 上次更新到现在的CPU时间占用百分比 - N:
%MEM
= (Memory usage (RES)) 进程使用的物理内存百分比 - M:
TIME
+ = (CPU Time, hundredths) 进程使用的CPU时间总计,单位1/100秒
b:PPID
= (Parent Process Pid) 父进程Id
c:RUSER
= (Real user name)
d:UID
= (User Id) 进程所有者的用户id
f:GROUP
= (Group Name) 进程所有者的组名
g:TTY
= (Controlling Tty) 启动进程的终端名。不是从终端启动的进程则显示为 ?
j:P
= (Last used cpu (SMP)) 最后使用的CPU,仅在多CPU环境下有意义
p:SWAP
= (Swapped size (kb)) 进程使用的虚拟内存中,被换出的大小,单位kb
l:TIME
= (CPU Time) 进程使用的CPU时间总计,单位秒
r:CODE
= (Code size (kb)) 可执行代码占用的物理内存大小,单位kb
s:DATA
= (Data+Stack size (kb)) 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb
u:nFLT
= (Page Fault count) 页面错误次数
v:nDRT
= (Dirty Pages count) 最后一次写入到现在,被修改过的页面数
y:WCHAN
= (Sleeping in Function) 若该进程在睡眠,则显示睡眠中的系统函数名
z:Flags
= (Task Flags <sched.h>) 任务标志,参考 sched.h - X:
COMMAND
= (Command name/line) 命令名/命令行
执行top -Hp PID,如 top -Hp 15477
查看某进程中的线程 注:此时PID是线程id
如线程15571有异常需要查看,使用jstack打印堆栈,查看线程15571状态(15571 16进制=3cd3)
二、jstack
需要到JDK安装目录下使用(可通过ps x查看java进程,得到jdk安装目录)
./jstack PID(进程id) ./jstack 15477
红框中即为线程15571(16进制=3cd3) 状态
分析jstack日志:
监视器Monitor:
Monitor是 Java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者 Class的锁。
每一个对象都有,也仅有一个 monitor。
下面这个图,描述了线程和Monitor之间关系,以及线程的状态转换:
进入区(Entrt Set):表示线程通过synchronized要求获取对象的锁。如果对象被锁住,则进入拥有者;否则在进入区等待。一旦对象锁被其他线程释放,立即参与竞争。
拥有者(The Owner):表示某一线程成功竞争到对象锁。
等待区(Wait Set):表示线程通过对象的object.wait()方法,释放对象的锁,并在等待区等待被唤醒。
从图中可以看出,一个 Monitor在某个时刻,只能被一个线程拥有,该线程就是 Active Thread
,而其它线程都是 Waiting Thread
,分别在两个队列 Entry Set
和 Wait Set
里面等候。
在 Entry Set
中等待的线程动作是 Waiting for monitor entry。
在 Wait Set
中等待的线程动作是 in Object.wait()
。当一个线程申请进入临界区时,它就进入了 Entry Set队列。
(我们称被 synchronized保护起来的代码段为临界区。当一个线程申请进入临界区时,它就进入了 “Entry Set ”队列)
线程状态:
NEW:未启动的。不会出现在Dump中。
RUNNABLE:在虚拟机内执行的,运行中状态。The Owner区
BLOCKED:受阻塞并等待监视器锁。在Entry Set区等锁。
WATING:无限期等待另一个线程执行特定操作。在Wait Set区等待某个condition或monitor发生,一般停留在wait()等语句里。
TIMED_WATING:有时限的等待另一个线程的特定操作。在Wait Set区和WAITING的区别是wait() 等语句加上了时间限制 wait(timeout)。
TERMINATED:已退出的。
调用修饰
表示线程在方法调用时,额外的重要的操作。修饰上方的方法调用。
locked <地址> 目标:使用synchronized申请对象锁成功,监视器的拥有者。The Owner区。
waiting to lock <地址> 目标:使用synchronized申请对象锁未成功,在Entry Set区等锁。线程状态为Blocked
waiting on <地址> 目标:使用synchronized申请对象锁成功后,释放锁,在Wait Set区等锁。线程状态为WAITING或TIMED_WATING
parking to wait for <地址> 目标:调用了park(),在Wait Set区,等待许可。
(park是基本的线程阻塞原语,不通过监视器在对象上阻塞。
park: 进入WAITING状态,对比wait不需要获得锁就可以让线程WAITING,通过unpark唤醒)
线程动作
线程状态产生的原因。
runnable:The Owner区,状态RUNNABLE
in Object.wait():调用wait(),Wait Set区,状态为WAITING或TIMED_WAITING,修饰waiting on
waiting for monitor entry:等锁,Entry Set区,状态BLOCKED,修饰waiting to lock
waiting on condition:因某种条件被park,Wait Set区,状态为parking to wait for
sleeping:休眠的线程,调用了Thread.sleep()
总结
1、查看线程dump,先看线程状态/线程动作(比较直观),可以确定线程目前处于哪个阶段。然后看调用修饰及锁情况,基本就可以确定次线程是否有问题;
2、可以短时间(可能有问题的时间段)内多次打印线程快照,然后查看可能有问题的某一线程在这几次的情况,可以有效查找问题。
三、jps
类似Linux命令ps
./jps
./jps -q
./jps -m
./jps -l
./jps -v
四、jmap
jmap -heap PID:堆使用情况
jmap -histo PID:对象情况
(jmap -histo:live 这个命令执行,JVM会先触发gc,然后再统计信息
重点看项目上的类:[C是字符串数组,String用;[B是字节数组,网络层用到。这两个比较大一般没关系
[C is a char[]
[S is a short[]
[I is a int[]
[B is a byte[]
[[I is a int[][]
)
JVM命令-java服务器故障排查的更多相关文章
- Java进程故障排查
故障分析 # 导致系统不可用情况(频率较大): 1)代码中某个位置读取数据量较大,导致系统内存耗尽,进而出现Full GC次数过多,系统缓慢: 2)代码中有比较消耗CPU的操作,导致CPU过高,系统运 ...
- Java进程故障排查思路及步骤
故障场景 Java进程出现问题,通常表现出如下现象: Web应用响应时间长/超时,甚至不响应 CPU使用率极高/低,频繁出现Full GC,甚至OutOfMemoryError 响应时间长.超时,甚至 ...
- java程序故障排查脚本之——CPU占用高
root@ubuntu-B85M-D3H:~/tmp# cat java_Analy.sh #!/bin/bash T=`ps -mp $1 -o THREAD,tid,time|sort -k 2 ...
- Java程序线上故障排查
目录 一.Linux 内存和cpu 网络 磁盘 /proc文件系统 二.JVM Java堆和垃圾收集器 gc日志分析 JVMTI介绍 Attach机制 java自带工具 三.三方工具 jprofile ...
- JVM 线上故障排查基本操作
# 前言 对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该 ...
- JVM 线上故障排查基本操作--CPU飙高
JVM 线上故障排查基本操作 CPU 飚高 线上 CPU 飚高问题大家应该都遇到过,那么如何定位问题呢? 思路:首先找到 CPU 飚高的那个 Java 进程,因为你的服务器会有多个 JVM 进程.然后 ...
- JVM 线上故障排查基本操作 (转)
前言 对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该如何 ...
- JVM 线上故障排查
JVM 线上故障排查 Linux 1.1 CPU 1.2 内存 1.3 存储 1.4 网络 一.CPU 飚高 寻找原因 二.内存问题排查 三.一般排查问题的方法 四.应用场景举例 4.1 怎么查看某个 ...
- Java服务器内存过高&CPU过高问题排查
一.内存过高 1.内存过高一般有两种情况:内存溢出和内存泄漏 (1)内存溢出:程序分配的内存超出物理机的内存大小,导致无法继续分配内存,出现OOM报错 (2)内存泄漏:不再使用的对象一直占据着内存不释 ...
随机推荐
- CPU架构及并发编程基础(一)
一.intel cpu发展计划tick-tock Tick-Tock是Intel发展微处理器芯片设计制造业务的一种战略模式.Intel指出,每一次处理器微架构的更新和每一次芯片制程的更新遵循“Tick ...
- hydra 密码破解工具详解
一.简介 hydra是著名黑客组织thc的一款开源的暴力密码破解工具,可以在线破解多种密码.官 网:http://www.thc.org/thc-hydra,可支持AFP, Cisco AAA, Ci ...
- JS阶段测试
JS阶段测试 一.选择题 1.表单中的数据要提交到的处理文件由表单的( c )属性指定. A. method B. name C. action D. 以上都不对 2.在CSS样式 ...
- 使用IDA PRO+OllyDbg+PEview 追踪windows API 动态链接库函数的调用过程
使用IDA PRO+OllyDbg+PEview 追踪windows API 动态链接库函数的调用过程 http://blog.csdn.net/liujiayu2/article/details/5 ...
- openssl-0.9.8y
openssl-0.9.8y 支持 32位和64位 编译不报错和向上兼容和向下兼容. http://www.openssl.org/source/openssl-0.9.8y.tar.gz https ...
- EasyHook远程进程注入并hook api的实现
EasyHook远程进程注入并hook api的实现 http://blog.csdn.net/v6543210/article/details/44276155
- HDU 5116 Everlasting L
题目链接:HDU-5116 题意:给定若干个整数点,若一个点集满足P = {(x, y), (x + 1, y), . . . , (x + a, y), (x, y + 1), . . . , (x ...
- 【LabVIEW技巧】代码块快速放置
前言 之前的文章中介绍了如何使用QuickDrop来实现快速代码放置,今天我们来详细的聊一下如何进行代码块的快速放置. 正文 LabVIWE程序设计中,我们在架构层级总是进行重复性的编写.举一个例子: ...
- ajax之深入解析(2)
我们前面实现了用原生的JavaScript代码实现ajax的异步数据传输.接下来,我们再使用一个流行的js框架jQuery来实现ajax. 通过 jQuery AJAX 方法,我们能够使用 HTTP ...
- 手机端调试console.log,直接引入一个js文件
http://files.cnblogs.com/files/lwwen/mConsole.js 这是我写的一个原生js文件 直接引入即可,可以把html上面的需要打印的东西打印出来 <!DOC ...