一、top(Linux命令)

 执行top命令:    (查看进程15477的详细情况,下文用到)

系统信息(前五行):

    • 第1行:Top 任务队列信息(系统运行状态及平均负载),与uptime命令结果相同。

      • 第1段:系统当前时间,例如:16:07:37
      • 第2段:系统运行时间,未重启的时间,时间越长系统越稳定。 
        • 格式:up xx days, HH:MM
        • 例如:241 days, 20:11, 表示连续运行了241天20小时11分钟
      • 第3段:当前登录用户数,例如:1 user,表示当前只有1个用户登录
      • 第4段:系统负载,即任务队列的平均长度,3个数值分别统计最近1,5,15分钟的系统平均负载 
        • 系统平均负载:单核CPU情况下,0.00 表示没有任何负荷,1.00表示刚好满负荷,超过1侧表示超负荷,理想值是0.7;
        • 多核CPU负载:CPU核数 * 理想值0.7 = 理想负荷,例如:4核CPU负载不超过2.8何表示没有出现高负载。
    • 第2行:Tasks 进程相关信息 
      • 第1段:进程总数,例如:Tasks: 231 total, 表示总共运行231个进程
      • 第2段:正在运行的进程数,例如:1 running,
      • 第3段:睡眠的进程数,例如:230 sleeping,
      • 第4段:停止的进程数,例如:0 stopped,
      • 第5段:僵尸进程数,例如:0 zombie
    • 第3行:Cpus CPU相关信息,如果是多核CPU,按数字1可显示各核CPU信息,此时1行将转为Cpu核数行,数字1可以来回切换。 
      • 第1段:us 用户空间占用CPU百分比,例如:Cpu(s): 12.7%us,
      • 第2段:sy 内核空间占用CPU百分比,例如:8.4%sy,
      • 第3段:ni 用户进程空间内改变过优先级的进程占用CPU百分比,例如:0.0%ni,
      • 第4段:id 空闲CPU百分比,例如:77.1%id,
      • 第5段:wa 等待输入输出的CPU时间百分比,例如:0.0%wa,
      • 第6段:hi CPU服务于硬件中断所耗费的时间总额,例如:0.0%hi,
      • 第7段:si CPU服务软中断所耗费的时间总额,例如:1.8%si,
      • 第8段:st Steal time 虚拟机被hypervisor偷去的CPU时间(如果当前处于一个hypervisor下的vm,实际上hypervisor也是要消耗一部分CPU处理时间的)
    • 第4行:Mem 内存相关信息(Mem: 12196436k total, 12056552k used, 139884k free, 64564k buffers) 
      • 第1段:物理内存总量,例如:Mem: 12196436k total,
      • 第2段:使用的物理内存总量,例如:12056552k used,
      • 第3段:空闲内存总量,例如:Mem: 139884k free,
      • 第4段:用作内核缓存的内存量,例如:64564k buffers
    • 第5行:Swap 交换分区相关信息(Swap: 2097144k total, 151016k used, 1946128k free, 3120236k cached) 
      • 第1段:交换区总量,例如:Swap: 2097144k total,
      • 第2段:使用的交换区总量,例如:151016k used,
      • 第3段:空闲交换区总量,例如:1946128k free,
      • 第4段:缓冲的交换区总量,3120236k cached

进程信息:

  在top命令中按f按可以查看显示的列信息,按对应字母来开启/关闭列,大写字母表示开启,小写字母表示关闭。带*号的是默认列。

    • A: PID = (Process Id) 进程Id;
    • E: USER = (User Name) 进程所有者的用户名;
    • H: PR = (Priority) 优先级
    • I: NI = (Nice value) nice值。负值表示高优先级,正值表示低优先级
    • O: VIRT = (Virtual Image (kb)) 进程使用的虚拟内存总量,单位kb。VIRT=SWAP+RES
    • Q: RES = (Resident size (kb)) 进程使用的、未被换出的物理内存大小,单位kb。RES=CODE+DATA
    • T: SHR = (Shared Mem size (kb)) 共享内存大小,单位kb
    • W: S = (Process Status) 进程状态。D=不可中断的睡眠状态,R=运行,S=睡眠,T=跟踪/停止,Z=僵尸进程
    • K: %CPU = (CPU usage) 上次更新到现在的CPU时间占用百分比
    • N: %MEM = (Memory usage (RES)) 进程使用的物理内存百分比
    • M: TIME+ = (CPU Time, hundredths) 进程使用的CPU时间总计,单位1/100秒 
      b: PPID = (Parent Process Pid) 父进程Id 
      c: RUSER = (Real user name) 
      d: UID = (User Id) 进程所有者的用户id 
      f: GROUP = (Group Name) 进程所有者的组名 
      g: TTY = (Controlling Tty) 启动进程的终端名。不是从终端启动的进程则显示为 ? 
      j: P = (Last used cpu (SMP)) 最后使用的CPU,仅在多CPU环境下有意义 
      p: SWAP = (Swapped size (kb)) 进程使用的虚拟内存中,被换出的大小,单位kb 
      l: TIME = (CPU Time) 进程使用的CPU时间总计,单位秒 
      r: CODE = (Code size (kb)) 可执行代码占用的物理内存大小,单位kb 
      s: DATA = (Data+Stack size (kb)) 可执行代码以外的部分(数据段+栈)占用的物理内存大小,单位kb 
      u: nFLT = (Page Fault count) 页面错误次数 
      v: nDRT = (Dirty Pages count) 最后一次写入到现在,被修改过的页面数 
      y: WCHAN = (Sleeping in Function) 若该进程在睡眠,则显示睡眠中的系统函数名 
      z: Flags = (Task Flags <sched.h>) 任务标志,参考 sched.h
    • X: COMMAND = (Command name/line) 命令名/命令行

参考 Linux性能分析工具top命令详解

执行top -Hp PID,如 top -Hp 15477

查看某进程中的线程  注:此时PID是线程id

如线程15571有异常需要查看,使用jstack打印堆栈,查看线程15571状态(15571 16进制=3cd3)

二、jstack

参考 java命令--jstack 工具

    Java命令学习系列(二)——Jstack

  需要到JDK安装目录下使用(可通过ps x查看java进程,得到jdk安装目录)

  ./jstack PID(进程id)   ./jstack 15477

  红框中即为线程15571(16进制=3cd3) 状态

分析jstack日志:

监视器Monitor:

Monitor是 Java中用以实现线程之间的互斥与协作的主要手段,它可以看成是对象或者 Class的锁。

每一个对象都有,也仅有一个 monitor。

下面这个图,描述了线程和Monitor之间关系,以及线程的状态转换:

进入区(Entrt Set):表示线程通过synchronized要求获取对象的锁。如果对象被锁住,则进入拥有者;否则在进入区等待。一旦对象锁被其他线程释放,立即参与竞争。

拥有者(The Owner):表示某一线程成功竞争到对象锁。

等待区(Wait Set):表示线程通过对象的object.wait()方法,释放对象的锁,并在等待区等待被唤醒。

从图中可以看出,一个 Monitor在某个时刻,只能被一个线程拥有,该线程就是 Active Thread,而其它线程都是 Waiting Thread,分别在两个队列 Entry Set和 Wait Set里面等候。

Entry Set中等待的线程动作是 Waiting for monitor entry。

在 Wait Set中等待的线程动作是 in Object.wait()。当一个线程申请进入临界区时,它就进入了 Entry Set队列。

(我们称被 synchronized保护起来的代码段为临界区。当一个线程申请进入临界区时,它就进入了 “Entry Set ”队列)

线程状态:

NEW:未启动的。不会出现在Dump中。

RUNNABLE:在虚拟机内执行的,运行中状态。The Owner区

BLOCKED:受阻塞并等待监视器锁。在Entry Set区等锁

WATING:无限期等待另一个线程执行特定操作。在Wait Set区等待某个condition或monitor发生,一般停留在wait()等语句里。

TIMED_WATING:有时限的等待另一个线程的特定操作。Wait Set区和WAITING的区别是wait() 等语句加上了时间限制 wait(timeout)。

TERMINATED:已退出的。

调用修饰

表示线程在方法调用时,额外的重要的操作。修饰上方的方法调用。

locked <地址> 目标:使用synchronized申请对象锁成功,监视器的拥有者。The Owner区。

waiting to lock <地址> 目标:使用synchronized申请对象锁未成功,在Entry Set区等锁。线程状态为Blocked

waiting on <地址> 目标:使用synchronized申请对象锁成功后,释放锁,在Wait Set区等锁。线程状态为WAITING或TIMED_WATING

parking to wait for <地址> 目标:调用了park(),在Wait Set区,等待许可。

(park是基本的线程阻塞原语,不通过监视器在对象上阻塞。

  park: 进入WAITING状态,对比wait不需要获得锁就可以让线程WAITING,通过unpark唤醒)

线程动作

线程状态产生的原因。

runnable:The Owner区,状态RUNNABLE

in Object.wait():调用wait(),Wait Set区,状态为WAITING或TIMED_WAITING,修饰waiting on

waiting for monitor entry:等锁,Entry Set区,状态BLOCKED,修饰waiting to lock

waiting on condition:因某种条件被park,Wait Set区,状态为parking to wait for

sleeping:休眠的线程,调用了Thread.sleep()

总结

1、查看线程dump,先看线程状态/线程动作(比较直观),可以确定线程目前处于哪个阶段。然后看调用修饰及锁情况,基本就可以确定次线程是否有问题;

2、可以短时间(可能有问题的时间段)内多次打印线程快照,然后查看可能有问题的某一线程在这几次的情况,可以有效查找问题。

三、jps

类似Linux命令ps

参考 Java命令学习系列(一)——Jps

./jps

./jps -q

./jps -m

./jps -l

./jps -v

四、jmap

参考  Java命令学习系列(三)——Jmap

java命令--jmap命令使用

jmap -heap PID:堆使用情况

jmap -histo PID:对象情况

(jmap -histo:live 这个命令执行,JVM会先触发gc,然后再统计信息

重点看项目上的类:[C是字符串数组,String用;[B是字节数组,网络层用到。这两个比较大一般没关系

  [C is a char[]
  [S is a short[]
  [I is a int[]
  [B is a byte[]
  [[I is a int[][]

JVM命令-java服务器故障排查的更多相关文章

  1. Java进程故障排查

    故障分析 # 导致系统不可用情况(频率较大): 1)代码中某个位置读取数据量较大,导致系统内存耗尽,进而出现Full GC次数过多,系统缓慢: 2)代码中有比较消耗CPU的操作,导致CPU过高,系统运 ...

  2. Java进程故障排查思路及步骤

    故障场景 Java进程出现问题,通常表现出如下现象: Web应用响应时间长/超时,甚至不响应 CPU使用率极高/低,频繁出现Full GC,甚至OutOfMemoryError 响应时间长.超时,甚至 ...

  3. java程序故障排查脚本之——CPU占用高

    root@ubuntu-B85M-D3H:~/tmp# cat java_Analy.sh #!/bin/bash T=`ps -mp $1 -o THREAD,tid,time|sort -k 2 ...

  4. Java程序线上故障排查

    目录 一.Linux 内存和cpu 网络 磁盘 /proc文件系统 二.JVM Java堆和垃圾收集器 gc日志分析 JVMTI介绍 Attach机制 java自带工具 三.三方工具 jprofile ...

  5. JVM 线上故障排查基本操作

    # 前言 对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该 ...

  6. JVM 线上故障排查基本操作--CPU飙高

    JVM 线上故障排查基本操作 CPU 飚高 线上 CPU 飚高问题大家应该都遇到过,那么如何定位问题呢? 思路:首先找到 CPU 飚高的那个 Java 进程,因为你的服务器会有多个 JVM 进程.然后 ...

  7. JVM 线上故障排查基本操作 (转)

    前言 对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该如何 ...

  8. JVM 线上故障排查

    JVM 线上故障排查 Linux 1.1 CPU 1.2 内存 1.3 存储 1.4 网络 一.CPU 飚高 寻找原因 二.内存问题排查 三.一般排查问题的方法 四.应用场景举例 4.1 怎么查看某个 ...

  9. Java服务器内存过高&CPU过高问题排查

    一.内存过高 1.内存过高一般有两种情况:内存溢出和内存泄漏 (1)内存溢出:程序分配的内存超出物理机的内存大小,导致无法继续分配内存,出现OOM报错 (2)内存泄漏:不再使用的对象一直占据着内存不释 ...

随机推荐

  1. CPU架构及并发编程基础(一)

    一.intel cpu发展计划tick-tock Tick-Tock是Intel发展微处理器芯片设计制造业务的一种战略模式.Intel指出,每一次处理器微架构的更新和每一次芯片制程的更新遵循“Tick ...

  2. hydra 密码破解工具详解

    一.简介 hydra是著名黑客组织thc的一款开源的暴力密码破解工具,可以在线破解多种密码.官 网:http://www.thc.org/thc-hydra,可支持AFP, Cisco AAA, Ci ...

  3. JS阶段测试

    JS阶段测试 一.选择题 1.表单中的数据要提交到的处理文件由表单的( c )属性指定. A. method     B. name    C. action    D. 以上都不对 2.在CSS样式 ...

  4. 使用IDA PRO+OllyDbg+PEview 追踪windows API 动态链接库函数的调用过程

    使用IDA PRO+OllyDbg+PEview 追踪windows API 动态链接库函数的调用过程 http://blog.csdn.net/liujiayu2/article/details/5 ...

  5. openssl-0.9.8y

    openssl-0.9.8y 支持 32位和64位 编译不报错和向上兼容和向下兼容. http://www.openssl.org/source/openssl-0.9.8y.tar.gz https ...

  6. EasyHook远程进程注入并hook api的实现

    EasyHook远程进程注入并hook api的实现 http://blog.csdn.net/v6543210/article/details/44276155

  7. HDU 5116 Everlasting L

    题目链接:HDU-5116 题意:给定若干个整数点,若一个点集满足P = {(x, y), (x + 1, y), . . . , (x + a, y), (x, y + 1), . . . , (x ...

  8. 【LabVIEW技巧】代码块快速放置

    前言 之前的文章中介绍了如何使用QuickDrop来实现快速代码放置,今天我们来详细的聊一下如何进行代码块的快速放置. 正文 LabVIWE程序设计中,我们在架构层级总是进行重复性的编写.举一个例子: ...

  9. ajax之深入解析(2)

    我们前面实现了用原生的JavaScript代码实现ajax的异步数据传输.接下来,我们再使用一个流行的js框架jQuery来实现ajax. 通过 jQuery AJAX 方法,我们能够使用 HTTP ...

  10. 手机端调试console.log,直接引入一个js文件

    http://files.cnblogs.com/files/lwwen/mConsole.js 这是我写的一个原生js文件 直接引入即可,可以把html上面的需要打印的东西打印出来 <!DOC ...