前言

作为后端开发工程师,当收到线上服务器CPU负载过高告警时,你会这么做?重启服务,忽略告警?不过在我看来一个合格的工程师是一定要定位到具体问题所在的,从而 fix 它。下面记录一下线上服务器 CPU 负载过高排查过程,把排查流程理清楚,以后遇到问题将会迅速定位到问题所在,快速解决。

什么样的场景会导致线上CPU负载过高?

代码层面常见的场景有:

  1. 程序陷入死循环,不停地消耗CPU
  2. 线程死锁,线程相互等待,导致假死状态,不停地消耗CPU

程序死循环场景

这里使用 JAVA 简单模拟程序死循环带来的系统高负载情况,代码如下:

 1/**
2 * @program: easywits
3 * @description: 并发下的 HashMap 测试....
4 * @author: zhangshaolin
5 * @create: 2018-12-19 15:27
6 **/
7public class HashMapMultiThread {
8
9    static Map<String, String> map = new HashMap<>();
10
11    public static class AddThread implements Runnable {
12
13        int start = 0;
14        public AddThread(int start) {
15            this.start = start;
16        }
17        @Override
18        public void run() {
19            //死循环,模拟CPU占用过高场景
20            while (true) {
21                for (int i = start; i < 100000; i += 4) {
22                    map.put(Integer.toString(i), Integer.toBinaryString(i));
23                }
24            }
25        }
26        public static void main(String[] args) throws InterruptedException {
27            //线程并发对 HashMap 进行 put 操作  如果一切正常,则得到 map.size() 为100000
28
29            //可能的结果:
30            //1. 程序正常,结果为100000
31            //2. 程序正常,结果小于100000
32            Thread thread1 = new Thread(new AddThread(0), "myTask-1");
33            Thread thread2 = new Thread(new AddThread(1), "myTask-2");
34            Thread thread3 = new Thread(new AddThread(2), "myTask-3");
35            Thread thread4 = new Thread(new AddThread(3), "myTask-4");
36            thread1.start();
37            thread2.start();
38            thread3.start();
39            thread4.start();
40            thread1.join();
41            thread2.join();
42            thread3.join();
43            thread4.join();
44            System.out.println(map.size());
45        }
46    }
47}

线程死锁场景

同样使用 JAVA 程序简单模拟线程死锁场景,代码如下:

 1/**
2 * @program: easywits
3 * @description: 死锁 demo ....
4 * 1.两个线程里面分别持有两个Object对象:lock1和lock2。这两个lock作为同步代码块的锁;
5 * 2.线程1的run()方法中同步代码块先获取lock1的对象锁,Thread.sleep(xxx),时间不需要太多,50毫秒差不多了,然后接着获取lock2的对象锁。
6 * 这么做主要是为了防止线程1启动一下子就连续获得了lock1和lock2两个对象的对象锁
7 * 3.线程2的run)(方法中同步代码块先获取lock2的对象锁,接着获取lock1的对象锁,当然这时lock1的对象锁已经被线程1锁持有,线程2肯定是要等待线程1释放lock1的对象锁的
8 * <p>
9 * 线程1″睡觉”睡完,线程2已经获取了lock2的对象锁了,线程1此时尝试获取lock2的对象锁,便被阻塞,此时一个死锁就形成了。
10 * @author: zhangshaolin
11 * @create: 2018-12-20 11:33
12 **/
13public class DeadLock {
14
15    static Object lock1 = new Object();
16    static Object lock2 = new Object();
17
18    public static class Task1 implements Runnable {
19
20        @Override
21        public void run() {
22            synchronized (lock1) {
23                System.out.println(Thread.currentThread().getName() + " 获得了第一把锁!!");
24
25                try {
26                    Thread.sleep(50);
27                } catch (InterruptedException e) {
28                    e.printStackTrace();
29                }
30
31                synchronized (lock2) {
32                    System.out.println(Thread.currentThread().getName() + " 获得了第二把锁!!");
33                }
34            }
35        }
36    }
37
38    public static class Task2 implements Runnable {
39
40        @Override
41        public void run() {
42            synchronized (lock2) {
43                System.out.println(Thread.currentThread().getName() + " 获得了第二把锁!!");
44
45                synchronized (lock1) {
46                    System.out.println(Thread.currentThread().getName() + " 获得了第一把锁!!");
47                }
48            }
49        }
50    }
51
52    public static void main(String[] args) throws InterruptedException {
53        Thread thread1 = new Thread(new Task1(), "task-1");
54        Thread thread2 = new Thread(new Task2(), "task-2");
55        thread1.start();
56        thread2.start();
57
58        thread1.join();
59        thread2.join();
60        System.out.println(Thread.currentThread().getName() + " 执行结束!");
61    }
62}

以上两种场景代码执行后,不出意外,系统CPU负载将会飙升,我的机器,4核CPU已经明显感觉到卡顿了,所以线上应该杜绝出现死循环代码。。

使用`top` 命令监控当前系统负载情况

执行第一种场景测试代码。

linux 命令行键入 top 指令后,就开始实时监控当前系统的负载信息,监控到的负载信息如下图所示:

从图中的监控信息可以快速大致的了解到,PID17499的进程CPU负载高达328+%,是一个 JAVA 程序。简单介绍下监控信息如下:

  • PID:进程的ID  
  • USER:进程所有者
  • PR:进程的优先级别,越小越优先被执行
  • VIRT:进程占用的虚拟内存
  • RES:进程占用的物理内存
  • SHR:进程使用的共享内存
  • S:进程的状态。S表示休眠,R表示正在运行,Z表示僵死状态,N表示该进程优先值为负
  • %CPU:进程占用CPU的使用率
  • %MEM:进程使用的物理内存和总内存的百分比
  • TIME+:该进程启动后占用的总的CPU时间,即占用CPU使用时间的累加值

在监控页面下 按键盘数字 1 可以看到每个CPU的负载情况,如下图:

可以看到开了四个线程,无限循环之后,我的机器中四个核心CPU,每颗负载接近百分百。

使用 `top` 命令监控进程中负载过高的线程

top -H -p pid: 查看指定进程中每个线程的资源占用情况(每条线程占用CPU时间的百分比),监控结果如下图:

以上监控指令输出的指标针对的是某个进程中的线程,从图中看可以快速得出结论:四个 JAVA 线程CPU负载极高,线程ID分别为:17532,17535,17533,17534,注意这里打印出来的线程ID为十进制的哦!

根据`进程pid`&&`线程id`查看线程堆栈信息

  • jstack pid:查看指定进程中线程的堆栈信息,这个命令最终会打印出指定进程的线程堆栈信息,而实际线上情况发生时,我们应当把快速把堆栈信息输出到日志文本中,保留日志信息,然后迅速先重启服务,达到临时缓解服务器压力的目的。

  • jstack 17499 &gt; ./threadDump.log:将线程堆栈信息输出到当前目录下的 threadDump.log 文件。

注意:jstack 打印出的线程id号为十六进制,而 top 命令中打印出来的线程号为十进制,需要进行转换后,定位指定线程的堆栈信息

这里分析日志文件后,过滤出四个线程堆栈信息如下图:

从这四个线程执行的堆栈信息,很明显的看出:导致CPU飙升的程序正在执行 HashMap 的 put 操作。

友情提示:测试代码最好不要在公司的线上环境做测试哦!

更多原创文章会在公众号第一时间推送,欢迎扫码关注 张少林同学

线上CPU100%?看看这篇是怎么排查的!的更多相关文章

  1. 一次性搞清楚线上CPU100%,频繁FullGC排查套路

    “ 处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及 Full GC 次数过多的问题. 当然,这些问题最终导致的直观现象就是系统运行缓慢,并且有大量的报警. 本文主要针对系统 ...

  2. 【原创】谈谈线上CPU100%排查套路

    引言 不知道在大家面试中,有没有遇到这个问题 生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢? 这个问题分为两版回答! 高调版 对不起,我是做研发的,这个问 ...

  3. 线上CPU100%排查

    生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题? 这个问题分为两版回答!高调版对不起,我是做研发的,这个问题在生产上是不可能遇见的!因为研发是不可能直接操作生 ...

  4. 谈谈线上CPU100%排查套路

    知识点总结 ---------------------------------------------------------------------------------------------- ...

  5. 告诉你如何回答"线上CPU100%排查"面试问题

    不知道在大家面试中,有没有遇到这个问题: 生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢? 这个问题分为两版回答!高调版对不起,我是做研发的,这个问题在生产 ...

  6. 性能分析 | 线上CPU100%排查

    不知道在大家面试中,有没有遇到这个问题: 生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢? 这个问题分为两版回答! 高调版 对不起,我是做研发的,这个问题在 ...

  7. 线上 CPU100% 排查方案

    问题:生产服务器上部署了几个java程序,突然出现了CPU100%的异常告警,你如何定位出问题呢? 下面给出两种系统下的排查步骤,都是一模一样的,只是命令稍有区别! 查消耗cpu最高的进程PID 根据 ...

  8. 线上cpu100%问题快速定位

    问题描述:服务器上部署了多个tomcat,即垂直切分的Web站点,记忆多个Java微服务,突然收到运维的cpu异常告警. 步骤一:找到最耗cpu的进程 工具:top 方法: 执行top -c,显示进程 ...

  9. 如何回答“线上CPU100%排查”面试问题

    案例: public class App { public static void main( String[] args ) { int a = 0; while (a < 100) { a ...

随机推荐

  1. 147. Insertion Sort List (List)

    Sort a linked list using insertion sort. class Solution { public: ListNode *insertionSortList(ListNo ...

  2. Java核心技术-接口、lambda表达式与内部类

    本章将主要介绍: 接口技术:主要用来描述类具有什么功能,而并不给出每个功能的具体实现.一个类可以实现一个或多个接口. lambda表达式:这是一种表示可以在将来的某个时间点执行的代码块的简洁方法. 内 ...

  3. jmeter-plugins-dubbo & DevToolBox

    jmeter-plugins-dubbo使用 A. 下载jmeter并安装,http://jmeter.apache.org/download_jmeter.cgi(文中使用的版本是3.3,理论上高版 ...

  4. Ubuntu设置屏幕分辨率

    Ubuntu设置屏幕分辨率 原创 2016年10月14日 13:01:24 14900 在虚拟机装好Ubuntu,进入系统分辨率是800*600,打开显示界面设置下分辨率,设置完怎么也选不上应用,于是 ...

  5. rsyslog收集nginx日志配置

    rsyslog日志收集配置 rsyslog服务器收集各服务器的日志,并汇总,再由logstash处理 请查看上一篇文章  http://bbotte.blog.51cto.com/6205307/16 ...

  6. Jedis连接Redis三种模式

    这里说的三种工作模式是指: 1.单机模式 2.分片模式 3.集群模式(since 3.0) 说明图详见以下: 使用单机模式连接: private String addr="192.168.1 ...

  7. Ubuntu14.04下FTP服务器的搭建配置 标签: ubuntuftp服务器虚拟机 2017-06-13 15:24 161人阅读 评

    首先说明一下,我是在虚拟机中装的Ubuntu14.04,物理机是Win10,最初只是为了在两个系统间传输文件才在Ubuntu中安装了ftp服务器,从Windows端登陆其即可.最初也是按照网上的各种教 ...

  8. 开源项目spring-shiro-training思维导图

    写在前面 终于完成了一个开源项目的思维导图解读.选spring-shiro-training这个项目解读是因为它开源,然后涉及到了很多我们常用的技术,如缓存,权限,任务调度,ssm框架,Druid监控 ...

  9. HUST软工1505班第0周作业成绩公布

    说明 本次公布的成绩包含三次作业的结果: 毕博平台课前测试题 第0周作业1:开设博客 第0周作业2:博客阅读和思考 如果同学对作业结果存在异议,可以: 在线平台的第一周在线答疑中创建话题申诉. 或直接 ...

  10. git 进阶操作

    1.blame git blame +文件名,可以查看到某个文件每一行最近一次是由谁编辑修改的.-L 22,33 选项可以制定 2.bisect 开始git bisect:   $ git bisec ...