火焰图--记一次cpu降温过程
引子
正值周末,娃儿6:30又如闹铃般准时来叫醒了我们。年前离开美菜,又回到了杭州。原本是想有更多时间陪伴娃儿,然而新的工作节奏与工作地点,让我们每天都是早上见面;这不,为了周末可以多玩一会儿,早早就过来唤醒我们。因为前几天我们就约好了周末一起放风筝。有些事儿,我以为只是随口一说,小孩子确真真的记着。
吃过早饭,拉着媳妇儿,领着娃,带上风筝就出门了。其实我是忐忑的,因为我也从来没有把风筝放起来过。来到草坪上,娃就拉着风筝如脱缰之马跑了起来。小孩子的幸福就这么简单,无关乎风筝能飞多高。

迎着暖暖朝阳,吹着徐徐春风,一下子感觉2周加班的疲惫都消散了。然而,一阵儿急促的“钉钉”声打破了难得的宁静:Warning, ***applicaiton, cpu 高于51%,持续2分钟。此服务涉及大部分单车投放操作,目前是新老并用,我们是新服务,tps不高,但业务非常重要。于是拉着还未尽兴的娃儿,回去处理问题了。当然我的内心是紧张而喜悦的,每次的故障就是一次学习的机会。
问题分析
既然是cpu告警,首先查看cpu最近的使用情况,一看得到两条信息:1,下图中剪头所指的地方就是促发告警的阀值,2,cpu一直在40-50%上下徘徊 。
我想大家看到这个图也明白了:告警是正常的,目前cpu的情况很容易就会促发告警。反思一分钟:整天埋头支撑业务,连系统的如此重要指标都没有关注到。然后迅速回忆最近上线的功能,想到2月底,上线过电子锁的需求,但是系统已经无法查看2月分的cpu日志,接下来我们需要去找出问题。

排除内存原因
平时很少有处理生产环境cpu过高问题,真正碰到这样的场景还是蒙圈的。看看网上好些帖子都是说: heap 内存不足,分配内存失败,会导致cpu偏高。首先使用jstat -gcutil 查看内存使用情况,如下图,可见 新生代的区域 survivor0, survivor1, eden 以及老生代都正常,FGC 也正常。

jstat -gcutil 参数说明如下
重新再来
遇到问题,猜是需要经验的,瞎忙是没用的,既然没经验那就一步一步来验证吧;
1, ps -ef | grep java 找到进程id
2, top -H -p 9527 找到占cpu的线程

3, 使用jstack 分别找也上面的线程的具体内容,比如第一个线程 。
a, 转化线程id为16进制 printf '%x\n' ,输出 6d8d, 因为jstack 中线程id 是16进制的。
b,jstack | grep 6d8d ,找到此线程

c, 再用同样的方法,发现其他几个线程也是 kafka 消费者引起的。

4,知道问题在于消费kafka了,原来上次做电子锁需求时,为了拿到开锁结果,监听了一个kafka topic,这是一个特别核心的topic(后来听其他同事说,这是公司消息量最多的上个topic了),
随手查了下一个小时的数据26亿/h,也就是 70w/s, 如此巨大的tps, 而此服务只有两个结点,cpu维持在50%左右就不奇怪了。
到这里,我还想再深究下,到底时哪几行代码占了cpu, 那应该如何找到这些代码呢。说来真是特别巧,上周5听了测试同学的性能测试分享,后来还找时间了解了其中的火焰图(flame graph)和arthas , 对就是“火焰图”- 今天的主角儿。关于火焰图有几个基本的知识就可以简单分析了:
1,y-axis 表示调用父子关系,下面函数是上面的parent;
2 x-axis 表示抽样合并的结果,越宽表示调用频率越高,即执行的时间长;
3 颜色,左右,没有特别的意义。
一开始看到火焰图,也是特别蒙圈的,下面有几个文章特别不错,英文文档读起来不算太复杂,中文的似乎就是翻译英文文档。
英文文档:
http://www.brendangregg.com/flamegraphs.html , https://queue.acm.org/detail.cfm?id=2927301
中文说明:
http://www.ruanyifeng.com/blog/2017/09/flame-graph.html
火焰图demo:
https://queue.acm.org/downloads/2016/Gregg7.svg
火焰图实践
1,clone javaFlameGraph,git 地址如下:https://github.com/saquibkhan/javaFlameGraph,
有一个地方要特别注意下:javaFlameGraph 核心是调用 FlameGraph中的实现,如图中剪头所指的项目,要确保FlameGraph也下载了。

2,拉出一个节点摘掉流量,上传clone的文件。
3,到上传文件的所在目录执行 ./flame-gen.sh 27931 ,等待30s, control +c 就开始生成报告了。

4,报告为当前目录下的 flame.html , 找开就是生成的火焰图了。如下图。

这个图是可交互的,可以点击每个长方形获取更多详情的信息,如图,可看到有很多都是消耗都是 fastjson的 perseobject,因为我们每收到一个消息,会使用fastjson解析,过滤出指定的消息。

说明下其中几个除kafka相关线程外的线程,参考文章地址:https://blog.csdn.net/clamaa/article/details/70045983
DestroyJavaVM:
执行main()的线程在main执行完后调用JNI中的 jni_DestroyJavaVM() 方法唤起DestroyJavaVM 线程。JVM在服务器启动之后,就会唤起DestroyJavaVM线程,处于等待状态,等待其它线程(java线程和native线程)退出时通知它卸载JVM。线程退出时,都会判断自己当前是否是整个JVM中最后一个非daemon线程,如果是,则通知DestroyJavaVM 线程卸载JVM。
Surrogate Locker Thread:
这个线程主要用于配合CMS垃圾回收器使用,它是一个守护线程,其主要负责处理GC过程中,Java层的Reference(指软引用、弱引用等等)与jvm 内部层面的对象状态同步。
结语
因为工作的原因,很少有机会处理高tps场景下的问题,终于理性的分析了一次生产环境cpu的问题,相信以后的再有这样的情况会从容一些。因为经验不足,文章中也有很多不足的地方,欢迎指出;如果觉得有用,也欢迎点赞鼓励。
成为一名优秀的程序员!
火焰图--记一次cpu降温过程的更多相关文章
- 如何利用火焰图定位 Java 的 CPU 性能问题
常见 CPU 性能问题 你所负责的服务(下称:服务)是否遇到过以下现象: 休息的时候,手机突然收到大量告警短信,提示服务的 99.9 line 从 20ms 飙升至 10s: 正在敲代码实现业务功能 ...
- Linux程序性能分析和火焰图
Linux程序性能分析和火焰图 Linux程序的性能分析工具数量比较多,涉及到整个操作系统的方方面面,可能是开源的原因吧,相对于Windows来说丰富太多.其中应用分析性能方面Dtrace, Syst ...
- 用 CPI 火焰图分析 Linux 性能问题
https://yq.aliyun.com/articles/465499 用 CPI 火焰图分析 Linux 性能问题 yangoliver 2018-02-11 16:05:53 浏览1076 ...
- perf + 火焰图用法 小结
要对新服务做性能测试,分析代码热点,初识perf,做下总结 perf + 火焰图用法 perf简介 Perf (Performance Event), Linux 系统原生提供的性能分析工具, 会返回 ...
- 火焰图&perf命令
最近恶补后端技术,发现还是很多不懂,一直写业务逻辑容易迷失,也没有成长.自己做系统,也习惯用自己已知的知识来解决,以后应该多点调研,学到更多的东西应用起来. 先学一个新的性能分析命令. NAME pe ...
- Linux下用火焰图进行性能分析【转】
转自:https://blog.csdn.net/gatieme/article/details/78885908 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原 ...
- 火焰图(Flame Graphs)的安装和基本用法
火焰图(Flame Graphs) 一.概述: 火焰图(flame graph)是性能分析的利器,通过它可以快速定位性能瓶颈点. perf 命令(performance 的缩写)是 Linux 系统原 ...
- 记一次获得 3 倍性能的 go 程序优化实践,及 on-cpu / off-cpu 火焰图的使用
转自:https://mp.weixin.qq.com/s/9IKaXeWTiiQTFlvZzxgsEA 记一次获得 3 倍性能的 go 程序优化实践,及 on-cpu / off-cpu 火焰图的使 ...
- CPU火焰图
y轴:栈深度 x轴:cpu时间 长方形:一个栈(方法) 长度:出现在监视器中的时长(占用cpu的时间) 其他:从左到右的顺序只是按字母排序,无其他意义 火焰图就是看顶层的哪个函数占据的宽度最大.只要有 ...
随机推荐
- C# 关于位运算的学习笔记
一.理解什么是位运算 程序中的所有内容在计算机内存中都是以二进制的形式储存的(即:0或1),简单来说位运算就是直接对在内存中的二进制数的每位进行运算操作. 二.学习前先了解一下有哪些运算,运算符都怎么 ...
- sql01
1.简介 2.外键 1)主键: 3.表间关联与外键 上面的两个表格通过厂家编号联系在一起,彼此相对独立.厂家编号就称为外键.厂家编号是厂家表的主键. 4.SQL 1)数据库登录 服务器名称选择:①机器 ...
- vue中eslint报错的解决方案
1,Newline required at end of file but not found. (eol-last) //文末需要一行 这个是报错: 这个是不报错的: 只需要在最后一行加上一空行即可 ...
- 聊聊CAS - 面试官最喜欢问的并发编程专题
什么是CAS 学习Java并发编程,CAS(Compare And Set)机制都是一个不得不掌握的知识点.除了通过synchronized进行并发控制外,还可以通过CAS的方式控制,大家熟悉的Ree ...
- python学习-练习题1巩固(随机数)
1.生成随机数 random.random()生成一个0-1之前的随机数
- JS循环嵌套的执行原理
[逆战班] 循环嵌套是指在一个循环语句中再定义一个循环语句的语法结构,外循环执行一次,内循环全部执行完,直到外循环执行完毕,整个循环结束. while.do.. while和for循环语句都可以进行嵌 ...
- vue基础----key的作用
1.key 在虚拟dom中 标记不同的结构,for循环中需要添加上 <body> <div id="app"> <div v-if="fla ...
- async,await怎么用
async声明一个函数是异步的,await用于等待异步完成,并且await只能在async中使用. 使用async,await并行处理请求,速度减半: 将多个promise直接发起请求,先执行asyn ...
- 服务发现组件之 — Eureka
前言 现在流行的微服务体系结构正在改变我们构建应用程序的方式,从单一的单体服务转变为越来越小的可单独部署的服务(称为微服务),共同构成了我们的应用程序.当进行一个业务时不可避免就会存在多个服务之间调用 ...
- 01.UNIX基础知识
1.UNIX体系结构 什么叫做内核? 内核是一种软件,它控制计算机硬件资源,并提供程序的运行环境. 什么叫操作系统? 在广义上,操作系统包括了内核和一些其他软件,这些软件使得计算机能够发挥作用,如可以 ...