[perf工具导致系统hang住的原因是触发了低版本kernel的bug] 今天在测试服务器做压测,运行perf record做性能分析时,系统再次hang住了,这次在系统日志中记录了一些有用的信息,如下 Dec 25 14:37:05 kernel: BUG: soft lockup - CPU#1 stuck for 67s! 通过在网上搜索,确认这是linux kernel的一个bug,详细描述如下: https://bugzilla.redhat.com/show_bug.cgi?id=…
https://mp.weixin.qq.com/s/sGS-Kw18sDnGEMfQrbPbVw 内核futex的BUG导致程序hang死问题排查 原创: 王领先 58架构师 今天   近日,Hadoop的同学反映,新上的几台机器上的java程序出现hang死的现象,查看系统的message记录,发现一些内存方面的错误输出,怀疑是内存不足导致java程序hang死在gc的过程中.经排查发现即使是在内存充足的情况下也会出现程序hang死的现象. 我们又发现只有这批新上的机器才出现hang死的问题…
perf抓取时系统crash的情况.找前同事了解到perf工具导致系统crash的一种情况, perf工具默认是使用cycles,这个硬件事件是使用NMI,可能会导致内核错误. 之前文档上的perf命令更新下,指定使用软件事件cpu-clock(注意:不知道perf命令还有没有别的坑,请注意生产上谨慎使用) perf record -p `pidof mysqld` -e cpu-clock -g -o /tmp/perf.data sleep 10 这两个事件的区别: cpu-clock可以用…
Linux 系统有时因为软件不兼容或未知 bug,导致系统假死.比如我的 Ubuntu 14.04 最近使用 vscode 时偶尔会导致系统假死,即鼠标可以移动,但点击无反应. 此时可试试如下解决方案: 1. 进入 TTY 模式 - Ctrl + Alt + F1  登录 TTY 模式 - 输入 top 查看导致系统假死的进行 PID,直接 sudo kill xxx - exit 退出 TTY 模式 - Ctrl + Alt + F7 回到图形接口模式 2. 终极解决方案 reisub - 左…
之前在 golang 群里有人问过为什么程序会莫名其妙的 hang 死然后不再响应任何请求.单核 cpu 打满. 这个特征和我们公司的某个系统曾经遇到的情况很相似,内部经过了很长时间的定位分析总结,期间还各种阅读 golang 的 runtime 和 gc 代码,最终才定位到是业务里出现了类型下面这样的代码: package main import "runtime" func main() { var ch = make(chan int, 100) go func() { for…
前段时间Linux下用nmon监控程序的运行,发现CPU的使用率很高,系统态Sys的比例很高.程序的速度不是很快,怀疑和上面的原因有关. 分别使用perf record,perf report和top -H -p,pstack分析发现.2种可能性,跳表skiplist和内存大量分配回收时lru回收,都会用到spin lock自旋锁,导致CPU Sys的使用率很高. 最后替换了跳表skiplist,CPU Sys的使用率很高的问题得以解决. perf工具是Linux自带的性能分析工具,常用的命令:…
工作环境是suse11sp3系统(内核版本3.0.101-0.47.90-default),需要通过perf排查系统性能问题,但是默认是没有perf工具的. 在网上搜索了一下,需要linux-tools工具包,幸好手上有SUSE11sp3 ISO文件,直接在ISO的suse/x86_64目录下 找到了perf-3.0.76-2.10.31.x86_64.rpm 安装包. 尝试安装了一下,报错: # rpm -ivh perf-3.0.76-2.10.31.x86_64.rpm error: Fa…
问题背景: 笔者所在的项目组最近把生产环境Tomcat迁移到Linux,算是顺利运行了一段时间,最近一个低概率密度的(too many open files)问题导致服务假死并停止响应客户端客户端请求. 进入服务器查看日志,发现tomcat凌晨6-7点的日志丢失,查看进程端口仍旧开放. root@# lsof -i: COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME java root 0t0 TCP *: (LISTEN) 从存档的日志找到一…
1. 问题的出现过程 最近博主自己用的 windows10 系统就碰到了这个问题. 一开始出现这个问题的征兆是鼠标会时不时地卡顿,一出现卡顿就会等个 1-3秒才能动.然后频繁卡顿(注意,这里根据经验就怀疑是硬盘读写有问题,但不一定是物理损坏,而有可能是驱动) 然后这个现象持续了大概有20分钟左右(此时我电脑上还跑着虚拟机任务,大量浏览器窗口,编辑器 和 SSH等等),终于卡的不能动了,然后就屏幕一黑. 注意,此时千万不要心急直接长按关机键重启,即使系统出了点问题也不代表就是不可恢复的问题,而如果…
在linux中,/etc/fstab文件是磁盘挂载的问题,若该文件不小心给修改了,或者被删除了,那么就会导致系统无法重启.因为/etc/fstab文件是记录磁盘挂载的信息,若该文件出现了问题,那么对应的主目录(/)和(/boot)以及swap的磁盘将无法挂载,所以这个文件对于linux系统来说是相当重要的. 我犯的错误是:我在对hadoop集群进行文件配置的时候,在一台主机上对/etc/fstab文件进行修改,修改好了之后,准备分发给其他主机,我开始以为fstab文件的内容是一样的,于是我就该文…