关于sys CPU usage 100%问题的分析

最近一个客户抱怨他的核心EBS数据库出现性能问题。这是一个10.2.0.3的数据库，
运行在Red Hat Enterprise Linux Server release 5.5 (Linux x86-64)操作系统上。

根据客户描述，由于需要维护UPS，他们重启了数据库，结果重启数据库后他们发现只要他们的应用
开始连接数据库，那么主机的sys CPU使用率就会变成100%, 但是user CPU使用率几乎是0.
而且只要停掉监听或者应用不开启新session连接数据库，这个问题就会消失。

如下是问题发生期间的vmstat输出，可见cpu中的sys（倒数第4列）几乎100%, CPU Run Queue (第1列)
非常高，而此时free memory还有20G(第4列)，看来内存很充裕。

SNAP_INTERVAL 15
CPU_COUNT 32

zzz ***Fri Dec 2 17:05:03 CST 2016
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r b   swpd   free   buff cache   si   so    bi    bo   in   cs us sy id wa st
48 0      0 22026868 213392 37138888    0    0    21    31   13   39 6 8 86 0 0
44 1      0 21968452 213392 37138900    0    0     0   360 1093 537 8 92 0 0 0
44 1      0 21941632 213392 37139028    0    0     0   288 1080 371 9 91 0 0 0
......
zzz ***Fri Dec 2 17:10:12 CST 2016
procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------
r b   swpd   free   buff cache   si   so    bi    bo   in   cs us sy id wa st
121 2      0 21495944 218356 37142412    0    0    21    31   13   39 6 9 85 0 0
122 4      0 21486192 218356 37142432    0    0     0   308 119 753 7 93 0 0 0
121 2      0 21478868 218364 37142424    0    0     0   592   97 517 5 95 0 0 0

首先我看了一遍客户提供的AWR，发现DB相当空闲，虽然CPU time占据了91.2，但是总的CPU Time
在119分钟的采样中只有18345秒(305分钟)，相对于客户32个CPU Core来说不是个问题。

Snap Id Snap Time Sessions Cursors/Session
Begin Snap: 38119 02-Dec-16 16:00:28 255 63.2
End Snap: 38121 02-Dec-16 18:00:18 193 48.7
Elapsed: 119.83 (mins)
DB Time: 335.30 (mins) <<< 相当空闲

Top 5 Timed Events

Event   Waits   Time(s)   Avg Wait(ms)   % Total Call Time   Wait Class
CPU time      18,345      91.2
os thread startup   971   937   965   4.7   Concurrency
latch free   582   657   1,128   3.3   Other
db file sequential read   4,712,799   345   0   1.7   User I/O
log file parallel write   247,562   258   1   1.3   System I/O

AWR中没发现什么异常，DB的alert log显示一些无法fork进程的消息，估计是资源紧张了。

Fri Dec 2 17:06:16 2016
Process q002 died, see its trace file
Fri Dec 2 17:06:16 2016
ksvcreate: Process(q002) creation failed

好吧，一般情况下如果我们发现CPU高，无论是sys的还是user的，我们一般的做法是先定位top function call
然后通过这些function call来定位oracle或者OS行为，并且通过这些call来搜索与匹配已知问题。
在linux上，最方便收集这些信息的就是用perf这个工具。关于perf，参见:

https://perf.wiki.kernel.org/index.php/Tutorial

结果客户说他们无法安装perf命令，不过他提到他的OS中显示很多错误:

Dec 2 17:05:23 erpdb1 kernel: BUG: soft lockup - CPU#5 stuck for 10s! [oracle:15668]
Dec 2 17:05:23 erpdb1 kernel: CPU 5:
Dec 2 17:05:23 erpdb1 kernel: Call Trace:
Dec 2 17:05:23 erpdb1 kernel: [<ffffffff8000e9a8>] __set_page_dirty_nobuffers+0xc2/0xe9
Dec 2 17:05:23 erpdb1 kernel: [<ffffffff80007c1b>] unmap_vmas+0x522/0x904
Dec 2 17:05:23 erpdb1 kernel: [<ffffffff80012d08>] unmap_region+0xb8/0x12b
Dec 2 17:05:23 erpdb1 kernel: [<ffffffff80011e45>] do_munmap+0x21b/0x29a
Dec 2 17:05:23 erpdb1 kernel: [<ffffffff800655ab>] __down_write_nested+0x12/0x92
Dec 2 17:05:23 erpdb1 kernel: [<ffffffff80121e88>] sys_shmdt+0x5b/0x133
Dec 2 17:05:23 erpdb1 kernel: [<ffffffff8005e28d>] tracesys+0xd5/0xe0

通过call stack，看来在回收内存时报错了，推测这个错误应当发生在进程退出阶段，
不过难以断定这些错误与sys cpu高的因果关系。

结合客户描述的现象，这看起来很像连接风暴，因此我们检查了ps的输出，发现进程数并未明显增加,
不过问题最严重的时间断片了。这些零碎的信息并不能给我们一个很清晰的线索。

$ awk '/$ORACLE_SID/{n++;next}/^zzz/{if(t)print t,"-",n;t=$0;n=0}END{print t,"-",n}' XXXX_ps_16.12.02.1700.dat

zzz ***Fri Dec 2 17:04:18 CST 2016 - 235
zzz ***Fri Dec 2 17:04:33 CST 2016 - 236
zzz ***Fri Dec 2 17:04:48 CST 2016 - 229
zzz ***Fri Dec 2 17:05:03 CST 2016 - 228   <<<< 此时问题实际上已经发生了
zzz ***Fri Dec 2 17:05:19 CST 2016 - 178   <<<< 17:05 ~ 17:13 的断片了
zzz ***Fri Dec 2 17:13:19 CST 2016 - 283   <<<<
zzz ***Fri Dec 2 17:13:34 CST 2016 - 283
zzz ***Fri Dec 2 17:13:49 CST 2016 - 196

接下来看了top，发现虽然OS的sys CPU高，不过top的process都是oracle，表明此问题一定
与oracle有点关系。

zzz ***Fri Dec 2 17:05:03 CST 2016
top - 17:05:05 up 9:24, 3 users, load average: 41.76, 28.54, 19.68
Tasks: 660 total, 45 running, 615 sleeping,   0 stopped,   0 zombie
Cpu(s): 8.3%us, 91.7%sy, 0.0%ni, 0.0%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 65993408k total, 44046040k used, 21947368k free,   213392k buffers
Swap: 62918564k total,        0k used, 62918564k free, 37139028k cached

PID USER      PR NI VIRT RES SHR S %CPU %MEM    TIME+ COMMAND
19610 oracle   25   0 9917m 8.5g 8.5g R 101.8 13.6   1:19.76 oracle
19756 oracle   25   0 9917m 7.0g 7.0g R 100.9 11.1   1:05.76 oracle
19760 oracle   25   0 9917m 6.7g 6.7g R 100.9 10.7   1:06.56 oracle
19942 oracle   25   0 9917m 5.1g 5.1g R 100.9 8.0   0:46.67 oracle
20107 oracle   25   0 9917m 3.1g 3.1g R 100.9 4.9   0:26.39 oracle
20204 oracle   25   0 9917m 1.2g 1.2g R 100.9 1.9   0:10.63 oracle
19486 oracle   25   0 9917m 9.3g 9.3g R 99.9 14.8   1:25.10 oracle
19721 oracle   25   0 9917m 6.9g 6.8g R 99.9 10.9   1:08.22 oracle

那么问题来了，oracle软件一般都是执行user code，因此大多数情况下会消耗user space
的CPU，怎么会消耗sys CPU呢？先man一下top:

sy - This is the amount of time that the CPU spent running the kernel.
All the processes and system resources are handled by the Linux kernel.
When a user space process needs something from the system, for example
when it needs to allocate memory, perform some I/O, or it needs to
create a child process, then the kernel is running.

这说明oracle进程是有可能消耗kernel space的CPU的，比如申请内存，执行I/O等。
挑出上面的top列出的进程，在ps输出中找规律:

$ grep 19610 Dec*
TIME           USER       PID PPID PRI %CPU %MEM    VSZ   RSS WCHAN S STARTED     TIME COMMAND
Dec 2 17:03:17 oracle 19610     1 14 78.5 0.9 10155628 605564 -   R 17:03:10 00:00:05 ora_q002_XXXX
Dec 2 17:03:32 oracle 19610     1 14 57.6 2.1 10155628 1437940 - R 17:03:09 00:00:13 ora_q002_XXXX
Dec 2 17:03:47 oracle 19610     1 14 67.6 4.3 10155628 2868692 - R 17:03:10 00:00:25 ora_q002_XXXX
Dec 2 17:04:02 oracle 19610     1 14 75.8 6.9 10155628 4559708 - R 17:03:09 00:00:40 ora_q002_XXXX
Dec 2 17:04:18 oracle 19610     1 14 76.7 9.1 10155628 6015688 - R 17:03:10 00:00:52 ora_q002_XXXX
Dec 2 17:04:33 oracle 19610     1 14 70.9 10.4 10155628 6865876 - R 17:03:09 00:00:59 ora_q002_XXXX
Dec 2 17:04:48 oracle 19610     1 14 67.7 11.6 10155628 7684088 - R 17:03:09 00:01:07 ora_q002_XXXX
Dec 2 17:05:03 oracle 19610     1 14 68.9 13.3 10155628 8838576 - R 17:03:10 00:01:18 ora_q002_XXXX

$ grep 19756 Dec*

TIME           USER       PID PPID PRI %CPU %MEM    VSZ   RSS WCHAN S STARTED     TIME COMMAND
Dec 2 17:03:47 oracle 19756     1 16 50.0 0.3 10155628 222508 -   R 17:03:44 00:00:02 oracleXXXX (LOCAL=NO)
Dec 2 17:04:02 oracle 19756     1 14 47.9 1.4 10155628 961764 -   R 17:03:43 00:00:09 oracleXXXX (LOCAL=NO)
Dec 2 17:04:18 oracle 19756     1 14 55.5 3.0 10155628 2021664 - R 17:03:44 00:00:18 oracleXXXX (LOCAL=NO)
Dec 2 17:04:33 oracle 19756     1 14 68.4 5.6 10155628 3703572 - R 17:03:43 00:00:34 oracleXXXX (LOCAL=NO)
Dec 2 17:04:48 oracle 19756     1 14 75.4 8.2 10155628 5459948 - R 17:03:43 00:00:49 oracleXXXX (LOCAL=NO)
Dec 2 17:05:03 oracle 19756     1 14 80.6 10.9 10155628 7217680 - R 17:03:44 00:01:04 oracleXXXX (LOCAL=NO)

从以上输出可以发现一个明显规律: 这些进程的RSS在1分多钟从几十M变成7~8G，但是VSZ却没有变化。
接着man ps

VSZ: virtual memory usage of entire process. vm_lib + vm_exe + vm_data + vm_stack
RSS: resident set size, the non-swapped physical memory that a task has used (in kiloBytes). (alias rssize, rsz).

任何一个oracle进程的VSZ约等于SGA加上这个进程的PGA(实际上VSZ还包含一些kernel内存)，正常情况下一个进程的pga是很小的。
以上输出中VSZ没有改变，因此发生巨大变化的RSS申请的内存一定不是PGA而是SGA（因为如果增长的是PAG那么VSZ也会跟着增长）。
好吧，那么只有一个可能了，那就是这个进程在touch整个sga，为什么会这样？

我们需要再回到原点再看一眼AWR的数据库参数信息，赫然发现如下内容:

sga_max_size   10250878976
sga_target   8304721920
pre_page_sga   TRUE <<<< 看这里

这个设置中的sga_max_size正好10g，与我们在ps中看到的VSZ正好相等。

问题的原因是客户设置了pre_page_sga=true，这样在oracle进程启动阶段会touch整个SGA，
这个过程中会调用OS的sys call来touch 整个 shared memory entry，因此引发了高SYS CPU消耗。
参见如下文档的描述:

Health Check Alert: Consider setting PRE_PAGE_SGA to FALSE (Doc ID 957525.1)

回过头来再看alert log，观察参数pre_page_sga是什么时候改的，发现它在很久以前的很多次重启就是true了。
也就是说，这个问题一直都存在，只是客户最近维护UPS之后才发现，维护UPS这个信息误导了我们。

关于sys CPU usage 100%问题的分析的更多相关文章

mysql cpu 100% 满优化方案解决MySQL CPU占用100%的经验总结
下面是一些经验供参考解决MySQL CPU占用100%的经验总结 - karl_han的专栏 - CSDN博客 https://blog.csdn.net/karl_han/article/det ...
Linux jstack分析cpu占用100%
背景: 运行测试程序后,top命令发现某个进程(pid)占用cpu达到100%. 查看哪个线程占用最多资源: ps mp pid -o THREAD,tid,命令查看这个进程下面的所有线程占用情况 ...
PostgreSQL CPU满(100%)性能分析及优化（转）
PostgreSQL CPU满(100%)性能分析及优化转自:https://help.aliyun.com/knowledge_detail/43562.html 在数据库运维当中,一个DB ...
MySQL SYS CPU高的案例分析（二）
原文:MySQL SYS CPU高的案例分析(二) 后面又做了补充测试,增加了每秒context switch的监控,以及SQL执行时各步骤消耗时间的监控. [测试现象一] 启用1000个并发线程的压 ...
MySQL SYS CPU高的案例分析（一）
原文:MySQL SYS CPU高的案例分析(一) [现象] 最近关注MySQL CPU告警的问题时,发现有一种场景,有一些服务器最近都较频繁的出现CPU告警,其中的现象是 SYS CPU占比较高. ...
Docker CPU Usage
背景当一台机器上跑有多个 Docker Container 的时候,我们需要知道,哪些容器占用了多少资源.采集这些指标,来让我们可以更加好的分配资源给每个 Container. 获取容器CPU使用率 ...
一条语句导致CPU持续100%
一大早收到一堆CPU预警邮件,通常每天只在统计作业执行期间会收到2~3封CPU预警邮件.这次的预警来自另一台服务器,并且明细数据显示其CPU一直维持在49%.登录到服务器,查看任务管理器(查看资源监视 ...
CPU利用率和CPU负荷(CPU usage vs CPU load)
对于CPU的性能监测,通常用top指令能显示出两个指标:cpu 利用率和cpu负荷. 其中%Cpu相关的内容: us表示用户进程cpu利用率,sy表示系统内核进程cpu利用率,ni表示运行正常进程消耗 ...
【故障公告】数据库服务器 CPU 近 100% 引发的故障（源于 .NET Core 3.0 的一个 bug）
非常抱歉,这次故障给您带来麻烦了,请您谅解. 今天早上 10:54 左右,我们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)CPU 突然飙升至 90% 以上,应用日 ...

随机推荐

chrome 下修改 agent 的方法
前言这篇文章和 tiankonguse 的个人网站里的文章保持同步. 很早之前,在 chrome 下修改 agent 的方法是使用 chrome 插件. 后来 chrome 的某一个版本中自带这个功 ...
JavaScript 作用域（Scope）详解
先对需要用到的名词解释一下,再通过例子深入理解一.什么是作用域(Scope) [[scope]]:每个javascript函数都是一个对象,对象中有些属性我们可以访问,但有些不可以,这些属性仅供ja ...
[WC 2018]州区划分
Description 题库链接小 $S$ 现在拥有 $n$ 座城市,第 $i$ 座城市的人口为 $w_i$ ,城市与城市之间可能有双向道路相连. 现在小 $S$ 要将这 \(n ...
用PDMReader工具生成数据库设计文档(转载)
来源:http://blog.csdn.net/xinglun88/article/details/19987719 第一步:下载并安装PDMReader,资源网站: http://www.pdmre ...
主打安全阿里巴巴联合公安部打造PMOS
4月9日,CITE2015(第三届中国电子信息博览会)在深圳会展中心举行,大会主要以“智能新时代.数字新生活”为主题.说道这,就不得不提国内互联网巨头阿里巴巴.大会中阿里巴巴不仅带来了早前马云曾经在德 ...
数据库状态标识位flag设计
设计目的减少各种状态值字段减少数据库冗余和存储空间增加状态值时可灵活调整,无需增加额外字段运用场景例子1:管理用户的支付方式比如针对不同用户组设置了不同的支付方式支持,假设支付方式有支付宝 ...
面向连接的传输TCP（一）
这篇博客主要是对计算机网络自顶向上做的阅读笔记,深入地了解TCP 一.TCP连接 1.特点: a.TCP是面向连接的,因为一个进程在向另一个进程进行数据传输之前必须先要握手,即要互相发送报文,以确认信 ...
Netty面试
声明:此文章非本人所原创,是别人分享所得,如有知道原作者是谁可以联系本人,如有转载请加上此段话 1.BIO.NIO 和 AIO 的区别? BIO:一个连接一个线程,客户端有连接请求时服务器端就需要 ...
VS本地调试 Visual Studio远程调试监视器（MSVSMON.EXE）的32位版本不能用于调试64位进程或64位转储
vs2017 调试一致都没啥问题,今天莫名报这个错误,感觉好奇怪,网上搜索了半天也没解决,最后看着错误信息感觉很诡异,我本地调试你给我启动远程调试监测器干嘛,localhost也访问不了,ping了一 ...
Unity3D 场景切换加载进度条实现
需要三个场景,场景A,场景B,场景C: 场景A:一个按钮,点击加载场景B: 场景B:从A切换到C过度场景,加载进度条: 场景C:目标场景: 创建OnProgress.cs脚本: using Syste ...

关于sys CPU usage 100%问题的分析

关于sys CPU usage 100%问题的分析的更多相关文章

随机推荐

热门专题