docker内存和cpu调试
本地启动了一个sshd的容器服务,但该容器经常会被重启导致ssh连接失败,使用kubectl describe pod命令查看改命令发现有容器返回值为137,一般是系统环境原因,且一般为内存不足导致的,参见:Container exits with non-zero exit code 137
Started: Tue, Nov :: +
Last State: Terminated
Reason: Error
Exit Code:
Started: Mon, Nov :: +
Finished: Tue, Nov :: +
- 登陆该容器的node节点,查看系统日志发现sshd申请内存严重超时,且看到normal ZONE中的free<min,这种情况下会触发内核杀死进程回收内存,可能会导致sshd容器或containerd进程重启。min的值由vm.min_free_kbytes设置,原理参见min_free_kbytes
Nov :: ip---- kernel: [91374.975004] sshd: page allocation stalls for 20388ms, order:, mode:0x24200ca(GFP_HIGHUSER_MOVABLE)
Nov :: ip---- kernel: [91374.984454] CPU: PID: Comm: sshd Not tainted 4.9.--amd64 # Debian 4.9.-+deb9u2
Nov :: ip---- kernel: [91374.988477] Hardware name: Xen HVM domU, BIOS 4.2.amazon //
Nov :: ip---- kernel: [91374.995081] ffffffff90d30694 ffffffff91401218 ffffb76e46b5fb60
Nov :: ip---- kernel: [91375.004170] ffffffff90b89d0a 024200ca00000006 ffffffff91401218 ffffb76e46b5fb00
Nov :: ip---- kernel: [91375.004170] ffff8b5300000010 ffffb76e46b5fb70 ffffb76e46b5fb20 286e078452d92816
Nov :: ip---- kernel: [91375.004170] Call Trace:
Nov :: ip---- kernel: [91375.004170] [<ffffffff90d30694>] ? dump_stack+0x5c/0x78
Nov :: ip---- kernel: [91375.026383] [<ffffffff90b89d0a>] ? warn_alloc+0x13a/0x160
Nov :: ip---- kernel: [91375.026383] [<ffffffff90b8a735>] ? __alloc_pages_slowpath+0x995/0xbf0
Nov :: ip---- kernel: [91375.026383] [<ffffffff9100fee1>] ? __schedule+0x241/0x6f0
Nov :: ip---- kernel: [91375.026383] [<ffffffff90a1bc81>] ? xen_clocksource_get_cycles+0x11/0x20
Nov :: ip---- kernel: [91375.026383] [<ffffffff90aef21e>] ? ktime_get+0x3e/0xb0
Nov :: ip---- kernel: [91375.026383] [<ffffffff90b8ab91>] ? __alloc_pages_nodemask+0x201/0x260
Nov :: ip---- kernel: [91375.026383] [<ffffffff90bdd39e>] ? alloc_pages_vma+0xae/0x260
Nov :: ip---- kernel: [91375.026383] [<ffffffff90bb43c9>] ? wp_page_copy+0x89/0x700
Nov :: ip---- kernel: [91375.026383] [<ffffffff90bb56c1>] ? do_wp_page+0x161/0x7e0
Nov :: ip---- kernel: [91375.026383] [<ffffffff90bc5261>] ? page_add_file_rmap+0x11/0x110
Nov :: ip---- kernel: [91375.026383] [<ffffffff90bb7812>] ? alloc_set_pte+0x3c2/0x550
Nov :: ip---- kernel: [91375.026383] [<ffffffff90bb8422>] ? handle_mm_fault+0x832/0x1280
Nov :: ip---- kernel: [91375.026383] [<ffffffff90a61015>] ? __do_page_fault+0x255/0x4f0
Nov :: ip---- kernel: [91375.026383] [<ffffffff91016018>] ? page_fault+0x28/0x30
Nov :: ip---- kernel: [91375.110910] Mem-Info:
Nov :: ip---- kernel: [91375.113701] active_anon: inactive_anon: isolated_anon:
Nov :: ip---- kernel: [91375.113701] active_file: inactive_file: isolated_file:
Nov :: ip---- kernel: [91375.113701] unevictable: dirty: writeback: unstable:
Nov :: ip---- kernel: [91375.113701] slab_reclaimable: slab_unreclaimable:
Nov :: ip---- kernel: [91375.113701] mapped: shmem: pagetables: bounce:
Nov :: ip---- kernel: [91375.113701] free: free_pcp: free_cma:
Nov :: ip---- kernel: [91375.143413] Node active_anon:15475956kB inactive_anon:4704kB active_file:94428kB inactive_file:84312kB unevictable:0kB isolated(anon):0kB isolated(file):2880kB mapped:152428kB dirty:32kB writeback:0kB shmem:14272kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 135168kB writeback_tmp:0kB unstable:0kB pages_scanned: all_unreclaimable? no
Nov :: ip---- kernel: [91375.169765] Node DMA free:15904kB min:64kB low:80kB high:96kB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15988kB managed:15904kB mlocked:0kB slab_reclaimable:0kB slab_unreclaimable:0kB kernel_stack:0kB pagetables:0kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB
Nov :: ip---- kernel: [91375.195526] lowmem_reserve[]:
Nov :: ip---- kernel: [91375.201354] Node DMA32 free:64640kB min:15776kB low:19720kB high:23664kB active_anon:3624584kB inactive_anon:144kB active_file:17908kB inactive_file:15952kB unevictable:0kB writepending:0kB present:3915776kB managed:3850208kB mlocked:0kB slab_reclaimable:11200kB slab_unreclaimable:45456kB kernel_stack:12508kB pagetables:16536kB bounce:0kB free_pcp:508kB local_pcp:0kB free_cma:0kB
Nov :: ip---- kernel: [91375.230119] lowmem_reserve[]:
Nov :: ip---- kernel: [91375.235036] Node Normal free:51536kB min:51740kB low:64672kB high:77604kB active_anon:11851568kB inactive_anon:4560kB active_file:76636kB inactive_file:68596kB unevictable:0kB writepending:32kB present:12845056kB managed:12569296kB mlocked:0kB slab_reclaimable:55784kB slab_unreclaimable:183092kB kernel_stack:47380kB pagetables:66296kB bounce:0kB free_pcp:1056kB local_pcp:0kB free_cma:0kB
- 同时可以参见/proc/meminfo中的MemTotal和SwapTotal,可以发现内存已经不足,也可以查看/proc/buddyinfo文件,查看剩余连续内存的分布,小内存比较多时说明内存碎片化比较严重
附:使用perf进行cpu占用率进行分析
- 如下代码中,函数AA死循环,预期会占用大量CPU资源
#include<stdio.h>
#include<stdlib.h> void AA(){
int i=;
while(){
i++;
}
} void BB(){ printf("BB\n");
} int main(){
BB();
AA(); }
- 首先使用top命令查看cpu占用率,可以看出用户空间cpu占用率达到了50%,而内核空间很低,可以看出cpu占用率主要在用户态,涉及系统调用比较少
%Cpu(s): 50.0 us, 8.3 sy, 0.0 ni, 41.7 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
- 使用perf top,部分结果如下,可以看到一个名为test的进程,同时可以看到一个名为AA的符号,该符号就是名为AA的函数
Samples: 699K of event 'cpu-clock', Event count (approx.):
Overhead Shared Object Symbol
99.68% test [.] AA
0.12% [kernel] [k] _raw_spin_unlock_irqrestore
0.06% [kernel] [k] __do_softirq
0.02% [kernel] [k] e1000_xmit_frame
0.01% libc-2.17.so [.] _int_malloc
0.00% [kernel] [k] clear_page
0.00% libvmtools.so.0.0. [.] Backdoor_InOut
0.00% [kernel] [k] kstat_irqs
- 使用perf record记录下10s以内的cpu 处理器时钟使用情况,通过perf report可以看到占用率高的进程的调用栈
perf record -a -e cycles -o cycle.perf -g sleep
# perf report -i cycle.perf|more
# To display the perf.data header info, please use --header/--header-only options.
#
#
# Total Lost Samples:
#
# Samples: 22K of event 'cpu-clock'
# Event count (approx.):
#
# Children Self Command Shared Object Symbol
# ........ ........ ............... ................... ..........................................................................
#
88.97% 0.00% test libc-2.17.so [.] __libc_start_main
|
---__libc_start_main
main
AA 88.97% 0.00% test test [.] main
|
---main
AA 88.97% 88.88% test test [.] AA
|
--88.88%--__libc_start_main
main
AA
TIPS:
- perf工具依赖ELF文件的debug段信息,如果调试到一个stripped binary时因为无法解析会打印16进制信息。
- perf工具无法兼容编译时解析被 -fomit-frame-pointer优化的程序,参见perf CPU Sampling
参见:
https://utcc.utoronto.ca/~cks/space/blog/linux/DecodingPageAllocFailures
https://www.cnblogs.com/004x/p/6651600.htm
http://tldp.org/LDP/Linux-Filesystem-Hierarchy/html/proc.html
https://utcc.utoronto.ca/~cks/space/blog/linux/KernelMemoryZones
https://blog.csdn.net/lickylin/article/details/50726847
http://www.10tiao.com/html/497/201606/2456160252/1.html
https://www.kernel.org/doc/Documentation/filesystems/proc.txt
docker内存和cpu调试的更多相关文章
- 如何使用 Docker 来限制 CPU、内存和 IO等资源?
如何使用 Docker 来限制 CPU.内存和 IO等资源?http://www.sohu.com/a/165506573_609513
- docker容器内存和CPU使用限制
docker容器内存和CPU使用限制 示例如下 sudo docker run --name seckill0 -p 8080:8080 -m 1024M --cpus=0.2 -d seckill: ...
- docker内存限制
默认docker容器可以使用宿主机所有的内存和CPU,我们可以通过 docker run 来限制内存和CPU的使用. 有的系统内核不支持 Linux capabilities. 可以通过 docker ...
- docker内存监控与压测
一直运行的docker容器显示内存已经耗尽,并且容器内存耗尽也没出现重启情况,通过后台查看发现进程没有占用多少内存.内存的监控使用的是cadvisor,计算方式也是使用cadvisor的页面计算方式, ...
- Kubernetes 集群分析查看内存,CPU
Kubernetes方式 top命令查看所有pod,nodes中内存,CPU使用情况 查看pod root @ master ➜ ~ kubectl top pod -n irm-server NAM ...
- Ambari server:无法显示内存,CPU等使用率
Ambari server安装完毕后,都能正确显示各种信息.运行了几天后,发现无法显示内存,CPU等信息. 查找日志发现有错误,日志路径:/var/log/ambari-server/ambari-s ...
- C#实现对远程服务器的内存和CPU监控
C#实现对远程服务器的内存和CPU监控小记 1. 主要使用到的组件有System.Management.dll 2. 主要类为 :ManagementScope 连接远程服务器示例代码: priv ...
- YARN的内存和CPU配置
时间 2015-06-05 00:00:00 JavaChen's Blog 原文 http://blog.javachen.com/2015/06/05/yarn-memory-and-cpu- ...
- Spark Tungsten揭秘 Day4 内存和CPU优化使用
Spark Tungsten揭秘 Day4 内存和CPU优化使用 今天聚焦于内存和CPU的优化使用,这是Spark2.0提供的关于执行时的非常大的优化部分. 对过去的代码研究,我们会发现,抽象的提高, ...
随机推荐
- js 构建map 和list
//构建map function Map() { this.arr = new Array(); var struct = function(key, value) { this.key = key; ...
- bzoj2893(费用流)
先缩点,然后拆点,其实是很经典的一种操作,把不好做的点拆成边,然后我一开始想的是网络流,答案当然是增广次数, 但可以发现跑网络流的话不同的跑法增广次数不一样,不太好找最小的.我们可以换一种神奇的思路, ...
- 【python-ini】python读写ini文件
[python-ini]python读写ini文件 本文实例讲述了Python读写ini文件的方法.分享给大家供大家参考.具体如下: 比如有一个文件update.ini,里面有这些内容: 1 2 ...
- 4.easyloader.js文件的作用
1).easyloader.js文件用于加载指定模块,同时它也会加载指定模块所依赖的组件 2).不使用easyloader加载: 在easyui中有一个Parser解析器,它会解析class中的eas ...
- 回归——继续我的ACM之路!!
回归啦~~18年省赛结束后第一次参赛拿到了省级银牌对我是一个很大的鼓励,这是所感兴趣的事,我能做的不错,也就不愧于心了. 修整了两周多左右,建了建模,和阔爱的对象狂了两周,终于要静下来了,静下来一想, ...
- 二分图学习——基础dfs判断二分图
#include <iostream> #include <cstdio> #include <string.h> #include <vector> ...
- JBoss 系列四十九:JBoss 7/WildFly 中端口使用列表
JBoss 7中端口使用列表 JBoss 7中所有配置都在一个文件中(standaone*.xml, domain.xml),和之前的JBoss相比JBoss 7用到的端口变少,我们将以表格的形式列出 ...
- WinAPI: sndPlaySound - 播放 wav 文件
WinAPI: sndPlaySound - 播放 wav 文件 //声明: sndPlaySound( lpszSoundName: PChar; {声音文件} uFlags: UINT{播 ...
- WPF实战案例-数据代理
在我们wpf开发中,很多人会有mvvm模式去做wpf的项目. 是否有人遇到这样一个场景:在一个界面上,有个tabcontrol上面有4个页签,每个页签里面都有一个datagrid,里面显示的列基本一样 ...
- 201621123018《Java程序设计》第6周学习报告
1. 本周学习总结 1.1 面向对象学习暂告一段落,请使用思维导图,以封装.继承.多态为核心概念画一张思维导图或相关笔记,对面向对象思想进行一个总结. 2. 书面作业 1. clone方法 1.1 在 ...