erlang 故障排查工具

系统级别perf top, dstat -tam, vtune 都能很好分析beam 瓶颈，本文主要erlang 级别排查：

1. 反编译

确认线上运行代码是否正确，reltools没掌握好，升级偶尔出现问题

decompile(Mod) ->

    {ok,{_,[{abstract_code,{_,AC}}]}} = beam_lib:chunks(code:which(Mod), [abstract_code]),

    io:format("~s~n", [erl_prettypr:format(erl_syntax:form_list(AC))]).

2. 进程栈

类似于jstack，发现大量进程挂起，进程数过高，运行慢，hang住等问题用到

pstack(Reg) when is_atom(Reg) ->

    case whereis(Reg) of

        undefined -> undefined;

        Pid -> pstack(Pid)

    end;

pstack(Pid) ->

    io:format("~s~n", [element(2, process_info(Pid, backtrace))]).

3. etop

分析内存、cpu占用进程，即使数十w进程node 也能正常使用

%进程CPU占用排名

etop() ->

    spawn(fun() -> etop:start([{output, text}, {interval, 10}, {lines, 20}, {sort, reductions}]) end).

%进程Mem占用排名

etop_mem() ->

    spawn(fun() -> etop:start([{output, text}, {interval, 10}, {lines, 20}, {sort, memory}]) end).

%停止etop

etop_stop() ->

    etop:stop().

4. gc all

进程内存过高时，来一发，看看是内存泄露还是gc不过来

% 对所有process做gc

gc_all() ->

    [erlang:garbage_collect(Pid) || Pid <- processes()].

5. fprof

% 对MFA 执行分析，会严重减缓运行，建议只对小量业务执行

% 结果:

% fprof 结果比较详细，能够输出热点调用路径

fprof(M, F, A) ->

    fprof:start(),

    fprof:apply(M, F, A),

    fprof:profile(),

    fprof:analyse(),

    fprof:stop().

6. eprof

% 对整个节点内所有进程执行eprof, eprof 对线上业务有一定影响,慎用!

% 建议TimeoutSec<10s，且进程数< 1000，否则可能导致节点crash

% 结果:

% 输出每个方法实际执行时间（不会累计方法内其他mod调用执行时间）

% 只能得到mod - Fun 执行次数 执行耗时

eprof_all(TimeoutSec) ->

    eprof(processes() -- [whereis(eprof)], TimeoutSec).

eprof(Pids, TimeoutSec) ->

    eprof:start(),

    eprof:start_profiling(Pids),

    timer:sleep(TimeoutSec),

    eprof:stop_profiling(),

    eprof:analyze(total),

    eprof:stop().

7. scheduler usage

% 统计下1s每个调度器CPU的实际利用率(因为有spin wait、调度工作, 可能usage 比top显示低很多)

scheduler_usage() ->

    scheduler_usage(1000).

scheduler_usage(RunMs) ->

    erlang:system_flag(scheduler_wall_time, true),

    Ts0 = lists:sort(erlang:statistics(scheduler_wall_time)),

    timer:sleep(RunMs),

    Ts1 = lists:sort(erlang:statistics(scheduler_wall_time)),

    erlang:system_flag(scheduler_wall_time, false),

    Cores = lists:map(fun({{I, A0, T0}, {I, A1, T1}}) ->

                    {I, (A1 - A0) / (T1 - T0)} end, lists:zip(Ts0, Ts1)),

    {A, T} = lists:foldl(fun({{_, A0, T0}, {_, A1, T1}}, {Ai,Ti}) ->

                    {Ai + (A1 - A0), Ti + (T1 - T0)} end, {0, 0}, lists:zip(Ts0, Ts1)),

    Total = A/T,

    io:format("~p~n", [[{total, Total} | Cores]]).

8. 进程调度

% 统计下1s内调度进程数量(含义：第一个数字执行进程数量，第二个数字迁移进程数量)

scheduler_stat() ->

    scheduler_stat(1000).

scheduler_stat(RunMs) ->

    erlang:system_flag(scheduling_statistics, enable),

    Ts0 = erlang:system_info(total_scheduling_statistics),

    timer:sleep(RunMs),

    Ts1 = erlang:system_info(total_scheduling_statistics),

    erlang:system_flag(scheduling_statistics, disable),

    lists:map(fun({{Key, In0, Out0}, {Key, In1, Out1}}) ->

                {Key, In1 - In0, Out1 - Out0} end, lists:zip(Ts0, Ts1)).

9. trace 日志

　　会把mod 每次调用详细MFA log 下来，args 太大就不好看了

%trace Mod 所有方法的调用

trace(Mod) ->

    dbg:tracer(),

    dbg:tpl(Mod, '_', []),

    dbg:p(all, c).

%trace Node上指定 Mod 所有方法的调用, 结果将输出到本地shell

trace(Node, Mod) ->

    dbg:tracer(),

    dbg:n(Node),

    dbg:tpl(Mod, '_', []),

    dbg:p(all, c).

%停止trace

trace_stop() ->

    dbg:stop_clear().

10. 内存高OOM 排查工具

etop 无法应对10w+ 进程节点, 下面代码就没问题了；找到可疑proc后通过pstack、message_queu_len 排查原因

  proc_mem_all(SizeLimitKb) ->

      Procs = [{undefined, Pid} || Pid<- erlang:processes()],

      proc_mem(Procs, SizeLimitKb).

  proc_mem(SizeLimitKb) ->

      Procs = [{Name, Pid} || {_, Name, Pid, _} <- release_handler_1:get_supervised_procs(),

                              is_process_alive(Pid)],

      proc_mem(Procs, SizeLimitKb).

  proc_mem(Procs, SizeLimitKb) ->

      SizeLimit = SizeLimitKb * 1024,

      {R, Total} = lists:foldl(fun({Name, Pid}, {Acc, TotalSize}) ->

          case erlang:process_info(Pid, total_heap_size) of

              {_, Size0} ->

                  Size = Size0*8,

                  case Size > SizeLimit of

                      true -> {[{Name, Pid, Size} | Acc], TotalSize+Size};

                      false -> {Acc, TotalSize}

                  end;

              _ -> {Acc, TotalSize}

              end

          end, {[], 0}, Procs),

      R1 = lists:keysort(3, R),

      {Total, lists:reverse(R1)}.

erlang 故障排查工具的更多相关文章

MongoDB 常用故障排查工具
1.profile profiling levels: 0,关闭profile:1,只抓取slow查询:2,抓取所有数据. 启动profile并且设置Profile级别: 可以通过mongo shel ...
SQL Server 2008性能故障排查（一）——概论
原文:SQL Server 2008性能故障排查(一)--概论备注:本人花了大量下班时间翻译,绝无抄袭,允许转载,但请注明出处.由于篇幅长,无法一篇博文全部说完,同时也没那么快全部翻译完,所以按章节 ...
使用strace工具故障排查的5种简单方法
使用strace工具故障排查的5种简单方法本文源自5 simple ways to troubleshoot using strace strace 是一个非常简单的工具,用来跟踪可执行程序的系统调 ...
1个工具，助你提升K8S故障排查效率！
Kubernetes的故障排查一直困扰众多运维团队或DevOps,除了Kubernetes本身的复杂性之外,还有Kubernetes的工作负载是动态的原因.本文将介绍1个工具可以帮助你可视化K8S的网 ...
Java线上应用故障排查之二：高内存占用
搞Java开发的,经常会碰到下面两种异常: 1.java.lang.OutOfMemoryError: PermGen space 2.java.lang.OutOfMemoryError: Java ...
paip.hql的调试故障排查流程总结
paip.hql的调试故障排查流程总结环境.myeclipse7.0 1 Hql的调试工具myeclipxe默认工具.../Hibernate8IDE 1 故障的排除方法overview 1 Hql ...
一次线上OOM故障排查经过
转贴:http://my.oschina.net/flashsword/blog/205266 本文是一次线上OOM故障排查的经过,内容比较基础但是真实,主要是记录一下,没有OOM排查经验的同学也可以 ...
SQL Server 2008性能故障排查（二）——CPU
原文:SQL Server 2008性能故障排查(二)--CPU 承接上一篇:SQL Server 2008性能故障排查(一)--概论说明一下,CSDN的博客编辑非常不人性化,我在word里面都排好 ...
JVM 线上故障排查基本操作
# 前言对于后端程序员,特别是 Java 程序员来讲,排查线上问题是不可避免的.各种 CPU 飚高,内存溢出,频繁 GC 等等,这些都是令人头疼的问题.楼主同样也遇到过这些问题,那么,遇到这些问题该 ...

随机推荐

Codeforces Round #385(div 2)
A =w= B QwQ C 题意:n个点m条边的无向图,其中有k个特殊点,你在这张图上尽可能多的连边,要求k个特殊点两两不连通,问最多能连多少边分析:并查集对原图做一次并查集,找出特殊点所在集合中 ...
volley用法之以post方式发送 json 参数
需求是这样我们需要发送一个post请求向服务器要参数.要求是发送的post参数也要是json格式. 简单一点的是这样的: 如果要发送的是这样简单的json格式,我们可以简单的使用map来实现: Re ...
Java处理文件复制
try { InputStream in = new FileInputStream(new File(oldPath)); OutputStream out = new FileOutputStre ...
CocoaPods的那些坑
CocoaPods的那些坑文章转自http://blog.csdn.net/zhanniuniu/article/details/52159362#comments 我跟博主的经历超级像!不过自己用 ...
MySQL练习题
MySQL练习题一.表关系请创建如下表,并创建相关约束二.操作表 1.自行创建测试数据 2.查询“生物”课程比“物理”课程成绩高的所有学生的学号: 3.查询平均成绩大于60分的同学的学号和平均成 ...
mysql general log日志
注:应一直出现http://www.cnblogs.com/hwaggLee/p/6030765.html文章中的问题故mysql general log日志.查看具体是什么命令导致的. 打开 ge ...
JAVA面向对象
JAVA面向对象对象我们生活中能看到能摸到的一切事物都是对象.在程序中模拟出生活中的所有东西万物皆对象只要是对象--属性和行为(方法) 属性对象有什么例如:学生有姓名.学 ...
ZKW线段树
简介 zkw线段树虽然是线段树的另一种写法,但是本质上已经和普通的递归版线段树不一样了,是一种介于树状数组和线段树中间的存在,一些功能上的实现比树状数组多,而且比线段树好写且常数小. 普通线段树采用从 ...
python之登录小程序
# 登录操作 PassWord_list = [] Reset_pw = '*#*#' def account_login(): if PassWord_list == []: PassWord = ...
jstack工具查看系统线程问题
背景: 最近在做项目系统的异常测试,项目依赖于nkv,需要模拟依赖组件nkv异常时系统的响应及性能情况.通过tc工具模拟当服务器发送到nkv的请求超时时系统的响应.发现接口返回错误率100%,查看服务 ...

erlang 故障排查工具

erlang 故障排查工具的更多相关文章

随机推荐

热门专题