如何快速定位 Linux Panic 出错的代码行

问题描述

内核调试中最常见的一个问题是：内核Panic后，如何快速定位到出错的代码行？

就是这样一个常见的问题，面试过的大部分同学都未能很好地回答，这里希望能够做很彻底地解答。

问题分析

内核Panic时，一般会打印回调，并打印出当前出错的地址：

kernel/panic.c:panic():

#ifdef CONFIG_DEBUG_BUGVERBOSE

  /*

* Avoid nested stack-dumping if a panic occurs during oops processing

*/

  if (!test_taint(TAINT_DIE) && oops_in_progress <= 1)

      dump_stack();

#endif

而dump_stack()调用关系如下：

dump_stack() --> __dump_stack() --> show_stack() --> dump_backtrace()

dump_backtrace()会打印整个回调，例如：

[<001360ac>] (unwind_backtrace+0x0/0xf8) from [<00147b7c>] (warn_slowpath_common+0x50/0x60)

[<00147b7c>] (warn_slowpath_common+0x50/0x60) from [<00147c40>] (warn_slowpath_null+0x1c/0x24)

[<00147c40>] (warn_slowpath_null+0x1c/0x24) from [<0014de44>] (local_bh_enable_ip+0xa0/0xac)

[<0014de44>] (local_bh_enable_ip+0xa0/0xac) from [<0019594c>] (bdi_register+0xec/0x150)

通常，上面的回调会打印出出错的地址。

解决方案

情况一

在代码编译连接时，每个函数都有起始地址和长度，这个地址是程序运行时的地址，而函数内部，每条指令相对于函数开始地址会有偏移。那么有了地址以后，就可以定位到该地址落在哪个函数的区间内，然后找到该函数，进而通过计算偏移，定位到代码行。

情况二

但是，如果拿到的日志文件所在的系统版本跟当前的代码版本不一致，那么编译后的地址就会有差异。那么简单地直接通过地址就可能找不到原来的位置，这个就可能需要回调里头的函数名信息。先通过函数名定位到所在函数，然后通过偏移定位到代码行。

相应的工具有addr2line, gdb, objdump等，这几个工具在How to read a Linux kernel panic?都有介绍，我们将针对上面的实例做更具体的分析。

需要提到的是，代码的实际运行是不需要符号的，只需要地址就行。所以如果要调试代码，必须确保调试符号已经编译到内核中，不然，回调里头打印的是一堆地址，根本看不到符号，那么对于上面提到的情况二而言，将无法准确定位问题。

如果要获取到足够多的调试信息，请根据需要打开如下选项：

CONFIG_DEBUG_KERNEL=y

CONFIG_DEBUG_INFO=y

CONFIG_KALLSYMS=y

CONFIG_KALLSYMS_ALL=y

CONFIG_DEBUG_BUGVERBOSE=y

CONFIG_STACKTRACE=y

下面分别介绍各种用法。

addr2line

如果出错的内核跟当前需要调试的内核一致，而且编译器等都一致，那么可以通过addr2line直接获取到出错的代码行，假设出错地址为0019594c：

$ addr2line -e vmlinux_with_debug_info 0x0019594c

mm/backing-dev.c:335

然后用vim就可以直接找到代码出错的位置：

$ vim mm/backing-dev.c +335

如果是情况二，可以先通过nm获取到当前的vmlinux中bdi_register函数的真实位置。

$ nm vmlinux | grep bdi_register

0x00195860 T bdi_register

然后，加上0xec的偏移，即可算出真实地址：

$ echo "obase=16;ibase=10;$((0x00195860+0xec))" | bc -l

19594C

这个也适用情况二，因为可以直接用符号+偏移的方式，因此，即使其他地方有改动，这个相对的位置是不变的。

$ gdb vmlinux_with_debug_info

$ list *(bdi_register+0xec)

0x0019594c is in bdi_register (/path/to/mm/backing-dev.c:335).

330     bdi->dev = dev;

331

332     bdi_debug_register(bdi, dev_name(dev));

333     set_bit(BDI_registered, &bdi->state);

334

335     spin_lock_bh(&bdi_lock);

336     list_add_tail_rcu(&bdi->bdi_list, &bdi_list);

337     spin_unlock_bh(&bdi_lock);

338

339     trace_writeback_bdi_register(bdi);

如果是情况一，则可以直接用地址：list *0x0019594c。

objdump

如果是情况一，直接用地址dump出来。咱们回头看一下Backtrace信息：bdi_register+0xec/0x150，这里的0xec是偏移，而0x150是该函数的大小。用objdump默认可以获取整个vmlinux的代码，但是咱们其实只获取一部分，这个可以通过--start-address和--stop-address来指定。另外-d可以反汇编代码，-S则可以并入源代码，-l显示源代码文件和行号。

$ objdump -dlS vmlinux_with_debug_info --start-address=0x0019594c --stop-address=$((0x0019594c+0x150))

如果是情况二，也可以跟addr2line一样先算出真实地址，然后再通过上面的方法导出。

总地来看，gdb还是来得简单方便，无论是情况一还是情况二都适用，而且很快捷地就显示出了出错的代码位置，并且能够显示代码的内容。

对于用户态来说，分析的方式类似。如果要在应用中获取Backtrace，可以参考Generating backtraces。其例子如下：

#include <execinfo.h>

#define BACKTRACE_SIZ 64

void show_backtrace (void)

{

      void    *array[BACKTRACE_SIZ];

      size_t   size, i;

      char   **strings;

      size = backtrace(array, BACKTRACE_SIZ);

      strings = backtrace_symbols(array, size);

      for (i = 0; i < size; i++) {

          printf("%p : %s\n", array[i], strings[i]);

      }

      free(strings);  // malloced by backtrace_symbols

}

编译代码时需要加上：-funwind-tables，-g和-rdynamic。

如何快速定位 Linux Panic 出错的代码行的更多相关文章

【未解决】对于使用Windows的IDEA进行编译的文件，但无法在Linux系统中统计代码行数的疑问
在我学习使用Windows的IDEA的过程中,将代码文件转移到Linux虚拟机当中,但无法在Linux系统中统计代码行数. 注意:拷贝进虚拟机的文件均能编译运行. 具体过程如下: root@yogil ...
linux设备驱动第四篇：从如何定位oops的代码行谈驱动调试方法
上一篇我们大概聊了如何写一个简单的字符设备驱动,我们不是神,写代码肯定会出现问题,我们需要在编写代码的过程中不断调试.在普通的c应用程序中,我们经常使用printf来输出信息,或者使用gdb来调试程序 ...
VC6.0 通过崩溃地址中找到异常代码行
来源:http://blog.csdn.net/mydeardingxiaoli/article/details/20371585 这是从“VC编程经验总结7”中转出来的借花献佛——如何通过崩溃地址找 ...
linux下编译make文件报错“/bin/bash^M: 坏的解释器,使用grep快速定位代码位置
一.linux下编译make文件报错“/bin/bash^M: 坏的解释器参考文章:http://blog.csdn.net/liuqiyao_01/article/details/41542101 ...
使用MAP文件快速定位程序崩溃代码行（转）
使用MAP文件快速定位程序崩溃代码行 =========================================================== 作者: lzmfeng(http://lz ...
js分析快速定位 js 代码，还原被混淆压缩的 js 代码
-1.目录 0.参考 1.页面表现 2. 慢镜头观察:低速网络请求 3. 从头到尾调试:Fiddler 拦截 index.html 并添加 debugger; 4. 快速定位 js 代码 5. 还原被 ...
linux磁盘空间占满问题快速定位并解决
经常会遇到这样的场景:测试环境磁盘跑满了,导致系统不能正常运行!此时就需要查看是哪个目录或者文件占用了空间.常使用如下几个命令进行排查:df, lsof,du. 通常的解决步骤如下:1. df -h ...
Linux性能优化从入门到实战：06 CPU篇：快速定位CPU瓶颈
CPU性能指标 (1)CPU使用率:1) 用户态CPU使用率(包括用户态 user 和低优先级用户态 nice).2) 系统CPU使用率.3) 等待 I/O 的CPU使用率.4) 软中断和硬 ...
32位汇编第四讲,干货分享,汇编注入的实现,以及快速定位调用API的数量(OD查看)
32位汇编第四讲,干货分享,汇编注入的实现,以及快速定位调用API的数量(OD查看) 昨天,大家可能都看了代码了,不知道昨天有没有在汇编代码的基础上,实现注入计算器. 如果没有,今天则会讲解,不过建议 ...
linux io的cfq代码理解
内核版本: 3.10内核. CFQ,即Completely Fair Queueing绝对公平调度器,原理是基于时间片的角度去保证公平,其实如果一台设备既有单队列,又有多队列,既有快速的NVME,又有 ...

随机推荐

idea2020修改help的vm options之后导致idea打不开的问题
如图所示,如果你修改了VM参数,导致启动没反应,证明你的参数配置有误. 这个时候你可能会想着直接修改idea安装目录bin中的配置文件,但是这个文件并不是你在idea中修改的配置文件,所以你修改这里的 ...
RHCA rh442 004 加载模块 ulimit cgroup
模块调优 lsmod 可以看到内核加载的模块 [root@servera ~]# lsmod | grep usb [root@servera ~]# modprobe usb_storage [ro ...
docker 容器卷
创建各种卷 [root@docker ~]# docker volume create mqy-vo101 mqy-vo101 [root@docker ~]# docker inspect mqy- ...
Apache COC闪电演讲总结【OSGraph】
大家能看到我最近一直在折腾与OSGraph这个产品相关的事情,之前在文章<妙用OSGraph:发掘GitHub知识图谱上的开源故事>中向大家阐述过这个产品的设计理念和应用价值.比方说以下问 ...
【JS】01 JavaScript概述
感觉上来谈这个前端,结构的部分是使用了标签语言定义了页面的文档内容但是XML和HTML的功能完全相反,XML被用于存储信息,而HTML则用于定义网页结构,辅助其他内容渲染然后C3又可以通过选择器这 ...
【Vue】03 Slot 插槽 & 自定义事件
顾名思义就是一个槽,可以嵌入各种各样的东西 Vue的插槽就是一个slot标签,可以在这个定义了插槽的组件中插入其他的组件但是有一点很重要:使用插槽的组件必须要用div标签一个根标签包裹,否则无效 & ...
开源机器学习版本的Github：Hugging Face
参考: https://baijiahao.baidu.com/s?id=1776478347325976510 https://zhuanlan.zhihu.com/p/535100411 ==== ...
HP笔记本电脑——暗夜精灵2pro继电池鼓包后出现无法充电的问题，最后电量显示：0%可用（电源已接通，未充电）
问题如题,最近使用暗夜精灵2pro笔记本(自己17年5月1节日购买)使用了四年,使用了第二年的时候出现电池鼓包问题于是自己花了不到200元在某宝上购入电池进行替换同时更新bios,正常使用到今年8月2 ...
CH05_数组
CH05_数组概述定义:一组相同类型的数据的集合. 描述: 1.数组中的每个元素都是相同的数据类型 2.数组是由连续的内存位置组成的. 3.数组索引是从0开始一维数组语法: 1.数据类型数组 ...
离线安装python包
1.制作requirement.txt pip freeze > requirements.txt 2.离线下载安装包 #下载单个离线包 pip download -d your_offline ...

如何快速定位 Linux Panic 出错的代码行

如何快速定位 Linux Panic 出错的代码行的更多相关文章

随机推荐

热门专题