Linux内核调试方法总结之序言
本系列主要介绍Linux内核死机、异常重启类稳定性问题的调试方法。
在Linux系统中,一切皆为文件,而系统运行的载体,是一类特殊的文件,即进程。因此,我尝试从进程的角度分析Linux内核的死机、异常重启等问题。在内核空间,内核本身是一个特权级的进程,它包含一系列系统级线程,维护整个系统内核的运转。在用户空间,有很多用户进程实现不同的功能,它们有的是独立运行,有些相互之间有依赖(同步或者互斥)。在32位系统中,内核进程独享3GB~4GB的高1GB内存空间,而每个用户进程则分别占据0GB~3GB的低3GB内存空间。这里需要搞清楚的是,这里说的高1GB内存空间和低3GB内存空间是指的虚拟内存空间,而不是物理内存空间。(查阅《深入理解Linux虚拟内存管理》)高1GB内存空间在系统中只有一个拷贝,而低3GB内存空间则是每个用户进程均独自拥有,彼此相互隔离。 下面的图展示了对于用户进程而言,4GB虚拟内存空间的布局:

现在,我们要介绍一下进程的运行环境,从图上我们可以看到高1GB虚拟内存空间是内核空间,每个用户进程都是内核进程通过调用exec系统调用fork出来的子进程,在高1GB虚拟内存空间中,保存了用户进程的环境列表和参数列表。环境列表是一个全局的缓冲区,里面保存了一些键值对,如下图所示:

全局指针environ指向该缓冲区。另外,从进程入口函数int main(int argc, char *argv[], char *envp[]);可以获取进程的参数列表。
用户进程的.text段(即代码段)默认加载到0x08048000开始的地址空间。至于为什么是0x08048000,这个是从Unix延续过来的,在32位系统中这个值是0x08048000,在64位系统中这个值是0x00400000。0x00000000~0x08048000地址空间主要用于进程通过mmap系统调用映射动态链接库等用途。代码段上面是.data段(即数据段),保存了初始化的全局变量和静态变量。再往上是BSS段,保存未初始化的全局变量和静态变量。(注意,初始化为零的全局变量和静态变量也会保存到BSS段)剩下的中间地带是堆栈的区域,栈从0xc0000000往下增长,堆从BSS段末端(进程可能会包含其他段,这种情况下,另当别论)往上增长。栈保存了栈帧数据,即函数调用栈信息,每一层函数调用的栈帧保存被调用函数的参数、返回地址等信息。而堆则用于动态内存分配,即调用malloc函数分配的地址空间。(需要注意,malloc函数分配的内存空间除了缓冲区空间外,还包括缓冲区起始地址、大小等内存管理信息)堆和栈之间没有明确的分界线。
但是,关于运行时堆的位置,有一点要强调。运行时堆的位置与内存管理算法相关,也就是和malloc函数实现有关。在glibc实现的内存管理算法中,malloc小块内存是在0x40000000以下的虚拟内存空间分配,通过brk/sbrk系统调用向上增长;而分配大块内存时,malloc直接通过mmap系统调用实现,分配的虚拟内存位于文件映射区,即0x40000000以上的虚拟内存空间。
独立进程崩溃的原因可能是:
1)非法地址访问,用户空间进程不能直接访问高1GB地址空间和0x08048000以下的地址空间,需要通用系统调用进行读写操作,如果非法访问了这些区域,则会被内核线程捕捉到,内核会报segmentation fault段错误,而用户进程则会crash。另外,访问堆和栈之间的空白区域也会导致segmentation fault,因为他们没有经过系统调用通过MMU映射到真正的物理内存,即野指针错误。这一段内存区域只是名义上存在的,而不是物理上实际存在的。
2) 空指针错误,空指针是指向0x00000000的,用户进程读写空指针会引发非法地址访问错误,对于用户进程,系统会报segmentation fault,用户进程crash。对于内核进程,系统会报NULL pointer错误,系统会panic重启。重复删除同一指针节点,如多次free同一段内存空间的情况下,就会引发此类问题。
3) 内存泄露,内存泄露是指动态分配的内存使用完毕之后未及时释放,对于常驻内存的守护进程和服务而言,内存泄露会导致堆大小持续向上增长,进而覆盖栈内存区域,这样就会导致程序跑飞。因此,malloc的内存使用完毕,必须要及时释放。
4) 结构体或者变量字节对齐问题,对于跨平台和网络通讯而言,此类问题是多发问题。如果结构体或者变量不对齐,会导致读取的数据产生位移,取不到正确的信息,导致程序跑飞。
5)栈溢出问题, 一般是没有对函数的入参做检查,如通过入参把超过char型数组长度的字符串填充到函数内部的char型数组局部变量中, 字符串就会冲掉函数栈帧,从而导致程序执行异常。
6)缓冲区溢出,是指往固定大小的内存区域填充超过其长度的内容,从而导致缓冲区越界擦除其他数据导致程序跑飞的情况。常见的是字符串缓冲区无’\0’结束符,这样调用printf等函数时就会溢出访问超过缓冲区的内存进而引发错误。
7)栈溢出,这是一类特殊的缓冲区溢出问题,简单说就是函数的入参占据的内存大小超过了函数内部为保存该参数分配的内存空间,导致栈帧越界覆盖其他栈帧数据,规避这一类问题的方法是在函数入口严格对入参进行检查。
进程间通讯导致进程崩溃的原因可能是:
1)死锁,如果两个进程死锁得不到调度,会导致进程本身处于D状态,但是系统不会崩溃;如果进程死锁,抢占CPU资源,其他进程得不到调度,就会导致看门狗超时,从而引发系统异常重启。(注:个人对进程间通讯机制理解还不深刻,暂时只能总结这么多)
上面大致介绍了导致系统异常的一些原因,那么,针对不同的错误类型,可以通过不同的方法进行调试分析。接下来的部分会由浅入深,分别介绍一些常用的内核调试方法和工具。
备注:关于sysfs, debugfs, procfs, printk之类的调试技巧请自行百度。
Linux内核调试方法总结之序言的更多相关文章
- Linux内核调试方法总结
		Linux内核调试方法总结 一 调试前的准备 二 内核中的bug 三 内核调试配置选项 1 内核配置 2 调试原子操作 四 引发bug并打印信息 1 BUG()和BUG_ON() 2 ... 
- Linux内核调试方法总结【转】
		转自:http://my.oschina.net/fgq611/blog/113249 内核开发比用户空间开发更难的一个因素就是内核调试艰难.内核错误往往会导致系统宕机,很难保留出错时的现场.调试内核 ... 
- 【转】Linux内核调试方法总结
		目录[-] 一 调试前的准备 二 内核中的bug 三 内核调试配置选项 1 内核配置 2 调试原子操作 四 引发bug并打印信息 1 BUG()和BUG_ON() 2 dump_sta ... 
- Linux内核调试方法【转】
		转自:http://www.cnblogs.com/shineshqw/articles/2359114.html kdb:只能在汇编代码级进行调试: 优点是不需要两台机器进行调试. gdb:在调试模 ... 
- Linux内核调试方法总结之反汇编
		Linux反汇编调试方法 Linux内核模块或者应用程序经常因为各种各样的原因而崩溃,一般情况下都会打印函数调用栈信息,那么,这种情况下,我们怎么去定位问题呢?本文档介绍了一种反汇编的方法辅助定位此类 ... 
- Linux内核调试方法总结之栈帧
		栈帧 栈帧和指针可以说是C语言的精髓.栈帧是一种特殊的数据结构,在C语言函数调用时,栈帧用来保存当前函数的父一级函数的栈底指针,当前函数的局部变量以及被调用函数返回后下一条汇编指令的地址.如下图所示: ... 
- Linux内核调试方法总结之ddebug
		[用途] Linux内核动态调试特性,适用于驱动和内核各子系统调试.动态调试的主要功能就是允许你动态的打开或者关闭内核代码中的各种提示信息.适用于驱动和内核线程功能调试. [使用方法] 依赖于CONF ... 
- Linux内核调试方法总结之调试宏
		本文介绍的内核调试宏属于静态调试方法,通过调试宏主动触发oops从而打印出函数调用栈信息. 1) BUG_ON 查看bug处堆栈内容,主动制造oops Linux中BUG_ON,WARN_ON用于调试 ... 
- 转载:Linux内核调试方法
		转载文章请注明作者和二维码及全文信息. 转自:http://blog.csdn.net/swingwang/article/details/72331196 不会编程的程序员,不是好的架构师,编程和内 ... 
随机推荐
- es6 js数组常用方法
			一:会改变自身的方法 1.array.push(element1, ...elementN) 添加一个或多个元素到数组的末尾,并返回数组新的长度 2.array.unshift(element1, . ... 
- CSS 属性小记
			1. 选择器的介绍 普通选择器 标签选择器:p{...} id选择器:#xiaoming{...} 类选择器:.class{...} 通用选择器: *{...}, 对所有的元素都有效 伪类选择器 Lo ... 
- Codeforces Round #503 (by SIS, Div. 2)  E. Sergey's problem
			E. Sergey's problem [题目描述] 给出一个n个点m条边的有向图,需要找到一个集合使得1.集合中的各点之间无无边相连2.集合外的点到集合内的点的最小距离小于等于2. [算法] 官方题 ... 
- vue 防抖和节流
			函数防抖(debounce):当持续触发事件时,一定时间段内没有再触发事件,事件处理函数才会执行一次,如果设定的时间到来之前,又一次触发了事件,就重新开始延时. 函数节流(throttle):当持续触 ... 
- iOS app被拒整理
			作者:Leon链接:http://www.zhihu.com/question/33191327/answer/71421736来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明 ... 
- MySql二进制版安装教程
			1.检查是否已安装过mariadb,若有便删除(linux系统自带的) [root@localhost /]# rpm -qa | grep mariadb [root@localhost /]# r ... 
- java交换两个变量值a,b的多钟方法
			首先我们定义两个变量用来检查方法可行性 int a=5; int b=3; 方法一,也是最容易想到的,就是建立中间变量法 int temp; temp=a; a=b; b=temp; System.o ... 
- 解决springmvc 乱码的方法
			post乱码: 在web.xml添加post乱码filter: <filter> <filter-name>CharacterEncodingFilter</filter ... 
- fpga为什么要用nios 开发
			同一个项目可以用NIOS2也可以不用就可以完成,这句话说对也可以说不对,这要看是一个什么样的项目,你那样问的话可就说明有CPU和没CPU下的使用情况你还没有搞清楚,这两者并没有完全分开,简单的说就是有 ... 
- MASM DEBUG LINKER免费下载
			这资源全被CSDN霸占了,对于我这种不使用CSND的人,没积分,真TM不好找,搞个共享的. 网盘链接,永久有效 https://pan.baidu.com/s/1Ws5axrfos1cpWL9jyAE ... 
