内核模块踩内存问题定位利器- hardware breakpoint

内核由于共享内存地址空间，如果没有合适的工具，很多踩内存的问题即使复现，也无法快速定位；

在新的内核版本中引入了一个新工具hardware breakpoint,其能够监视对指定的地址的特定类型(读/写)的数据访问,有利于该类问题的定位；

以下是一个使用该工具的例子(来自内核代码linux-3.10/samples/hw_breakpoint/data_breakpoint.c)

struct perf_event * __percpu *sample_hbp;

static char ksym_name[KSYM_NAME_LEN] = "pid_max";

module_param_string(ksym, ksym_name, KSYM_NAME_LEN, S_IRUGO);

MODULE_PARM_DESC(ksym, "Kernel symbol to monitor; this module will report any"

			" write operations on the kernel symbol");

static void sample_hbp_handler(struct perf_event *bp,

			       struct perf_sample_data *data,

			       struct pt_regs *regs)

{

	printk(KERN_INFO "%s value is changed\n", ksym_name);

	dump_stack();

	printk(KERN_INFO "Dump stack from sample_hbp_handler\n");

}

static int __init hw_break_module_init(void)

{

	int ret;

	struct perf_event_attr attr;

	hw_breakpoint_init(&attr);

	attr.bp_addr = kallsyms_lookup_name(ksym_name);

	attr.bp_len = HW_BREAKPOINT_LEN_4;

	attr.bp_type = HW_BREAKPOINT_W | HW_BREAKPOINT_R;

	sample_hbp = register_wide_hw_breakpoint(&attr, sample_hbp_handler, NULL);

	if (IS_ERR((void __force *)sample_hbp)) {

		ret = PTR_ERR((void __force *)sample_hbp);

		goto fail;

	}

	printk(KERN_INFO "HW Breakpoint for %s write installed\n", ksym_name);

	return 0;

fail:

	printk(KERN_INFO "Breakpoint registration failed\n");

	return ret;

}

static void __exit hw_break_module_exit(void)

{

	unregister_wide_hw_breakpoint(sample_hbp);

	printk(KERN_INFO "HW Breakpoint for %s write uninstalled\n", ksym_name);

}

module_init(hw_break_module_init);

module_exit(hw_break_module_exit);

MODULE_LICENSE("GPL");

MODULE_AUTHOR("K.Prasad");

MODULE_DESCRIPTION("ksym breakpoint");

注意：

1、各个不同的CPU有同时支持的hardwarebreakpoint数量限制，对X86，为4个.

所以对于随机的内存踩踏(频繁的申请、使用、释放)是很难处理的，比较适合固定的地址踩踏
2、指定的回调函数的调用时机：对X86，如果监视的是数据地址，则是在访问该数据的指令执行完成后，通过exception触发回调，如果监视的是指令地址，则是在该指令被执行前通过exception触发回调
1. 该方式只能监视通过CPU访问地址的情况，对DMA就无能为力了

补充：

如何跟踪指令地址

1、该工具用于跟踪指令地址(函数等)的访问，这个时候attr.bp_type需要设置为HW_BREAKPOINT_X

关于PER_CPU变量的跟踪

1、获取per_cpu变量的地址

如果跟踪的是内核的per_cpu变量，那么用kallsyms_lookup_name获取到的地址不是per_cpu变量的实际地址，仅仅是该per_cpu变量相对于各个cpu自己的per_cpu数据存放区起始地址的偏移，需要通过per_cpu_ptr获取到真实的地址，比如：

	addr = kallsyms_lookup_name("gcwq_nr_running");

	addr = (unsigned long)per_cpu_ptr((atomic_t *)addr,cpu);

	attr.bp_addr = addr

2、关于可用的hw breakpoint数量

由于CPU硬件支持的hw breakpoint数量非常有限，当前CPU和核心数量较多，很多时候不可能为每个CPU核心对于的per cpu变量都注册hw breakpoint，但是很多per_cpu变量的改写，甚至是读取，都限定在本CPU，而不是所有的CPU，如果是出于内核执行跟踪的目的，就没有必要把要在其它CPU上访问的per_cpu变量地址都注册在当前CPU的hw breakpoint了，这时就可以修改hw breakpoint接口register_wide_hw_breakpoint，把其中的for_each_online_cpu循环修改为仅仅处理当前CPU即可

内核模块踩内存问题定位利器- hardware breakpoint的更多相关文章

记一次《C语言踩内存》问题定位有感
踩内存问题,个人认为算是比较容易出现但是有很难定位的问题,被踩者轻者功能瘫痪,重者一命呜呼,直接诱发死机.产生踩内存的的原因也比较多样,比较典型的有如下几种: 数组越界访问字符串越界操作直接操作野 ...
Android内存泄漏检测利器：LeakCanary
Android内存泄漏检测利器:LeakCanary MAR 28TH, 2016 是什么? 一言以蔽之:LeakCanary是一个傻瓜化并且可视化的内存泄露分析工具为什么需要LeakCanary? ...
根据内存布局定位的一个fastdfs坑
在使用fastdfs时,编写数据上传代码时,遇到一个坑.最终根据指针对应的内存布局定位到一个其client API的一个坑,值得记录一下.具体是在 tracker_connect_server() 这 ...
一个未完成的2.6.32-220内核踩内存crash分析记录
遇到一个crash,log如下: BUG: unable to handle kernel NULL pointer dereference at (null) IP: [<ffffffff81 ...
构造函数，C++内存管理,内存泄漏定位
构造函数 1.构造顺序虚基类构造函数,基类构造函数,类对象构造函数,自己的构造函数 2.必须使用初始化列表 (1) 引用成员,常量成员: (2) 基类没默认构造函数(自己重载覆盖了), (3)类对象 ...
C++ 踩内存
1.从上往下,栈在堆上面(记忆方法:站在堆上面),二者向里压缩,也就是说,栈地址减少,堆地址增加.栈顶是小地址. 2.模拟踩内存,让程序崩溃.代码如下: int main(int argc, char ...
内存问题检查利器——Purify
内存问题检查利器——Purify 一. 引言我们都知道软件的测试(在以产品为主的软件公司中叫做QA—Quality Assessment)占了整个软件工程的30% -50%,但有 ...
Java内存泄漏定位
Java虚拟机内存分为五个区域:方法区,堆,虚拟机栈,本地方法栈,程序计数器.其中方法区和堆是java虚拟机共享的内存区域,虚拟机栈,本地方法栈,程序计数器是线程私有的. 程序计数器(Program ...
Linux进程内存分析和内存泄漏定位
在Linux产品开发过程中,通常需要注意系统内存使用量,和评估单一进程的内存使用情况,便于我们选取合适的机器配置,来部署我们的产品. Linux本身提供了一些工具方便我们达成这些需求,查看进程实时资源 ...
Android 内存泄漏分析利器——leakcanary
LeakCanary Android 和 Java 内存泄露检测. “A small leak will sink a great ship.” - Benjamin Franklin 千里之堤, 毁 ...

随机推荐

【DataBase】SQL优化案例：其一
原始SQL: 这里想做的事情就是查询一周的一个计算值可以理解为报表的那种主表 t_wechat_clue 生产库上200万数据量然后需要联表一些限制条件 SELECT IFNULL(SUM((C ...
【Vue】Re05 操作数组的API
一.响应式处理的操作: <!DOCTYPE html> <html lang="en"> <head> <meta charset=&qu ...
windows11系统NVIDIA显卡驱动自动升级导致2070 Super显卡失效 —— 552.22版本自动升级到560.70版本后2070 Super型号显卡停止工作
操作系统 Windows11,旧版本显卡驱动是552.22,由于安装的是NVIDIA Geforce Experience后显卡驱动自动升级到560.77版本,然后显卡不再工作. 重新安装显卡驱动56 ...
【开启报名】同学看过来，Apache DolphinScheduler开源之夏课题任务正式发布！
如果你还拥有着一张有效的"学生证",在这个充满机遇的夏天,我们诚邀你加入一个充满挑战和机遇的开源冒险--开源之夏. 这不仅是一个简单的编程开发活动,假如你成功参加并结项之后,还能获 ...
Kotlin 循环与函数详解：高效编程指南
Kotlin 循环当您处理数组时,经常需要遍历所有元素. 要遍历数组元素,请使用 for 循环和 in 操作符: 示例输出 cars 数组中的所有元素: val cars = arrayOf(&q ...
运用Npcap库实现SYN半开放扫描
Npcap 是一款高性能的网络捕获和数据包分析库,作为 Nmap 项目的一部分,Npcap 可用于捕获.发送和分析网络数据包.本章将介绍如何使用 Npcap 库来实现半开放扫描功能.TCP SYN 半 ...
RabbitMq消息可靠性之回退模式通俗易懂超详细【内含案例】
RabbitMq保证消息可靠性之回退模式介绍生产者生产的消息没有正确的到达队列就会触发回退模式,进行二次发送前提完成SpringBoot 整合 RabbitMq 中的Topic通配符模式一. ...
神经网络之卷积篇：详解三维卷积（Convolutions over volumes）
详解三维卷积从一个例子开始,假如说不仅想检测灰度图像的特征,也想检测RGB彩色图像的特征.彩色图像如果是6×6×3,这里的3指的是三个颜色通道,可以把它想象成三个6×6图像的堆叠.为了检测图像的边缘 ...
k8s获取集群内所有在使用镜像
kubectl get pods --all-namespaces -o jsonpath="{..image}" | tr -s '[[:space:]]' ' ' | sort ...
Android Studio 项目已经sync完成，但是在布局中显示：Design editor is unavaliable until after a sunncessful project sync
原因:在drawable文件夹中新增了一个png图标解决:同步在drawable-v24文件中复制一份即可

内核模块踩内存问题定位利器- hardware breakpoint

内核模块踩内存问题定位利器- hardware breakpoint的更多相关文章

随机推荐

热门专题