hung task机制

最近在修改内核源码的时候一直出现格式化磁盘的时候，进程会出现状态D，看内核日志会看到如下信息：

INFO: task filebench: blocked for more than  seconds.

 Oct  :: localhost kernel: "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.

如是，查了一下为什么会出现这种情况，以及为什么进程的状态显示D之后是kill不了的。

一、相关知识
长期以来，处于D状态(TASK_UNINTERRUPTIBLE状态)的进程都是让人比较烦恼的问题，处于D状态的进程不能接收信号，kill不掉。在一些场景下，常见到进程长期处于D状态，用户对此无能为力，也不知道原因，只能重启恢复。
其实进程长期处于D状态肯定是不正常的，内核中设计D状态的目的是为了让进程等待IO完成，正常情况下IO应该会顺利完成，然后唤醒相应的D状态进程，即使在异常情况下(比如磁盘离或损坏、磁阵链路断开等)，IO处理也是有超时机制的，原理上不会存在永久处于D状态的进程。但是就是因为内核代码流程中可能存在一些bug，或者用户内核模块中的相关机制不合理，可能导致进程长期处于D状态，无法唤醒，类似于死锁状态。
针对这种情况，内核中提供了hung task机制用于检测系统中是否存在处于D状态超过120s(时长可以设置)的进程，如果存在，则打印相关警告和进程堆栈。如果配置了hung_task_panic（proc或内核启动参数），则直接发起panic，结合kdump可以搜集到vmcore。从内核的角度看，如果有进程处于D状态的时间超过了120s，那肯定已经出现异常了，以此机制来收集相关的异常信息，用于分析定位问题。

二、基本原理
hung task机制的实现很简单，其基本原理为：
创建一个内核线程(khungtaskd)，定期(120)唤醒后，遍历系统中的所有进程，检查是否存在处于D状态超过120s(时长可以设置)的进程，如果存在，则打印相关警告和进程堆栈。如果配置了hung_task_panic（proc或内核启动参数），则直接发起panic。

三、代码分析
1、初始化
hung_task_init()：

/*
* hung task机制，初始化一个内核线程来检测系统中是否存在D状态超过120s的
* 进程
*/
static int __init hung_task_init(void)
{
/*注册panic通知链，在panic时执行相关操作。*/
atomic_notifier_chain_register(&panic_notifier_list, &panic_block);
/*创建内核线程khungtaskd，执行函数为watchdog*/
watchdog_task = kthread_run(watchdog, NULL, "khungtaskd");
return 0;
}

2、内核线程处理：watchdog
watchdog()：

/*
* kthread which checks for tasks stuck in D state
*/
/*hung task机制中khungtaskd内核线程的处理函数*/
static int watchdog(void *dummy)
{
/*设置当前khungtaskd内核线程的nice为0，即普通优先级，为了不影响业务运行*/
set_user_nice(current, 0);
/*死循环进行检测*/
for ( ; ; ) {
/*进程处于D状态的时间上线可通过sysctl/proc控制，默认为120s*/
unsigned long timeout = sysctl_hung_task_timeout_secs;
/*检测线程(watchdog)sleep 120s(默认)后，再次唤醒。*/
while (schedule_timeout_interruptible(timeout_jiffies(timeout)))
timeout = sysctl_hung_task_timeout_secs;
/*醒来后执行实际的检测操作*/
check_hung_uninterruptible_tasks(timeout);
}
return 0;
}

watchdog()->check_hung_uninterruptible_tasks():

/*
* Check whether a TASK_UNINTERRUPTIBLE does not get woken up for
* a really long time (120 seconds). If that happens, print out
* a warning.
*/
/*遍历系统中的所有进程，检测是否有处于D状态超过120的进程，如果有则打印告警或panic*/
static void check_hung_uninterruptible_tasks(unsigned long timeout)
{
/*hung task检测是检查的最大进程数，默认为最大的进程号*/
int max_count = sysctl_hung_task_check_count;
/*
* 每次遍历进程数的上限，默认为1024，这样做的目的是为了:
* 1、防止rcu_read_lock的占用时间太长。
* 2、hung task的watchdog占用CPU时间太长。如果没开内核抢占，则如果内核线程不主动调度的话，是不能发生进程切换的?
*/
/*
*Fixme:如果系统中的进程数比较多，那么就可能检测不到部分D状态进程了?不会，因为这里只是会调度一次，调度回来
*后，会继续遍历后面的进程*/
int batch_count = HUNG_TASK_BATCHING;
struct task_struct *g, *t;
/*
* If the system crashed already then all bets are off,
* do not report extra hung tasks:
*/
/*如果系统已经处于crash状态了，就不在报hung task了。*/
if (test_taint(TAINT_DIE) || did_panic)
return;
rcu_read_lock();
/*遍历系统中的所有进程*/
do_each_thread(g, t) {
if (!max_count--)
goto unlock;
/*如果每次检测的进程数量超过1024了，则需要发起调度，结束rcu优雅周期*/
if (!--batch_count) {
batch_count = HUNG_TASK_BATCHING;
/*释放rcu，并主动调度，调度回来后检查相应进程是否还在，如果不在了，则退出遍历，否则继续*/
if (!rcu_lock_break(g, t))
goto unlock;
}
/* use "==" to skip the TASK_KILLABLE tasks waiting on NFS */
/*检测进程状态是否为D*/
if (t->state == TASK_UNINTERRUPTIBLE)
/*检测进程处于D状态的时间是否超过120s。*/
check_hung_task(t, timeout);
} while_each_thread(g, t);
unlock:
rcu_read_unlock();
}

watchdog()->check_hung_uninterruptible_tasks()->check_hung_task():

static void check_hung_task(struct task_struct *t, unsigned long timeout)
{
/*进程上下文切换计数，以此来判断该进程是否发生过调度*/
unsigned long switch_count = t->nvcsw + t->nivcsw;
/*
* Ensure the task is not frozen.
* Also, skip vfork and any other user process that freezer should skip.
*/
if (unlikely(t->flags & (PF_FROZEN | PF_FREEZER_SKIP)))
return;
/*
* When a freshly created task is scheduled once, changes its state to
* TASK_UNINTERRUPTIBLE without having ever been switched out once, it
* musn't be checked.
*/
if (unlikely(!switch_count))
return;
/*
* 如果当前switch_count不等于last_switch_count，则说明在khungtaskd进程被唤醒期间，该进程没有发生过调度。
* 也就是说，该进程一直处于D状态，因为last_switch_count只在这里更新，其它地方不会。
* hung task机制中的120s其实是通过khungtaskd内核线程的唤醒周期来控制的，不是通过per task其它计数。
*/
if (switch_count != t->last_switch_count) {
/*更新last_switch_count计数，只在这里更新，该计数专用于hung task的检测。*/
t->last_switch_count = switch_count;
return;
}
/*
* hung task错误打印次数限制，防止dos攻击。默认为10次，由于是全局变量，
* 表示系统运行期间最多打印10次，超过后就不打印了。该参数应该可以
* 通过sysctl修改
*/
if (!sysctl_hung_task_warnings)
return;
sysctl_hung_task_warnings--;
/*
* Ok, the task did not get scheduled for more than 2 minutes,
* complain:
*/
/*如下就是我们平常常见的hung task打印了*/
printk(KERN_ERR "INFO: task %s:%d blocked for more than "
"%ld seconds.\n", t->comm, t->pid, timeout);
printk(KERN_ERR "\"echo 0 > /proc/sys/kernel/hung_task_timeout_secs\""
" disables this message.\n");
/*打印堆栈*/
sched_show_task(t);
/*如果开启了debug_lock，则打印锁的占用情况*/
debug_show_held_locks(t);
/*touch nmi_watchdog相关的计数器，防止在此过程中触发nmi_watchdog*/
touch_nmi_watchdog();
/*检测是否配置了/proc/sys/kernel/hung_task_panic，如果配置则直接触发panic*/
if (sysctl_hung_task_panic) {
/*打印所有CPU的堆栈*/
trigger_all_cpu_backtrace();
/*触发panic，如果配置了kdump就有用了*/
panic("hung_task: blocked tasks");
}
}

hung task机制的更多相关文章

kernel 3.10内核源码分析--hung task机制
kernel 3.10内核源码分析--hung task机制一.相关知识: 长期以来,处于D状态(TASK_UNINTERRUPTIBLE状态)的进程都是让人比较烦恼的问题,处于D状态的进程不能接 ...
Linux Hung Task分析
关键词:khungtaskd.TASK_UNINTERRUPTIBLE.nvcsw.nivcsw.last_switch_count等等. 经常会遇到内核打印“INFO: task xxx:xxx b ...
linux 的那些hung 检测机制
在dmesg中,看到如下信息: [:: seconds [:: seconds [:af: seconds [:af: seconds [:: seconds [:3b: seconds [:: se ...
linux 出错 “INFO: task xxxxxx: 634 blocked for more than 120 seconds.”的3种解决方案（转）
linux 出错 “INFO: task xxxxxx: 634 blocked for more than 120 seconds.”的3种解决方案 1 问题描述服务器内存满了,ssh登录失败 , ...
linux 出错 “INFO: task java: xxx blocked for more than 120 seconds.” 的3种解决方案
1 问题描述最近搭建的一个linux最小系统在运行到241秒时在控制台自动打印如下图信息,并且以后每隔120秒打印一次. 仔细阅读打印信息发现关键信息是“hung_task_timeout_secs ...
Handler机制原理图、源码、使用！！！！！
android的消息处理机制——Looper,Handler,Message (原理图.源码) 转自:http://my.oschina.net/u/1391648/blog/282892 在开始讨 ...
.NET中的async和await关键字使用及Task异步调用实例
其实早在.NET 4.5的时候M$就在.NET中引入了async和await关键字(VB为Async和Await)来简化异步调用的编程模式.我也早就体验过了,现在写一篇日志来记录一下顺便凑日志数量(以 ...
ZWave 中的消息队列机制
文章主题在我们的日常编程中,对消息队列的需求非常常见,使用一个简洁.高效的消息队列编程模型,对于代码逻辑的清晰性,对于事件处理的高效率来说,是非常重要的.这篇文章就来看看 ZWave 中是通过什 ...
[源码解析] 并行分布式任务队列 Celery 之 Task是什么
[源码解析] 并行分布式任务队列 Celery 之 Task是什么目录 [源码解析] 并行分布式任务队列 Celery 之 Task是什么 0x00 摘要 0x01 思考出发点 0x02 示例代码 ...

随机推荐

ArcGIS Server + ArcGIS Portal 10.5
1.安装IE11 2. 域名需要在C:\Windows\System32\drivers\etc\host文件中添加 127.0.0.1 机器名.域名 win2008.smartmap.com 19 ...
SQLServer 远程链接MySql数据库详解
SQLServer 远程链接MySql数据库详解 by:授客 QQ:1033553122 测试环境: Microsoft Windows XP Professional 版本2000 Service ...
【转】JS组件系列——Bootstrap组件福利篇：几款好用的组件推荐（二）
前言:上篇 JS组件系列——Bootstrap组件福利篇:几款好用的组件推荐分享了几个项目中比较常用的组件,引起了许多园友的关注.这篇还是继续,因为博主觉得还有几个非常简单.实用的组件,实在不愿自己 ...
Android应用耗电量统计，无需USB连接
Android应用耗电量统计一直是一个很头疼的问题,手工统计耗时太长,自动化统计又不是非常精准(执行自动化代码需要通过USB连接,而USB又会充电,这就造成统计数据不准).后来从前辈那里得知可以通过a ...
leveldb源码分析--Comparator
既然leveldb是一个按Key序组织的LSM-Tree实现,那么对于Key的比较就是非常之重要了,这个Key的比较在leveldb中是Comparator的形式出现的.我们首先来看看Comparat ...
jboss eap 6.2 ear包下使用log4j日志
被jboss7/eap的日志问题搞死了,查了好多资料,都是war包的,基本上使用jboss-deployment-structure.xml放到WEB-INF下,文件内容如下: 是我总是没法成功,最后 ...
Jboss7.1 local EJB lookup problem
We are trying to lookup for an Local EJB in JBoss7.1, but we get an ClassCast Exception. This local ...
kettle性能优化
普通开发电脑,如果没有网络查询步骤,kettle正常的速度应该在3000~20000条/秒.如果速度在2000条/秒一下,就可能需要调优. 性能优化的方式包括如下几种: 1.通过改变开始复制的数量(针 ...
Linux运维之批量下载指定网站的100个图片文件，并找出大于200KB的文件
题目为: 有一百个图片文件,它们的地址都是http://down.fengge.com/img/1.pnghttp://down.fengge.com/img/2.png…一直到http://dow ...
Linux运维之——每日小技巧，使用awk命令截取每行的指定列数据
获取/etc/passwd目录下的UID值小于10的数,并输出第一.三列 [root@:vg_adn_tidbCkhsTest:172.31.30.62 ~]#cat /etc/passwd | aw ...

hung task机制

hung task机制的更多相关文章

随机推荐

热门专题