在由单片机构成的微型计算机系统中,由于单片机的工作常常会受到来自外界电磁场的干扰,造成程序的跑飞,而陷入死循环,程序的正常运行被打断,由单片机控制的系统无法继续工作,会造成整个系统的陷入停滞状态,发生不可预料的后果,所以出于对单片机运行状态进行实时监测的考虑,便产生了一种专门用于监测单片机程序运行状态的芯片,俗称"看门狗"。





在Android系统中也需要看好几个重要的Service门,用于发现出了问题的Service杀掉SystemServer进程,所以有必要了解并分析其系统问题。



那么被监控的有哪些Service呢?



ActivityManagerService.java :frameworks\base\services\java\com\android\server\am

PowerManagerService.java    :frameworks\base\services\java\com\android\server

WindowManagerService.java   :frameworks\base\services\java\com\android\server





下面就依次分析一下其整个处理流程:



1、初始化

run @ SysemServer.java

      Slog.i(TAG, "Init Watchdog");

      Watchdog.getInstance().init(context, battery, power, alarm,

              ActivityManagerService.self());





这里使用单例模式创建:

    public static Watchdog getInstance() {

        if (sWatchdog == null) {

            sWatchdog = new Watchdog();

        }

        return sWatchdog;

    }



    public void init(Context context, BatteryService battery,

            PowerManagerService power, AlarmManagerService alarm,

            ActivityManagerService activity) {

        // 上下文环境变量

        mResolver = context.getContentResolver();

        mBattery = battery;

        mPower = power;

        mAlarm = alarm;

        mActivity = activity;

// 登记 RebootReceiver() 接收,用于reboot广播接收使用

context.registerReceiver(new RebootReceiver(),

new IntentFilter(REBOOT_ACTION));

...

// 系统启动时间

mBootTime = System.currentTimeMillis();

    }





ok,调用init函数启动完毕



2、运行中

run @ SysemServer.java

调用 Watchdog.getInstance().start(); 启动看门狗



首先看下 Watchdog 类定义:

/** This class calls its monitor every minute. Killing this process if they don't return **/

public class Watchdog extends Thread {

}



从线程类中继承,即会在一个单独线程中运行,调用thrrad.start()即调用 Watchdog.java 中的 run() 函数



    public void run() {

        boolean waitedHalf = false;





        while (true) {

            mCompleted = false;

            

            // 1、给mHandler发送 MONITOR 消息,用于请求检查 Service是否工作正常

            mHandler.sendEmptyMessage(MONITOR);





            synchronized (this) {

// 2、进行 wait 等待 timeout 时间确认是否退出循环

long timeout = TIME_TO_WAIT;                

                // NOTE: We use uptimeMillis() here because we do not want to increment the time we

                // wait while asleep. If the device is asleep then the thing that we are waiting

                // to timeout on is asleep as well and won't have a chance to run, causing a false

                // positive on when to kill things.

                long start = SystemClock.uptimeMillis();

                while (timeout > 0 && !mForceKillSystem) {

                    try {

                        wait(timeout);  // notifyAll() is called when mForceKillSystem is set

                    } catch (InterruptedException e) {

                        Log.wtf(TAG, e);

                    }

                    timeout = TIME_TO_WAIT - (SystemClock.uptimeMillis() - start);

                }

// 3、如果 mCompleted 为真表示service一切正常,后面会再讲到

if (mCompleted && !mForceKillSystem) {

                    // The monitors have returned.

                    waitedHalf = false;

                    continue;

                }

// 4、表明检测到了有 deadlock-detection 条件发生,利用 dumpStackTraces 打印堆栈依信息

if (!waitedHalf) {

                    // We've waited half the deadlock-detection interval.  Pull a stack

                    // trace and wait another half.

                    ArrayList<Integer> pids = new ArrayList<Integer>();

                    pids.add(Process.myPid());

                    ActivityManagerService.dumpStackTraces(true, pids, null, null);

                    waitedHalf = true;

                    continue; // 不过这里会再次检测一次

                }

}



SystemClock.sleep(2000);

            

            // 5、打印内核栈调用关系

            // Pull our own kernel thread stacks as well if we're configured for that

            if (RECORD_KERNEL_THREADS) {

                dumpKernelStackTraces();

            }

// 6、ok,系统出问题了,检测到某个 Service 出现死锁情况,杀死SystemServer进程

// Only kill the process if the debugger is not attached.

            if (!Debug.isDebuggerConnected()) {

                Slog.w(TAG, "*** WATCHDOG KILLING SYSTEM PROCESS: " + name);

                Process.killProcess(Process.myPid());

                System.exit(10);

            } else {

                Slog.w(TAG, "Debugger connected: Watchdog is *not* killing the system process");

            }





            waitedHalf = false;

        }

    }





主要工作逻辑:监控线程每隔一段时间发送一条 MONITOR 线另外一个线程,另个一个线程会检查各个 Service 是否正常运行,看门狗就不停的检查并等待结果,失败则杀死SystemServer.





3、Service 检查线程



    /**

     * Used for scheduling monitor callbacks and checking memory usage.

     */

    final class HeartbeatHandler extends Handler {

@Override
 

    public void handleMessage(Message msg) {  // Looper 消息处理函数

            switch (msg.what) {

            

                case MONITOR: {

// 依次检测各个服务,即调用 monitor() 函数

final int size = mMonitors.size();

for (int i = 0 ; i < size ; i++) {

                        mCurrentMonitor = mMonitors.get(i);

                        mCurrentMonitor.monitor();

                    }

// 检测成功则设置 mCompleted 变量为 true

synchronized (Watchdog.this) {

                        mCompleted = true;

                        mCurrentMonitor = null;

                    }



下面我们来看一下各个Service如何确定自已运行ok呢?以 ActivityManagerService 为例:



首先加入检查队列:

private ActivityManagerService() {

        // Add ourself to the Watchdog monitors.

        Watchdog.getInstance().addMonitor(this);

}





然后实现 monitor() 函数:

    /** In this method we try to acquire our lock to make sure that we have not deadlocked */

    public void monitor() {

        synchronized (this) { }

    }

明白了吧,其实就是检查这个 Service 是否发生了死锁,对于此情况就只能kill SystemServer系统了。对于死锁的产生原因非常多,但有个情况需要注意:java层死锁可能发生在调用native函数,而native函数可能与硬件交互导致时间过长而没有返回,从而导致长时间占用导致问题。



4、内存使用检测

消息发送

final class GlobalPssCollected implements Runnable {

public void run() {

            mHandler.sendEmptyMessage(GLOBAL_PSS);

        }

    }

    

    检测内存处理函数:

    final class HeartbeatHandler extends Handler {

        @Override

        public void handleMessage(Message msg) {

            switch (msg.what) {

                case GLOBAL_PSS: {

                    if (mHaveGlobalPss) {

                        // During the last pass we collected pss information, so

                        // now it is time to report it.

                        mHaveGlobalPss = false;

                        if (localLOGV) Slog.v(TAG, "Received global pss, logging.");

logGlobalMemory();

}

                } break;

                

        

        其主要功能如下,统计pSS状况及读取相关linux内核中内存信息:

        void logGlobalMemory() {        

        mActivity.collectPss(stats);

        

        Process.readProcLines("/proc/meminfo",
mMemInfoFields, mMemInfoSizes);

        

        Process.readProcLines("/proc/vmstat",
mVMStatFields, mVMStatSizes);

}

android -- WatchDog看门狗分析的更多相关文章

  1. 服务器watchdog看门狗的理解

    1.什么是watchdog?watchdog,中文名称叫做“看门狗”,全称watchdog timer,从字面上我们可以知道其实它属于一种定时器.然而它与我们平常所接触的定时器在作用上又有所不同.普通 ...

  2. Resin 的watchdog(看门狗)介绍和resin负载均衡实现

    为了稳定和安全,Resin使用一个独立的watchdog进程来启动和监视Resin服务器.watchdog连续你检测Resin服务器的状态,如果其没有反应或者迟钝,将会重启Resin服务器进程.大多数 ...

  3. 【分享】iTOP-iMX6UL开发板驱动看门狗 watchdog 以及 Linux-c 测试例程

    iTOP-iMX6UL开发板看门狗测试例程,iTOP-iMX6UL 开发板的看门狗驱动默认已经配置,可以直接使用测试例程. 版本 V1.1:1.格式修改:2.例程修改完善,其中增加喂狗代码.1 看门狗 ...

  4. RM-Linux驱动--Watch Dog Timer(看门狗)驱动分析

    from:http://blog.csdn.net/geekcome/article/details/6595265 硬件平台:FL2440 内核版本:2.6.28 主机平台:Ubuntu 11,04 ...

  5. 基于S3C2440的嵌入式Linux驱动——看门狗(watchdog)驱动解读

    本文将介绍看门狗驱动的实现. 目标平台:TQ2440 CPU:s3c2440 内核版本:2.6.30 1. 看门狗概述 看门狗其实就是一个定时器,当该定时器溢出前必须对看门狗进行"喂狗“,如 ...

  6. u-boot分析(五)----I/D cache失效|关闭MMU和cache|关闭看门狗

    u-boot分析(五) 上篇博文我们按照210的启动流程,对u-boot启动中的设置异常向量表,设置SVC模式进行了分析,今天我们继续按照u-boot的启动流程对以下内容进行分析. 今天我们会用到的文 ...

  7. shell 之 用linux定时任务crontab和watchdog.sh脚本做软件看门狗

    1.简介 看门狗的作用是定期检测服务正常运行,如果发现服务不在了,会重新拉起服务:linux中可以利用系统的定时任务功能crontab定期的去执行watchdog.sh脚本,而watchdog.sh脚 ...

  8. Linux 软件看门狗 watchdog 喂狗

    Linux 自带了一个 watchdog 的实现,用于监视系统的运行,包括一个内核 watchdog module 和一个用户空间的 watchdog程序.内核 watchdog 模块通过 /dev/ ...

  9. 用go写一个简单的看门狗程序(WatchDog)

    简述 因为公司的一些小程序只是临时使用一下(不再维护更新),有的有一些bug会导致崩溃,但又不是很严重,崩溃了重新启动一下就好. 所以写了一个看门狗程序来监控程序,挂了(因为我这里并不关心程序的其他状 ...

随机推荐

  1. CTE初识

    微软从SQl2005起引入了CTE(Common Table Expression)以强化T-SQL.这是一个类似于非持久视图的好东西. 正常的SQL语句: select * from person. ...

  2. ACM之最短路径做题笔记与记录

    在这里纪念一下从4月开始一直因为事情而荒废了的最短路,多亏了jbb的帮助,我才完成了FZU热身赛一题简单的一个用模拟链表存边以及最短路径的学习,目前(6.5)已经学会使用了最简单的djstral与sp ...

  3. ZOJ 3195 Design the city LCA转RMQ

    题意:给定n个点,下面n-1行 u , v ,dis 表示一条无向边和边权值,这里给了一颗无向树 下面m表示m个询问,问 u v n 三点最短距离 典型的LCA转RMQ #include<std ...

  4. ZOJ 3596Digit Number(BFS+DP)

    一道比较不错的BFS+DP题目 题意很简单,就是问一个刚好包含m(m<=10)个不同数字的n的最小倍数. 很明显如果直接枚举每一位是什么这样的话显然复杂度是没有上限的,所以需要找到一个状态表示方 ...

  5. POJ1201Intervals(差分约束系统)

    昨天看了下差分约数系统的含义,其实就是如果有n个变量在m个形如aj-ai>=bk条件下,求解的此不等式的方法. 而这种不等式的解法其实就是转化为图论的最小路的算法求解的.我们将上面的不等式边形后 ...

  6. A Dream

    A Dream 2013年10月20日,成都,天气阴,铜牌16.离2012年10月14日长春现场赛刚好隔了一年,刚看了下去年写的总结http://blog.csdn.net/cc_again/arti ...

  7. cf754 B. Ilya and tic-tac-toe game

    呵呵呵,这个题简直是一直在乱做,真是最近太弱了 #include<bits/stdc++.h> #define lowbit(x) x&(-x) #define LL long l ...

  8. UI:基础

    App的生命周期 参考 多态的使用 // // main.m #import <Foundation/Foundation.h> #import "SingleDog.h&quo ...

  9. IL学习资料

    读懂IL代码就这么简单 由浅入深CIL系列 .net IL 指令速查

  10. [读书笔记]ASP.NET的URL路由引擎

    作用 一般的URL: 举例:http://www.myapp.com/app.aspx?id=2&sessionid=29320xafafa02fa0zga0g8a0z 缺点: 不美观,不清晰 ...