模块简介

新人接触线上的时候一般都会碰到supervise这个工具,导师对这个模块的解释一般就是,这个模块是监控进程,当进程挂掉之后,supervise会将进程启动。这样当进程出

现问题,如因出core而导致进程down掉的时候,supervise会马上将进程起起来,从而快速恢复服务。

新人一般就会记住这一点,然后就一直没有去深入理解,supervise具体是怎么做的这一点的,以及从supervise我们能获得什么信息。

实际上supervise是开源工具集daemontools( http://cr.yp.to/daemontools.html )其中的一个工具,公司将这个工具单独从daemontools剥离,

并且根据公司的需求更改了源代码,这个工作是逢春同学负责

模块工具原理

模块的工作原理实际上很简单,supervise启动的时候fork一个子进程,子进程执行execvp系统调用,将自己替换成执行的模块,

模块变成supervise的子进程在运行,而supervise则死循环运行,并通过waitpid或者wait3系统调用选择非阻塞的方式去侦听子进程的运行情况,

当然同时也会读取pipe文件svcontrol的命令,然后根据命令去执行不同的动作,

如果子进程因某种原因导致退出,则supervise通过waitpid或者wait3获知,并继续启动模块,如果模块异常导致无法启动,则会使supervise陷入死循环,不断的启动模块

原理总结下来就是导师给新人所介绍的那样。

supervise使用的文件,以及我们可以利用的

supervise要求在当前目录下有status目录,同时status目录下面会有通过supervise启动的模块名的目录,而该目录下会有三个文件,分别为lock status svcontrol,对应的功能和我们可以从中获取的信息如下

  • lock

    • 作用:supervise的文件锁,通过该文件锁去控制并发,防止同一个status目录下启动多个进程,造成混乱
    • 可以利用的信息:可以通过/sbin/fuser这个命令去获取lock文件的使用信息,如果fuser返回值为0,表示supervise已经启动,同时fuser返回了supervise的进程pid
  • status

    • 作用:这个文件是supervise用来记录一些信息之用,可以简单的理解为 char status[20],其中status[16]记录了supervise所启动的子进程的pid,status[17]-status[19] 是子进程pid别右移8位,没搞懂为什么supervise要这么做,而status[0]-status[11] 没有用,status[12]-status[14] 是标志位,一般没啥用,status[15] 直接为0
    • 可以利用的信息:可以直接通过od命令去读取该文件,一般有用的就是od -An -j16 -N2 -tu2 status可以直接拿到 supervise所负责的子进程的pid
  • svcontrol

    • 作用:可以理解为一个控制接口,supervise读取这个管道的信息,进而根据管道的信息去控制子进程,而通过控制子进程的方式实际上就是给子进程发信号,因此实际上跟自己通过kill命令给supervise所在的子进程发信号从功能上没有本质的区别,但是通过控制接口的方式的话,准确性会非常的高
    • 可以利用的信息:直接写命令到该文件中,如echo 'd' > svcontorl, 让supervise去控制子进程,比较常用的命令如下
      • d: 停掉子进程,并且不启动
      • u: 相对于d,启动子进程
      • k: 发送一个kill信号,因kill之后supervise马上又重启,因此可以认为是一个重启的动作
      • x: 标志supervise退出

对于以上三个文件,从中获取的信息的用处,我认为主要在优化模块的控制脚本上面,

现有的控制模块起停脚本一般都是通过grep命令去获取对应的进程的pid,然后发送信号给对应的pid,

这种方式是从外部方式获取信息,在准确性上面会差一点,可能会造成误杀,而如果通过status目录的三个文件去获取模块的信息,

并且通过svcontrol控制接口去控制,这种方式是从内部方式去获取模块运行的一些信息,能够保证准确性

space现在部分模块的起停脚本已经更改过,但是没有全面推广,因现在推广的需求不强烈,因此推广也没有排期

transmit和memcached使用supervise的问题

OP同学会发现,使用supervise去启动transmit的时候,然后通过pstree space(或者其他工作帐号)去观察进程的时候,会发现进程打印的不规范,如下

supervise.trans---supervise.trans

transmit---2*[transmit]

具体原因是这样子的,supervise通过waitpid或者wait3去侦擦子进程的情况,但是由于transmit这个模块在内部逻辑里面要求自己形成守护进程,

进而脱离了supervise这个父进程,成为init的子进程,此时waitpid或者wait3返回的不是预期的,supervise就认为子进程异常

从而进入了启动transmit的阶段,去重启启动一个transmit,但是新启动的transmit因为端口已经被占用,因此无法启动

自己进程退出,supervise又认为子进程异常,从而陷入死循环,不断的重启transmit,因此通过pstree 去看就形成那种格式

因为此时transmit和superivse.transmit已经不是父子关系了。当然需要提一下的是,supervise在死循环重启子进程的时候,

每次重启前都会sleep 一段时间,因此可以认为几乎不耗机器的资源

memcached如果使用了-d选项,也会出现如上的问题,-d选项为memcached自己形成守护进程,

因此现在space的memcached一般都把-d选项关闭,理论上只要形成守护进程的程序,使用supervise去启动的时候都会有这个问题

这个跟rd有很大的关系,个人建议rd写程序的时候不要自己去把程序写成守护进程,没啥意义

[转载] 深入 superviser的更多相关文章

  1. Crystal Clear Applied: The Seven Properties of Running an Agile Project (转载)

    作者Alistair Cockburn, Crystal Clear的7个成功要素,写得挺好. 敏捷方法的关注点,大家可以参考,太激动所以转载了. 原文:http://www.informit.com ...

  2. RTP与RTCP协议介绍(转载)

    RTSP发起/终结流媒体.RTP传输流媒体数据 .RTCP对RTP进行控制,同步.RTP中没有连接的概念,本身并不能为按序传输数据包提供可靠的保证,也不提供流量控制和拥塞控制,这些都由RTCP来负责完 ...

  3. 《Walking the callstack(转载)》

    本文转载自:https://www.codeproject.com/articles/11132/walking-the-callstack Download demo project with so ...

  4. [转载]MVVM模式原理分析及实践

    没有找到很好的MVVM模式介绍文章,简单找了一篇,分享一下.MVVM实现了UI\UE设计师(Expression Blend 4设计界面)和软件工程师的合理分工,在SilverLight.WPF.Wi ...

  5. [转载]:STM32为什么必须先配置时钟再配置GPIO

    转载来源 :http://blog.csdn.net/fushiqianxun/article/details/7926442 [原创]:我来添两句,就是很多同学(包括我)之前搞低端单片机,到了stm ...

  6. [转载]从MyEclipse到IntelliJ IDEA-让你摆脱鼠标,全键盘操作

    从MyEclipse转战到IntelliJ IDEA的经历 注转载址:http://blog.csdn.net/luoweifu/article/details/13985835 我一个朋友写了一篇“ ...

  7. TCP同步与异步,长连接与短连接【转载】

    原文地址:TCP同步与异步,长连接与短连接作者:1984346023 [转载说明:http://zjj1211.blog.51cto.com/1812544/373896   这是今天看到的一篇讲到T ...

  8. 在CentOS 7/6.5/6.4 中安装Java JDK 8(转载)

    转载在CentOS 7/6.5/6.4 中安装Java JDK 8 首先,在你的服务器上运行一下更新. yum update 然后,在您的系统上搜索,任何版本的已安装的JDK组件. rpm -qa | ...

  9. 用C#实现MD5的加密(转载)

    方法一 首先,先简单介绍一下MD5 MD5的全称是message-digest algorithm 5(信息-摘要算法,在90年代初由mit laboratory for computer scien ...

随机推荐

  1. Swoole 遇上 PHP会是怎样的结果呢

    一直想写点Swoole的东西,毕竟它重新定义了php,却一直不知道怎么下手写 Swoole涉及的知识点非常多,互为表里,每次想写都发现根本理不出一个头绪 Swoole是一个php的扩展,它的核心目的就 ...

  2. Linux下命令行安装WebLogic 10.3.6

    1.创建用户useradd weblogic;创建用户成功linux系统会自动创建一个和用户名相同的分组,并将该用户分到改组中.并会在/home路径下创建一个和用户名相同的路径,比如我们创建的webl ...

  3. 字符编码的过滤器Filter(即输入的汉字,能在页面上正常显示,不会出现乱码)

    自定义抽象的 HttpFilter类, 实现自 Filter 接口 package com.lanqiao.javaweb; import java.io.IOException; import ja ...

  4. SQL-字符串合并

    create table tb(id int, value varchar(10))  insert into tb values(1, 'aa')  insert into tb values(1, ...

  5. angular 控制器之间的通信

    1, 利用作用域的继承方式 由于作用域的继承是基于js的原型继承方式,所以这里分为两种情况,当作用域上面的值为基本类型的时候,修改父作用域上面的值会 影响到子作用域,反之,修改子作用域只会影响子作用域 ...

  6. Hardwood Species 分类: POJ 树 2015-08-05 16:24 2人阅读 评论(0) 收藏

    Hardwood Species Time Limit: 10000MS Memory Limit: 65536K Total Submissions: 20619 Accepted: 8083 De ...

  7. Color Me Less 分类: POJ 2015-06-10 18:24 11人阅读 评论(0) 收藏

    Color Me Less Time Limit: 1000MS   Memory Limit: 10000K Total Submissions: 31693   Accepted: 15424 D ...

  8. 程序的链接和装入及Linux下动态链接的实现

    http://www.ibm.com/developerworks/cn/linux/l-dynlink/ 程序的链接和装入及Linux下动态链接的实现 程序的链接和装入存在着多种方法,而如今最为流行 ...

  9. JAVA基础知识之网络编程——-基于TCP通信的简单聊天室

    下面将基于TCP协议用JAVA写一个非常简单的聊天室程序, 聊天室具有以下功能, 在服务器端,可以接受客户端注册(用户名),可以显示注册成功的账户 在客户端,可以注册一个账号,并用这个账号发送信息 发 ...

  10. 调试器不能连接到STM32的问题与解决办法

    很多人都碰到过调试器不能连接到STM32的问题,不管是IAR的J-Link还是Keil的ULink,或者是ST的ST-Link.出现这个问题时,调试软件会提示不能建立与Cortex-M3的连接,或提示 ...