近期在玩大数据。有个朋友找过来,说他线上的tomcat会莫名其妙的退出,表示非常苦恼,请我帮看看。每次他发现退出了,都通过腾讯云的WEB控制台登录,启动tomcat。

本着助人为乐(shao kao hao chi)的精神,我连上去开始分析。首先肯定是看tomcat的日志,看看有没有记录到相关信息,是什么途径退出的。

从日志上看,tomcat收到了退出请求,并按照要求关闭容器。那么是否可以认为是有人执行了shutdown.sh呢?并不能。执行了shutdown脚本的关闭日志是这样的。

与其相关的tomcat源码截图如下。截图左侧有行号。

tomcat启动时,设置await,等待关闭指令进入。org\apache\catalina\startup\Bootstrap.java

catalinaDaemon的定义如下。

org\apache\catalina\startup\Catalina.java

具体实例化时,会将接口Server的实例指向StandardServer。类路径如下。

org\apache\catalina\Server.java

org\apache\catalina\core\StandardServer.java

而StandServer中的输出相关日志的源码如下:

读取的配置文件为org\apache\catalina\core\LocalStrings.properties

当tomcat收到正经的关闭指令时,会输出此日志,说明是收到指令关闭容器。

正经的指令关闭容器,相关代码如下。

那么,现在的证据说明,这个tomcat不是通过SHUTDOWN报文关闭的。而且,从下图来看,也颇能说明这个SHUTDOWN指令不是这么容易发成功的。

那么现在可能性最大的办法就是通过KILL指令来操作。执行bash脚本需要登录机器,那么从wtmp、utmp查找一下这个时间点的登录记录呢?

下面是IPIP的结果。

换言之,23日早上tomcat异常退出的时候,有一个来自腾讯云的BGP机房的地址也巧合的断开了会话。而我这个朋友的机器就放在腾讯云。有点奇怪是吗?

继续追查,连续追溯几天的tomcat日志,比对utmp、wtmp结果,再比对IPIP结果,都是如此。来自腾讯云BGP机房的会话断开,tomcat同一时间点退出。精确到秒级。连续多天出现很多次,说明tomcat退出和WEB会话退出是具备因果关系的。

经过询问,朋友确认他是习惯于使用WEB控制台的方式登录服务器,启动了tomcat以后就丢在一边,开始调试接口了。那么有什么可能会导致这样的因果关系出现?这就要说到Linux系统的一个历史悠久的进程间通信的机制——信号量。

具体信号量是什么,请自行查询相关资料了解学习。针对本次问题,可以简单的理解为进程间通讯的一种机制。

进程A需要进程B做点事,而进程间的内存区域某种意义上说是互不可见的。这个时候就需要通过信号量来完成。进程A可以按照预先定义的信号量规范向进程B发出信号量,当进程B收到后,根据具体信号量的值决定处理逻辑。具体信号量清单,可以在命令行通过如下命令查询。命令中均为字母,没有数字1。

这其中最常见的就是9,SIGKILL。当进程收到此信号量时,会被KILL掉。此信号量由操作系统处理,应用不能处理。在vista之前的windows系统中,是有办法渗透到内核中的。此时可以拦截类似WM_CLOSE之类的消息,让某个程序无法关闭。到了win7、win10时代,已经不能使用此类技巧了。

此外,我们熟悉的CTRL + C操作,发出的是SIGINT。有些场景下,我们需要通知程序优雅的退出,此时可以发出SIGQUIT,也就是kill -3。

那么WEB控制台会话断开,会发出什么信号量呢?我们来试试就知道了。Java虽然说不能操作系统底层,但是sun.misc包有惊喜哦。代码如下。

如图所示,这段代码会在收到信号量时输出线程名称,信号量名称,并翻译成具体的数字。随后,在main函数中,我“注册”了HUP、INT、ABRT、TERM四种信号量。注册四种是因为不清楚具体会发什么出来,索性有可能的都搞起来。

编译,打包。此处有一个问题需要注意,由于信号量属于操作系统底层机制,每个不同操作系统所支持的信号量是不同的,JVM中通过private static native int findSignal(String paramString)提供支持。native方法涉及具体VM实现,不贴代码了。不过很容易想到的是,windows和linux当然不同。所以此处就要在上位机编写,下位机调试了。windows底下运行报错可不要慌张哦。

接下来的事情就简单了。把程序上传服务器,通过WEB控制台登录服务器,将执行结果重定向到文本文件中,然后静待控制台超时。结果如下。

结果不用再分析了,WEB控制台会在退出时发出SIGHUP,相当于kill -1。而tomcat在收到SIGHUP会怎么操作呢?小伙伴们可以试试看kill -1 pid,再看看日志,就明白了。

解决方案其实也简单。SIGHUP是HANG UP的意思,可以用nohup xx.sh &来彻底屏蔽SIGHUP和SIGINT。另外,经过测试发现,通过单击SecureCRT的tab页右侧的×也可以触发信号量,而直接logout或者点菜单上的红叉则并不会触发。

感兴趣的小伙伴可以把这个程序扩展一下,测测看。说不定你的异常退出问题也能迎刃而解呢。

此问题的解决离不开上海中通的刘建刚同学,特此致谢。

一次信号量引发的tomcat异常退出的更多相关文章

  1. ELK系列(7) - 测试环境下Logstash异常退出:block in multi_receive_encoded

    问题与分析 在本地测试无误后将ELK部署到了测试环境,结果第二天发现Logstash挂掉了,一开始以为是自动部署之类导致的问题.之后几天时间里Logstash总是会down掉,查看了下日志文件,发现报 ...

  2. Nginx问题定位之监控进程异常退出

    nginx在运行过程中是否稳定,是否有异常退出过?这里总结几项平时会用到的小技巧. 1. 在error.log中查看是否有signal项,如果有,看看signal是多少. 比如,这是一个异常退出的情况 ...

  3. Tomcat异常 Multiple Contexts have a path of "/qqshl".解决方法

    Tomcat异常 Multiple Contexts have a path of "/qqshl".解决方法 找到tomcat映射文件Service.xml,将文件中的conte ...

  4. idea_IDEA跑Tomcat异常

    IDEA跑Tomcat异常 具体异常如下 Artifact :war exploded: Server is not connected. Deploy is not avail 根据别人的回答,去掉 ...

  5. MHA监控进程异常退出

    这两天遇到一个非常诡异的问题,打算和大家分享一下.只所以诡异估计是自己知识面不够吧.线上的MHA一直没有开启自动切换,都是手动切换的,最近开启了自动切换以后,退出securecrt窗口以后发现监控进程 ...

  6. Aliyun OSS SDK 异步分块上传导致应用异常退出

    问题描述: 使用Aliyun OSS SDK的BeginUploadPart/EndUploadPart执行异步分块上传操作,程序出现错误并异常退出! 原因分析: Using .NET Framewo ...

  7. android捕获程序异常退出

    今天看到迅雷动漫里面一个CrashHandler 的类,我猜是崩溃处理类.进去一看.果然.顺便学习一下. Android系统的"程序异常退出",给应用的用户体验造成不良影响.为了捕 ...

  8. Android系统的“程序异常退出”[转]

    在应用运行过程中,有很多异常可能会发生,而我们希望在异常发生的时候第一时间的保存现场. 如何处理未捕获的异常呢? 首先我们要实现一个接口  java.lang.Thread.UncaughtExcep ...

  9. 网站开发进阶(八)tomcat异常日志分析及处理

    tomcat异常日志分析及处理 日志信息如下: 2015-10-29 18:39:49 org.apache.coyote.http11.Http11Protocol pause 信息: Pausin ...

随机推荐

  1. webpack优化经验1(持续)

    1 不知道该优化哪里 先开启gzip压缩,这样可以很直接的减少请求包的体积,效果显著,不过需要在服务器端作相应的配置才能生效 2拆分vendor包, 减少单体包的体积,并行加载 通过配置,将不同的公用 ...

  2. Win7,Vista UAC下应用程序标注为“需要管理员权限”的四种方法(可以修改注册表)

    [转]Vista UAC下应用程序标注为“需要管理员权限”的四种方法 在Microsoft 的UACBlog里对此有过叙述.总结如下: 首先,如果一个程序被识别为管理员程序时,Vista会在它的图标上 ...

  3. JavaScript取出字符串和尾随空格

    书写JavaScript性能trim()之前和之后删除空字符串格,的功能的应用String物replace()方法去除空字符串端到端格.trim()例如,对于功能键下面的代码: <script ...

  4. python 反转列表

    翻转一个链表 您在真实的面试中是否遇到过这个题? Yes 样例 给出一个链表1->2->3->null,这个翻转后的链表为3->2->1->null 步骤是这样的: ...

  5. Java transient关键字【转】

    转自:http://www.blogjava.net/fhtdy2004/archive/2009/06/20/286112.htmlVolatile修饰的成员变量在每次被线程访问时,都强迫从主内存中 ...

  6. 关于JavaScript中事件的一些重要说明

    1,JavaScript异步回调 <script language="javascript"> //注册回调函数loaded到处理函数window.onload上 wi ...

  7. 机器学习:DeepDreaming with TensorFlow (二)

    在前面一篇博客里,我们介绍了利用TensorFlow 和训练好的 Googlenet 来生成简单的单一通道的pattern,接下来,我们要进一步生成更为有趣的一些pattern,之前的简单的patte ...

  8. C++学习笔记26,虚函数

    在C++里面,虚拟功能是功能的一类重要!不同目的可以通过在不同的虚拟功能来达到同样的动作被定义. 举一个简单的例子: #include <iostream> #include <st ...

  9. Android学习-- 基于位置的服务 LBS(基于百度地图Android SDK)--定位SDK

    原文:Android学习-- 基于位置的服务 LBS(基于百度地图Android SDK)--定位SDK 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog.csdn.ne ...

  10. Qt5该插件机制(7)--插件开发演示示例代码(Lower-level API)

    插件代码 接口类的头文件 MyPluginInterface.h #ifndef INTERFACES_H #define INTERFACES_H #include <QtPlugin> ...