近期在玩大数据。有个朋友找过来,说他线上的tomcat会莫名其妙的退出,表示非常苦恼,请我帮看看。每次他发现退出了,都通过腾讯云的WEB控制台登录,启动tomcat。

本着助人为乐(shao kao hao chi)的精神,我连上去开始分析。首先肯定是看tomcat的日志,看看有没有记录到相关信息,是什么途径退出的。

从日志上看,tomcat收到了退出请求,并按照要求关闭容器。那么是否可以认为是有人执行了shutdown.sh呢?并不能。执行了shutdown脚本的关闭日志是这样的。

与其相关的tomcat源码截图如下。截图左侧有行号。

tomcat启动时,设置await,等待关闭指令进入。org\apache\catalina\startup\Bootstrap.java

catalinaDaemon的定义如下。

org\apache\catalina\startup\Catalina.java

具体实例化时,会将接口Server的实例指向StandardServer。类路径如下。

org\apache\catalina\Server.java

org\apache\catalina\core\StandardServer.java

而StandServer中的输出相关日志的源码如下:

读取的配置文件为org\apache\catalina\core\LocalStrings.properties

当tomcat收到正经的关闭指令时,会输出此日志,说明是收到指令关闭容器。

正经的指令关闭容器,相关代码如下。

那么,现在的证据说明,这个tomcat不是通过SHUTDOWN报文关闭的。而且,从下图来看,也颇能说明这个SHUTDOWN指令不是这么容易发成功的。

那么现在可能性最大的办法就是通过KILL指令来操作。执行bash脚本需要登录机器,那么从wtmp、utmp查找一下这个时间点的登录记录呢?

下面是IPIP的结果。

换言之,23日早上tomcat异常退出的时候,有一个来自腾讯云的BGP机房的地址也巧合的断开了会话。而我这个朋友的机器就放在腾讯云。有点奇怪是吗?

继续追查,连续追溯几天的tomcat日志,比对utmp、wtmp结果,再比对IPIP结果,都是如此。来自腾讯云BGP机房的会话断开,tomcat同一时间点退出。精确到秒级。连续多天出现很多次,说明tomcat退出和WEB会话退出是具备因果关系的。

经过询问,朋友确认他是习惯于使用WEB控制台的方式登录服务器,启动了tomcat以后就丢在一边,开始调试接口了。那么有什么可能会导致这样的因果关系出现?这就要说到Linux系统的一个历史悠久的进程间通信的机制——信号量。

具体信号量是什么,请自行查询相关资料了解学习。针对本次问题,可以简单的理解为进程间通讯的一种机制。

进程A需要进程B做点事,而进程间的内存区域某种意义上说是互不可见的。这个时候就需要通过信号量来完成。进程A可以按照预先定义的信号量规范向进程B发出信号量,当进程B收到后,根据具体信号量的值决定处理逻辑。具体信号量清单,可以在命令行通过如下命令查询。命令中均为字母,没有数字1。

这其中最常见的就是9,SIGKILL。当进程收到此信号量时,会被KILL掉。此信号量由操作系统处理,应用不能处理。在vista之前的windows系统中,是有办法渗透到内核中的。此时可以拦截类似WM_CLOSE之类的消息,让某个程序无法关闭。到了win7、win10时代,已经不能使用此类技巧了。

此外,我们熟悉的CTRL + C操作,发出的是SIGINT。有些场景下,我们需要通知程序优雅的退出,此时可以发出SIGQUIT,也就是kill -3。

那么WEB控制台会话断开,会发出什么信号量呢?我们来试试就知道了。Java虽然说不能操作系统底层,但是sun.misc包有惊喜哦。代码如下。

如图所示,这段代码会在收到信号量时输出线程名称,信号量名称,并翻译成具体的数字。随后,在main函数中,我“注册”了HUP、INT、ABRT、TERM四种信号量。注册四种是因为不清楚具体会发什么出来,索性有可能的都搞起来。

编译,打包。此处有一个问题需要注意,由于信号量属于操作系统底层机制,每个不同操作系统所支持的信号量是不同的,JVM中通过private static native int findSignal(String paramString)提供支持。native方法涉及具体VM实现,不贴代码了。不过很容易想到的是,windows和linux当然不同。所以此处就要在上位机编写,下位机调试了。windows底下运行报错可不要慌张哦。

接下来的事情就简单了。把程序上传服务器,通过WEB控制台登录服务器,将执行结果重定向到文本文件中,然后静待控制台超时。结果如下。

结果不用再分析了,WEB控制台会在退出时发出SIGHUP,相当于kill -1。而tomcat在收到SIGHUP会怎么操作呢?小伙伴们可以试试看kill -1 pid,再看看日志,就明白了。

解决方案其实也简单。SIGHUP是HANG UP的意思,可以用nohup xx.sh &来彻底屏蔽SIGHUP和SIGINT。另外,经过测试发现,通过单击SecureCRT的tab页右侧的×也可以触发信号量,而直接logout或者点菜单上的红叉则并不会触发。

感兴趣的小伙伴可以把这个程序扩展一下,测测看。说不定你的异常退出问题也能迎刃而解呢。

此问题的解决离不开上海中通的刘建刚同学,特此致谢。

一次信号量引发的tomcat异常退出的更多相关文章

  1. ELK系列(7) - 测试环境下Logstash异常退出:block in multi_receive_encoded

    问题与分析 在本地测试无误后将ELK部署到了测试环境,结果第二天发现Logstash挂掉了,一开始以为是自动部署之类导致的问题.之后几天时间里Logstash总是会down掉,查看了下日志文件,发现报 ...

  2. Nginx问题定位之监控进程异常退出

    nginx在运行过程中是否稳定,是否有异常退出过?这里总结几项平时会用到的小技巧. 1. 在error.log中查看是否有signal项,如果有,看看signal是多少. 比如,这是一个异常退出的情况 ...

  3. Tomcat异常 Multiple Contexts have a path of "/qqshl".解决方法

    Tomcat异常 Multiple Contexts have a path of "/qqshl".解决方法 找到tomcat映射文件Service.xml,将文件中的conte ...

  4. idea_IDEA跑Tomcat异常

    IDEA跑Tomcat异常 具体异常如下 Artifact :war exploded: Server is not connected. Deploy is not avail 根据别人的回答,去掉 ...

  5. MHA监控进程异常退出

    这两天遇到一个非常诡异的问题,打算和大家分享一下.只所以诡异估计是自己知识面不够吧.线上的MHA一直没有开启自动切换,都是手动切换的,最近开启了自动切换以后,退出securecrt窗口以后发现监控进程 ...

  6. Aliyun OSS SDK 异步分块上传导致应用异常退出

    问题描述: 使用Aliyun OSS SDK的BeginUploadPart/EndUploadPart执行异步分块上传操作,程序出现错误并异常退出! 原因分析: Using .NET Framewo ...

  7. android捕获程序异常退出

    今天看到迅雷动漫里面一个CrashHandler 的类,我猜是崩溃处理类.进去一看.果然.顺便学习一下. Android系统的"程序异常退出",给应用的用户体验造成不良影响.为了捕 ...

  8. Android系统的“程序异常退出”[转]

    在应用运行过程中,有很多异常可能会发生,而我们希望在异常发生的时候第一时间的保存现场. 如何处理未捕获的异常呢? 首先我们要实现一个接口  java.lang.Thread.UncaughtExcep ...

  9. 网站开发进阶(八)tomcat异常日志分析及处理

    tomcat异常日志分析及处理 日志信息如下: 2015-10-29 18:39:49 org.apache.coyote.http11.Http11Protocol pause 信息: Pausin ...

随机推荐

  1. Mybatis自动化生成代码

    Mybatis是Java EE中比较主流的一种持久化orm框架,其缺点是不够灵活,需要写的代码较多,包括: 一个sql-map-config.xml 对应每个表的xml文件 对应每个表的实体POJO ...

  2. STL优先级队列

    priority_queue 这是一个优先级队列的所有权值概念单向队列queue.在这个队列中.全部元素是按优先级排列的(也能够觉得queue是个按进入队列的先后做为优先级的优先级队列--先进入队列的 ...

  3. User-Agent 列表

    <useragentswitcher> <folder description="Internet Explorer"> <useragent des ...

  4. [转]完美解决)Tomcat启动提示At least one JAR was scanned for TLDs yet contained no TLDs

    一.文章前言    本文是亲测有效解决At least one JAR was scanned for TLDs yet contained no TLDs问题,绝对不是为了积分随便粘贴复制然后压根都 ...

  5. Command 传参的几种方式

    Command可以根据CommandParameter传参 关键代码 public ICommand SubmitCommand => _submitCommand; private Relay ...

  6. 数据源Source 目标Target

    数据源Source-目标Target 数据源实现INotifyPropertyChanged接口,实现“通知”目标实现依赖属性 举例 后台的数据源,实现INotifyPropertyChanged接口 ...

  7. Window Features 总览

    This overview discusses features of windows such as window types, states, size, and position. Window ...

  8. SQLServer 可更新订阅数据冲突的一个原因

    原文:SQLServer 可更新订阅数据冲突的一个原因 可更新订阅为什么有冲突? 可更新订阅中,当升级增加一个字段时,通常在发布服务器的发布数据库中增加,对表增加字段后,发布自动同步到订阅数据库中(复 ...

  9. 微信小程序把玩(十三)progress组件

    原文:微信小程序把玩(十三)progress组件 进度条描述的是一种加载的状态,比如软件升级下载进度, 视频,图片下载进度- 主要属性: wxml <progress percent=" ...

  10. Excel的Range对象(C#)

    原文:Excel的Range对象(C#) Range 对象是 Excel 应用程序中最经常使用的对象:在操作 Excel 内的任何区域之前,都需要将其表示为一个 Range 对象,然后使用该 Rang ...