Node.js 进程平滑离场剖析
本文由云+社区发表
作者:草小灰
使用 Node.js 搭建 HTTP Server 已是司空见惯的事。在生产环境中,Node 进程平滑重启直接关系到服务的可靠性,它的重要性不容我们忽视。既然是平滑重启,就涉及到新旧进程的接替过渡:
- 首先,保证新进程平滑入场
- 其次,保证旧进程平滑离场
本文主要谈论下,在新旧进程接替过渡期间,如何保证旧进程平滑离场。那怎样的离场才算平滑的呢?
如何定义平滑离场
以进程离场作为时间分割点,我们可以把请求分为两类:增量请求
和存量请求
。
- 在进程离场前,停止接收新的(
增量
)请求 - 在进程离场前,保证未完成的(
存量
)请求正常响应
所以,达成以上两个目标,基本上我们就认为进程的离场是平滑的。在谈如何做到进程平滑离场前,我们需要一种机制,这种机制能让我们主动通知进程何时离场,这就涉及到进程间通信(IPC)的知识了,我们先简单了解下。
进程间通信
对 Unix 或类 Unix 系统而言,进程间通信的方式有很多种 —— 信号(Signal)是其中的一种。
信号的种类有很多,如 SIGINT
、 SIGTERM
及 SIGKILL
等。这些信号视具体需要用于不同的场景,比如 SIGKILL
一般用于强杀进程。
我们可以在命令行执行 kill -l
查看所有的信号,如下所示(其中的数字表示 signal number
):
$ kill -l
1) SIGHUP 2) SIGINT 3) SIGQUIT 4) SIGILL
5) SIGTRAP 6) SIGABRT 7) SIGEMT 8) SIGFPE
9) SIGKILL 10) SIGBUS 11) SIGSEGV 12) SIGSYS
13) SIGPIPE 14) SIGALRM 15) SIGTERM 16) SIGURG
17) SIGSTOP 18) SIGTSTP 19) SIGCONT 20) SIGCHLD
21) SIGTTIN 22) SIGTTOU 23) SIGIO 24) SIGXCPU
25) SIGXFSZ 26) SIGVTALRM 27) SIGPROF 28) SIGWINCH
29) SIGINFO 30) SIGUSR1 31) SIGUSR2
我们可以使用 kill
命令向进程发送指定信号:
# 发送 SIGTERM 信号(默认,无须指定信号类型)给进程
$ kill <pid>
# 发送 SIGINT 信号给进程,其中 <pid> 为具体的进程 ID
$ kill -INT <pid>
# 发送 SIGKILL 信号给进程
$ kill -KILL <pid>
# 或者
$ kill -9 <pid>
进程可以对接收到的信号作出回应。对 Node 应用而言,信号是被当作事件发送给 Node 进程的,进程接收到 SIGTERM
及 SIGINT
事件有默认回调,官方文档是这么描述的:
'SIGTERM' and 'SIGINT' have default handlers on non-Windows platforms that reset the terminal mode before exiting with code 128 + signal number. If one of these signals has a listener installed, its default behavior will be removed (Node.js will no longer exit).
这句话写的很抽象,它是什么意思呢?我们以一个简单的 Node 应用为例。
新建文件,键入如下代码,将其保存为 server.js
:
const http = require('http');
const server = http.createServer((req, res) => {
setTimeout(() => {
res.writeHead(200, { 'Content-Type': 'text/plain' });
res.end('It works');
}, 5000);
});
server.listen(9420);
这里为了方便测试,对应用接收到的每个 http 请求,等待 5 秒后再进行响应。
执行 node server.js
启动应用。为了给应用发送信号,我们需要获取应用的进程 ID,我们可以使用 lsof
命令查看:
$ lsof -i TCP:9420
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
node 70826 myunlessor 13u IPv6 0xd250033eef8912eb 0t0 TCP *:9420 (LISTEN)
事实上,我们也可以在代码里通过
console.log(process.pid)
获取进程 ID。这里只是顺便介绍一种,在知道监听 TCP 端口的情况获取进程的方式。
随后,我们发起一个请求,在收到响应之前(有 5 秒等待时间),我们给应用发送 SIGINT
信号。
$ curl http://localhost:9420 &
$ kill -INT 70826
curl: (52) Empty reply from server
[1]+ Exit 52 curl http://localhost:9420
可以看到,请求没能正常收到响应。也就是说,默认情况下,Node 应用在接收到 SIGINT
信号时,会马上把进程杀死,无视进程还没处理完成的请求。所幸的是,我们可以手动监听进程的 SIGINT
事件,像这样:
process.on('SIGINT', () => {
// do something here
});
如果我们在事件回调里什么都不做,就意味着忽略该信号,进程该干嘛干嘛,像什么事情都没发生一样。
那么,如果我手动监听 SIGKILL
会如何呢?对不起,SIGKILL
是不能被监听的,官方文档如是说:
'SIGKILL' cannot have a listener installed, it will unconditionally terminate Node.js on all platforms.
这是合情合理的,要知道 SIGKILL
是用于强杀进程的,你无法干预它的行为。
回到上面的问题,我们可以近似地理解为 Node 应用响应 SIGINT
事件的默认回调是这样子的:
process.on('SIGINT', () => {
process.exit(128 + 2/* signal number */);
});
我们可以打印 exit code
来验证:
$ node server.js
$ echo $?
130
有了信号,我们就能主动通知进程何时离场了,下面谈一谈进程如何平滑离场。
如何让进程平滑离场
我们在上面示例基础上,也就是在文件 server.js
中,补充如下代码:
process.on('SIGINT', () => {
server.close(err => {
process.exit(err ? 1 : 0);
});
});
这段代码很简单,我们改写应用接收到 SIGINT
事件的默认行为,不再简单粗暴直接杀死进程,而是在 server.close
方法回调中再调用 process.exit
方法,接着继续试验一下。
$ lsof -i TCP:9420
COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME
node 75842 myunlessor 13u IPv6 0xd250033ec7c9362b 0t0 TCP *:9420 (LISTEN)
$ curl http://localhost:9420 &
[1] 75878
$ kill -2 75842
$ It works
[1]+ Done curl http://localhost:9420
可以看到,应用在退出前(即进程离场前),成功地响应了存量
请求。
我们还可以验证,进程离场前,确实不再接收增量
请求:
$ curl http://127.0.0.1:9420
curl: (7) Failed to connect to 127.0.0.1 port 9420: Connection refused
这正是 server.close
所做的事,进程平滑离场就是这么简单,官方文档是这么描述这个 API 的:
Stops the server from accepting new connections and keeps existing connections. This function is asynchronous, the server is finally closed when all connections are ended and the server emits a 'close' event. The optional callback will be called once the 'close' event occurs. Unlike that event, it will be called with an Error as its only argument if the server was not open when it was closed.
结束语
进程平滑离场只是 Node 进程平滑重启的一部分。生产环境中,新旧进程的接替涉及进程负载均衡、进程生命周期管理等方方面面的考虑。专业的工具做专业的事,PM2 就是 Node 进程管理很好的选择。
此文已由腾讯云+社区在各渠道发布
获取更多新鲜技术干货,可以关注我们腾讯云技术社区-云加社区官方号及知乎机构号
Node.js 进程平滑离场剖析的更多相关文章
- 避免uncaughtException错误引起node.js进程崩溃
uncaughtException 未捕获的异常, 当node.js 遇到这个错误,整个进程直接崩溃. 或许这俩个人上辈子一定是一对冤家. 或许这俩个人经历了前世500次的回眸才换来了今生的相遇,只可 ...
- Node.js进程管理之子进程
一.理论 之前看多进程这一章节时发现这块东西挺多,写Process模块的时候也有提到,今天下午午休醒来静下心来好好的看了一遍,发现也不是太难理解. Node.js是单线程的,对于现在普遍是多处理器的机 ...
- Node.js进程管理之Process模块
在前面Node.js事件运行机制也有提到,Node.js应用在单个线程运行,但是现在大部分服务器都是多处理器,为了方便使用多个进程,Node.js提供了3个模块.Process模块提供了访问正在运行的 ...
- 深入理解 Node.js 进程与线程
原文链接: https://mp.weixin.qq.com/s?__biz=MzAxODE2MjM1MA==&mid=2651557398&idx=1&sn=1fb991da ...
- 拿什么守护你的Node.JS进程: Node出错崩溃了怎么办? foreverjs, 文摘随笔
守护进程 方案一 npm install forever https://github.com/foreverjs/forever 方案二 npm install -g supervisor http ...
- Process Node.js 进程
Process 进程 process.argv 是命令行参数数组,第一个元素是node,第二个元素是脚本文件名,从第三个元素开始每个元素是一个运行参数. process.stdout 标准输出流 co ...
- Node.js 进程
process 是全局对象,能够在任意位置访问,是 EventEmitter 的实例. 退出状态码 当没有新的异步的操作等待处理时,Node 正常情况下退出时会返回状态码 0 .下面的状态码表示其他状 ...
- 拿什么守护你的Node.JS进程: Node出错崩溃了怎么办?
被吐嘈的NodeJS的异常处理 许多人都有这样一种映像,NodeJS比较快: 但是因为其是单线程,所以它不稳定,有点不安全,不适合处理复杂业务: 它比较适合对并发要求比较高,而且简单的业务场景. 在E ...
- Node.js进程管理之进程集群
一.cluster模块 Node.js是单线程处理,对于高并发的请求怎么样能增加吞吐量呢?为了提高服务器的利用率,能不能多核的来处理呢?于是就有了cluster模块. cluster模块可以轻松实现运 ...
随机推荐
- mysql错误:The MySQL server is running with the --skip-grant-tables option so it cannot execute this statement解决方法
本文为大家讲解的是mysql错误:The MySQL server is running with the --skip-grant-tables option so it cannot execut ...
- mac上安装iterm2的一些步骤记录
1.首先到item官网上下载item 下载地址 http://iterm2.com/ 2.把iitem2设置为默认终端: 3.设置快速打开关闭的hotkey 我们这里设置为command + T键 ...
- java.lang.ClassCastException: net.sf.json.JSONNull cannot be cast to net.sf.json.JSONObject的解决方法
报错情况已经说明了,在百度查了好几个解决方法,这里总结一下: 首先:加一个判断是否为空,再做操作 // 得到json串 String jsonString = UtilPOSTGET.UPost(FO ...
- Redis_MISCONF Redis is configured to save RDB snapshots, but is currently not able to persist on disk问题解决
原因:可参考https://www.linuxidc.com/Linux/2012-07/66079.htm 解决方案一: 修改redis.conf中 stop-writes-on-bgsave-er ...
- Round A - Kick Start 2019
a.链接:https://codingcompetitions.withgoogle.com/kickstart/round/0000000000050e01/00000000000698d6 题意: ...
- IDEA环境下SSM整合------注解开发
根据前一篇文章的步骤,目前项目进度应该是:核心过滤器配置完成.DispatcherServlet和ContextLoader配置完成.数据库dataSource配置完成.视图解析器配置完成.Mappe ...
- Trie树(字典树)的介绍及Java实现
简介 Trie树,又称为前缀树或字典树,是一种有序树,用于保存关联数组,其中的键通常是字符串.与二叉查找树不同,键不是直接保存在节点中,而是由节点在树中的位置决定.一个节点的所有子孙都有相同的前缀,也 ...
- 【计算机篇】目前最好用的 PPT 神器 — iSlide! 一键完成 PPT 设计!
谈到工作中的难题,PPT 这个不起眼的软件,绝对算一个.不同于 Word.Excel,PPT 既要传递信息,还要讲求设计.这很容易使大部分人感觉素材不够,设计不专业或者效率不高.以往为了解决 PPT ...
- 一个月薪两万的Web安全工程师要掌握哪些技能?
作为一个薪水两万起步的工作,我想知道这些牛人们都会哪些技能呢? Web安全相关概念.熟悉渗透相关工具.渗透实战操作.关注安全圈动态.熟悉Windows/Kali Linux.服务器安全配置.脚本编程学 ...
- 推荐几个牛逼的 IDEA 插件,还带动图!
阅读本文大概需要 2.3 分钟. 作者:纪莫, cnblogs.com/jimoer 这里只是推荐一下好用的插件,具体的使用方法不一一详细介绍. JRebel for IntelliJ 一款热部署插件 ...