目前大部分Web服务器,如Apache,都使用多线程的方式响应多用户请求,即一个线程服务一个用户请求。这种模式其中一个好处是,当某个请求的线程上抛出的异常没被捕获,只会影响当前这个线程,不会影响其他请求。

由于Node执行在单线程上,一旦线程上抛的异常没有被捕获,就会引起整个进程的崩溃。所以对Node服务的异常处理、保证进程的稳定性非常重要。

再好的程序员也不敢保证自己的代码不出现异常,除了尽可能捕获可能出现的异常,我们还需要通过一些规范减少异常发生,通过单元测试辅助我们验证代码,通过一些工具保证服务的稳定性。下面我从这几个方面探讨如何保证Node的稳定性。

一 异常捕获

提升稳定性最直接的方式就是尽可能的捕捉异常,Node提供3种方式。

1.1 try/catch

在大多数语言中,try/catch是捕获异常的好手,能确保我们的代码不进入不可控流程。但是由于Node回调/异步的特性,我们无法通过try/catch来捕捉所有的异常,看下面的示例:

1
try {
process.nextTick(function () {
throw new Error("error");
});
} catch (err) {
//can not catch it
console.log(err);
} try {
setTimeout(function(){
throw new Error("error");
},1)
} catch (err) {
//can not catch it
console.log(err);
}

上面的代码没有像预期的那样帮我们捕获异常,后果就是这个未被捕获的异常导致整个Node进程crash,所以Node中try/catch的方式不是那么管用。
如果有一种方法能帮我们全局捕获异常,Node服务就不会轻易挂掉了。Node确实提供了这种方式,不过却不能完全满足我们的需求。

1.2 uncaughtException

当一个异常未被捕获,冒泡回归到事件循环中就会触发uncaughtException事件。

1
process.on('uncaughtException', function(err) {
console.error('Error caught in uncaughtException event:', err);
}); try {
setTimeout(function(){
throw new Error("error");
},1)
} catch (err) {
//can not catch it
console.log(err);
}

只要给uncaughtException配置了回调,Node进程不会异常退出,但异常发生的上下文已经丢失,我们无法给出友好的返回,比如告诉用户哪里出问题了。而且由于uncaughtException事件发生后,会丢失当前环境的堆栈,可能导致Node不能正常进行内存回收,从而导致内存泄露。所以,uncaughtException的正确使用姿势是,当uncaughtException触发,记录error日志,然后结束Node进程,我们通过日志监控,报警及时解决异常。

1
process.on('uncaughtException', function(err) {
// 记录日志
logger(err);
// 结束进程
process.exit(1);
});

1.3 domain

为了弥补try/catch和uncaughtException的不足,在node v0.8+版本的时候,发布了一个模块domain,这个模块能捕捉异步回调中出现的异常。
看下面的示例:

1
var d = domain.create(); process.on('uncaughtException', function(err) {
console.error(err);
}); d.on('error', function(err) {
console.error('Error caught by domain:', err);
}); d.run(function() {
process.nextTick(function() {
throw new Error("test domain");
});
});

运行代码我们会发现,异常会被domain捕获到,uncaughtException不会被触发。虽然我们对domain模块寄予厚望,不过目前domain模块的评级为“Unstable”,因为存在不少性能以及稳定性问题。
关于domain的详细介绍,可以看看以下几篇文章:

二 阻止异常发生

我们当然无法阻止异常的发生,这里说的阻止异常发生,是希望大家能养成良好的编码习惯,严谨的思维逻辑,来尽可能减少代码抛出未捕获异常。

2.1 良好的异常处理习惯

  • 异步API编写规范:由于异步调用中回调函数里的异常无法被外部捕获,所以我们将API内部发生的异常作为第一个参数传递给回调函数,包括NodeJS官方的API是遵循这个规范的。
1
fs.readFile('/t.txt', function (err, data) {
if (err) throw err;
console.log(data);
}); // 不推荐的做法
function fun(options,callback){
if(!options{
throw new Error("..")
}
} // 推荐的做法
function fun(options,callback){
if(!options){
callback(err,null)
}
}
  • 严格校验用户的输入
1
function doSth(cb){
if(typeof cb === 'function'){
cb();
}
}
  • 使用try/catch处理可能出现异常的代码
1
var obj;
try{
obj = JSON.parse('')
}catch(e){
obj = {};
}
  • 不要直接在controller中抛异常,应该用500等状态更友好的返回错误
1
// 不推荐的做法
app.get('/item.html', function (req, res, next) {
if(!query["id"]){
throw new Error('no item id');
}
}); // 推荐的做法
app.get('/item.html', function (req, res, next) {
if(!query["id"]){
next();
}
});

2.2 单元测试

单元测试的重要性想必所有人都清楚,JS代码跑在浏览器端的时候我们未必会做,因为异常通常只会影响部分人使用的部分功能,不足以引起很多人的重视。JS代码跑在服务端情况完全不一样了,一旦出现异常,影响的是所有的用户,所以单元测试就显得非常重要。

至于如何在NodeJS中写单元测试,可以看看两位大神的分享:

2.3 记录日志

还是那句说,谁也不敢保证自己的代码不出现异常,因为有运行环境,网络环境等各种不稳定因素,所以建立健全的排查和跟踪机制就显得很重要,而日志就是实现这种机制的关键。
阿里线上环境已经有完善的日志监控体现,我们要做的就是去学会如何使用他。

ali-logger:http://search.npm.taobao.net/package/ali-logger

三 多进程架构

3.1 cluster

cluster模块用于创建共享端口的多进程模式,这种模式使多个进程间共享一个监听状态的socket,并由系统将accept的connection分配给不同的子进程。
文档上有一个简单的示例:

1
var cluster = require('cluster');
var http = require('http');
var numCPUs = require('os').cpus().length; if (cluster.isMaster) {
// Fork workers.
for (var i = 0; i 利用cluster,我们可以根据CPU的数量创建多个worker进程,用户的请求会被分配到不同的进程上,如果某个进程出现异常,可以直接将这个进程crash掉,而不会影响其他进程。
关于cluster实现原理的介绍文章非常多,想深入了解的可以自行搜索一下。

3.1.1 graceful + recluster

数据产品中使用graceful + recluster两个模块实现多进程和服务器稳定性的工作,分享一下使用方法:
  • graceful : 当uncaughtException触发后,延迟一段时间退出进程
  • recluster : 实现多进程,并且当有进程退出实现自动重启。
app.js
1
var app = require('../app');
var graceful = require('graceful'); var server = app.listen(app.get('port'), function() {
debug('Express server listening on port ' + server.address().port);
}); graceful({
server: server,
killTimeout: 30000,
error:function(e){
logger.error(e);
}
});

server.js

var recluster = require('recluster'),
path = require('path'); var cluster = recluster(path.join(__dirname, 'app.js'));
cluster.run(); process.on('SIGUSR2', function() {
console.log('Got SIGUSR2, reloading cluster...');
cluster.reload();
}); console.log("spawned cluster, kill -s SIGUSR2", process.pid, "to reload");

开发环境,直接通过app启动:

$ node server.js

生产环境, 启动多个 worker:


$ node server.js

3.1.2 pm2

如果你觉得graceful + recluster的方式太复杂,那么pm2肯定是你最理想的选择。
pm2非常强大,生产环境使用pm2启动你的Node服务是个不错的选择,他能自动利用你的多核cup,完善的监控,日志记录等等..

pm2使用非常简单:


$ npm install pm2@latest -g

$ pm2 start app.js

$ pm2 list

如果你想更多的了解pm2,可以直接看pm2的文档:https://github.com/Unitech/pm2

不过正是由于pm2功能太过强大,我们没有选择pm2,因为他太复杂了,感觉还没有能力驾驭他,特别是万一出现问题,我们还不知道如何解决。也许我们的顾虑是多余的,不过需要一点时间去了解他。

小结

刚开始学习Node的使用,对Node确实有点小担心,因为使用别的语言做Web服务,根本不用担心因为一个错误导致整个服务crash的问题。
随着对Node的了解,我掌握了一些技巧,也打消了一些顾虑。
不过毕竟Node应用经验有限,所以欢迎大家一起探讨,积累更多宝贵的经验。

Node稳定性的研究心得的更多相关文章

  1. Python字符串的encode与decode研究心得——解决乱码问题

    转~Python字符串的encode与decode研究心得——解决乱码问题 为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“/xe4/xb8/xad/xe6/x96/x8 ...

  2. WordPress研究心得

    WordPress,当初之所以研究这个,目的是在于开发一个多租户系统应用.总的来说,WordPress给了我不少启发和影响.为此,我决定这个研究心得分享出去. 总的来说,这篇文章参考了很多朋友们的博客 ...

  3. Python字符串的encode与decode研究心得乱码问题解决方法

    为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式? 为什么会报错“UnicodeEncodeError: 'asc ...

  4. Python字符串的encode与decode研究心得 乱码问题解决方法

    以下摘自:http://www.jb51.net/article/17560.htm 为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“\xe4\xb8\xad\xe6\x ...

  5. Javascript面向对象研究心得

    这段时间正好公司项目须要,须要改动fullcalendar日历插件,有机会深入插件源代码.正好利用这个机会,我也大致学习了下面JS的面向对象编程,感觉收获还是比較多的. 所以写了以下这篇文章希望跟大家 ...

  6. node websocket学习研究

    websocket作为不同于http的数据传输方式,是开发一些实时系统的不二选择. 最近在研究开发websocket方面的小程序.小程序客户端直接对websocket做了封装.自己只要写后端就可以了. ...

  7. pdf 转图片,提取图片研究心得

    1.pdf 中的数据是有多种编码的,详情请看:http://www.cnblogs.com/zendu/p/7644465.html 2.我的工作场景比较特殊,pdf中全部是图片,所以pdf转图片就有 ...

  8. 【SaltStack】SaltStack研究心得

    基础篇 ------------------------------------------------------------------------------------------------ ...

  9. Flume研究心得

    最近两天,仔细的看了一下Flume中央日志系统(版本号:1.3.X),Flume在本人看来,还是一个非常不错的日志收集系统的,其设计理念非常易用,简洁.并且是一个开源项目,基于Java语言开发,可以进 ...

随机推荐

  1. layui之初始化加分页重复请求问题解决

    layui框架中的page困扰我很久,一个页面初始化后并且分页,导致初始化渲染请求一次,分页再请求了一次,一个接口就重复请求了2次,通过不停的分析和测试,最终解决了这个问题. 基于JQ的ajax二次封 ...

  2. VS远程调试与附加调试

    使用场景 假如你要开发的程序需要运行在独特的硬件上,比如:服务器,然而这个"独特的硬件"却不能给你装VS,这时候远程调试就登场了. 测试工具/环境一览 Key Value VS版本 ...

  3. 通过 SSH 转发TCP连接数据

    设定 首先双方的/etc/ssh/sshd_config设定以下四项: AllowAgentForwarding yes AllowTcpForwarding yes GatewayPorts yes ...

  4. python多进程与服务器并发

    进程 什么是进程 进程:正在进行的一个过程或者说一个任务.而负责执行任务则是cpu. 进程与程序的区别 程序仅仅只是一堆代码而已,而进程指的是程序的运行过程. 并发与并行 无论是并行还是并发,在用户看 ...

  5. DQL完整语法及示例

    DQL:Data Query Language,数据查询语言,其实它也是DML(数据库操作语言的一种),下面看一看完整的语法: 注意,关键字建议大写,不带[ ]是必需的,带[ ]是可选的. SELEC ...

  6. cocos源码分析--ClippingNode绘图原理

    在OpenGL 绘制过程中,与帧缓冲有关的是模版,深度测试,混合操作.模版测试使应用程序可以定义一个遮罩,在遮罩内的片段将被保留或者丢弃,在遮罩外的片段操作行为则相反.深度测试用来剔除那些被场景遮挡的 ...

  7. 小朋友学C语言(1):Hello World

    首先,需要一款C语言的编译器,可以使用在线编译器,也可以在本地安装编译器,比如Mac电脑可以安装Xcode,PC可以安装Dev C++. 若是第一次编写程序,建议使用在线编译器,推荐 菜鸟编译器 编写 ...

  8. Solr查询参数sort(排序)

    摘要: Solr查询每一次返回的数据都有一定的顺序,特定顺序的结果对于业务来说可能非常重要. 不指定排序 一般我们不指定排序规则,这样的结果能满足大部分需求,默认是用文档的得分作为排序标准.相当于加上 ...

  9. python之type

    >>> isinstance(object,type) True >>> isinstance(list,type) True >>> isins ...

  10. centos6 安装 docker 问题

    参考:https://www.cnblogs.com/cs294639693/p/10164258.html 第一步:删除  参考:https://www.cnblogs.com/liuyanshen ...