Node.js 官方提供了 Cluster 和 Child process 创建子进程，通过 Worker threads 模块创建子线程。但前者无法共享内存，通信必须使用 JSON 格式，有一定的局限性和性能问题。后者更轻量，并且可以共享内存，通过传输 ArrayBuffer 实例或共享 SharedArrayBuffer 实例来做到这一点，即数据格式没有太多要求。但是要注意，数据中不能包含函数。

　　Worker threads 从 Node V12 开始成为正式标准，其对于执行 CPU 密集型的操作很有用，而对 I/O 密集型工作没有多大帮助。 Node.js 内置的异步 I/O 操作要比它效率更高。注意，Worker threads 是基于 Node.js 架构的多工作线程，如下图所示。在每个工作线程中，都会包含 V8 和 libuv，即都包含Event Loop。

一、线程池

　　创建、执行、销毁一个 Worker 的开销是很大的，所以需要实现一个线程池（Worker Pool），在初始化时创建有限数量的 Worker 并加载单一的 worker.js，主线程和 Worker 可进行进程间通信，当所有任务完成后，这些 Worker 将会被统一销毁。

　　在 Worker 中通过 parentPort.postMessage() 向主线程发送消息，而在主线程中可以通过 worker.on('message') 接收发送过来的消息，worker 是一个 Worker 实例，例如 new Worker(filePath)。

　　下面是一个官方示例，isMainThread 可判断当前是否是主线程，workerData 是传递给 Worker 的数据。

const { Worker, isMainThread, parentPort, workerData } = require('worker_threads');

if (isMainThread) {

  module.exports = function parseJSAsync(script) {

    return new Promise((resolve, reject) => {

      const worker = new Worker(__filename, {

        workerData: script

      });

      worker.on('message', resolve);

      worker.on('error', reject);

      worker.on('exit', (code) => {

        if (code !== 0)

          reject(new Error(`Worker stopped with exit code ${code}`));

      });

    });

  };

} else {

  const script = workerData;

  parentPort.postMessage(script);

}

　　下面是一个线程池示例，参考自《worker_threads 初体验》一文，做了微调，具体在此不在赘述，可阅读原文或注释。

// 获取当前设备的 CPU 线程数目，作为 numberOfThreads 的默认值。

const { length: cpusLength } = require('os').cpus();

const { Worker } = require('worker_threads');

class WorkerPool {

  constructor(workerPath, options = {}, numberOfThreads = cpusLength) {

    if (numberOfThreads < 1) {

      throw new Error('Number of threads should be greater or equal than 1!');

    }

    this.workerPath = workerPath;

    this.numberOfThreads = numberOfThreads;

    // 任务队列

    this._queue = [];

    // Worker 索引

    this._workersById = {};

    // Worker 激活状态索引

    this._activeWorkersById = {};

    // 创建 Workers

    for (let i = 0; i < this.numberOfThreads; i++) {

      const worker = new Worker(workerPath, options);

      this._workersById[i] = worker;

      // 将这些 Worker 设置为未激活状态

      this._activeWorkersById[i] = false;

    }

  }

  /**

   * 检查空闲的 Worker

   */

  getInactiveWorkerId() {

    for (let i = 0; i < this.numberOfThreads; i++) {

      if (!this._activeWorkersById[i]) return i;

    }

    return -1;

  }

  /**

   * 调用 Worker 执行，目的是在指定的 Worker 里执行指定的任务

   */

  runWorker(workerId, taskObj) {

    const worker = this._workersById[workerId];

    // 当任务执行完毕后执行

    const doAfterTaskIsFinished = () => {

      // 去除所有的 Listener，不然一次次添加不同的 Listener 会内存溢出（OOM）

      worker.removeAllListeners('message');

      worker.removeAllListeners('error');

      // 将这个 Worker 设为未激活状态

      this._activeWorkersById[workerId] = false;

      if (this._queue.length) {

        // 任务队列非空，使用该 Worker 执行任务队列中第一个任务

        this.runWorker(workerId, this._queue.shift());

      }

    };

    // 将这个 Worker 设置为激活状态

    this._activeWorkersById[workerId] = true;

    // 设置两个回调，用于 Worker 的监听器

    const messageCallback = result => {

      taskObj.cb(null, result);

      doAfterTaskIsFinished();

    };

    const errorCallback = error => {

      taskObj.cb(error);

      doAfterTaskIsFinished();

    };

    // 为 Worker 添加 'message' 和 'error' 两个 Listener

    worker.once('message', messageCallback);

    worker.once('error', errorCallback);

    // 将数据传给 Worker 供其获取和执行

    worker.postMessage(taskObj.data);

  }

  /**

   * 运行线程

   */

  run(data) {

    // Promise 是个好东西

    return new Promise((resolve, reject) => {

      // 调用 getInactiveWorkerId() 获取一个空闲的 Worker

      const availableWorkerId = this.getInactiveWorkerId();

      const taskObj = {

        data,

        cb: (error, result) => {

          // 虽然 Workers 需要使用 Listener 和 Callback，但这不能阻止我们使用 Promise，对吧？

          // 不，你不能 util.promisify(taskObj) 。人不能，至少不应该。

          if (error) reject(error);

          return resolve(result);

        }

      };

      if (availableWorkerId === -1) {

        // 当前没有空闲的 Workers 了，把任务丢进队列里，这样一旦有 Workers 空闲时就会开始执行。

        this._queue.push(taskObj);

        return null;

      }

      // 有一个空闲的 Worker，用它执行任务

      this.runWorker(availableWorkerId, taskObj);

    })

  }

  /**

   * 销毁

   */

   destroy(force = false) {

    for (let i = 0; i < this.numberOfThreads; i++) {

      if (this._activeWorkersById[i] && !force) {

        // 通常情况下，不应该在还有 Worker 在执行的时候就销毁它，这一定是什么地方出了问题，所以还是抛个 Error 比较好

        // 不过保留一个 force 参数，总有人用得到的

        throw new Error(`The worker ${i} is still runing!`);

      }

      // 销毁这个 Worker

      this._workersById[i].terminate();

    }

  }

}

module.exports = WorkerPool;

二、实践

　　之所以需要多线程，是为了解决一个优化需求。就是有一个接口，里面有很多查询数据库（MySQL和MongoDB）的操作，单条语句并不会慢，但累加后整体的响应速度就会变慢，那么就想通过多线程，同时处理一些查询语句，然后整合结果。

　　先对线程池做最简单的处理，创建 worker.js，接收 userId。

const { isMainThread, parentPort } = require('worker_threads');

// 不是主线程时执行

if (!isMainThread) {

  parentPort.on('message', async ({userId }) => {

    console.log('postMessage', userId);

    parentPort.postMessage(userId);

  });

}

　　然后初始化线程池，将数组中的 userId 传递给 Worker，pool.run({ userId: item })。

const WorkerPool = require('./workerPool');

const { join } = require('path');

async function workerMain(services) {

  const workerPath = join(__dirname + '/worker.js');

  // 初始化一个 Worker Pool

  const pool = new WorkerPool(workerPath);

  Promise.all([4,12,13,15].map(async item => {

    await pool.run({ userId: item });

  })).then(json => {

    // 销毁线程池

    pool.destroy();

  });

}

　　输出顺序没有按照数组的顺序，并且每次的输出顺序还都是不同的，由此可知，代码是并发运行的。

postMessage 12

postMessage 4

postMessage 15

postMessage 13

　　那么接下来就引入数据库查询的代码，公司项目基于 sequelize.js 封装了增删改查的逻辑，通过 services 变量可以调用相关的操作。在主线程中，计划将 services 传递到 Worker 中。

async function workerMain(services) {

  // Worker Threads 不能共享实例以及带函数的对象

  const workerPath = join(__dirname + '/worker.js', { workerData: services });

  // 初始化一个 Worker Pool

  const pool = new WorkerPool(workerPath);

  // 省略代码......

}

　　然而报错了，大致是下面这个意思，无法克隆，因为对象中包含函数，就会引发错误。

node:internal/worker:349

ReflectApply(this[kPublicPort].postMessage, this[kPublicPort], args);

could not be cloned.

　　想以通信的方式实现数据库的并发查询，目前看来不能完成。

　　其实可以在 worker.js 中单独引入 services，不过由于我们在脚本文件中采用了 import 语法，因此在执行时会报错，SyntaxError: Cannot use import statement outside a module。

const { isMainThread, parentPort, workerData } = require('worker_threads');

const services = require('../services');

// 不是主线程时执行

if (!isMainThread) {

  // 省略代码......

}

　　还有一种解决方案，其成本就比较高，就是单独再实现一套服务层，也就是说再封装一层符合Node.js 模块化语法的数据库操作集合。

Node.js躬行记（23）——Worker threads的更多相关文章

Node.js躬行记（1）——Buffer、流和EventEmitter
一.Buffer Buffer是一种Node的内置类型,不需要通过require()函数额外引入.它能读取和写入二进制数据,常用于解析网络数据流.文件等. 1)创建通过new关键字初始化Buffer ...
Node.js躬行记（2）——文件系统和网络
一.文件系统 fs模块可与文件系统进行交互,封装了常规的POSIX函数.POSIX(Portable Operating System Interface,可移植操作系统接口)是UNIX系统的一个设计 ...
Node.js躬行记（4）——自建前端监控系统
这套前端监控系统用到的技术栈是:React+MongoDB+Node.js+Koa2.将性能和错误量化.因为自己平时喜欢吃菠萝,所以就取名叫菠萝系统.其实在很早以前就有这个想法,当时已经实现了前端的参 ...
Node.js躬行记（6）——自制短链系统
短链顾名思义是一种很短的地址,应用广泛,例如页面中有一张二维码图片,包含的是一个原始地址(如下所示),如果二维码中的链接需要修改,那么就得发代码替换掉. 原始地址:https://github.com ...
Node.js躬行记（15）——活动规则引擎
在日常的业务开发中,会包含许多的业务规则,一般就是用if-else硬编码的方式实现,这样就会增加逻辑的维护成本,若无注释,可能都无法理解规则意图. 因为一旦规则有所改变,那么就需要修改代码再发布代码, ...
Node.js躬行记（19）——KOA源码分析（上）
本次分析的KOA版本是2.13.1,它非常轻量,诸如路由.模板等功能默认都不提供,需要自己引入相关的中间件. 源码的目录结构比较简单,主要分为3部分,__tests__,lib和docs,从名称中就可 ...
Node.js躬行记（21）——花10分钟入门Node.js
Node.js 不是一门语言,而是一个基于 V8 引擎的运行时环境,下图是一张架构图. 由图可知,Node.js 底层除了 JavaScript 代码之外,还有大量的 C/C++ 代码. 常说 Nod ...
Node.js躬行记（3）——命令行工具
一.自定义创建一个空目录,然后通过npm init命令初始化package.json文件,并按提示输入相关信息或直接回车使用默认信息,生成的内容如下所示. { "name": & ...
Node.js躬行记（13）——MySQL归档
当前我们组管理着一套审核系统,除了数据源是服务端提供的,其余后台管理都是由我们组在维护. 这个系统就是将APP中的各类社交信息送到后台,然后有专门的审核人员来判断信息是否合规,当然在送到后台之前已经让 ...

随机推荐

07 MySQL_SQL数据类型
数据类型整数类型: int(m) 对应java中的int bigint(m) 对应java中的long m代表显示长度,需要结合 zerofill使用 create table t_int(id i ...
Python动态属性有什么用
Python 动态属性的概念可能会被面试问到,在项目当中也非常实用,但是在一般的编程教程中不会提到,可以进修一下. 先看一个简单的例子.创建一个 Student 类,我希望通过实例来获取每个学生的一些 ...
清北学堂 2020 国庆J2考前综合强化 Day6
目录 1. 题目 T1 双色球计数题目描述 Sol 炼金术题目描述 Sol T3 地铁大亨题目描述 Sol T4 结束的派对题目描述 Sol 算法 - 分治 1. 分治 2. 二分 3. 倍增 ...
mysql 存储过程和触发器
存储过程 -- 声明结束符 -- 创建存储过程 DELIMITER $ -- 声明存储过程的结束符 CREATE PROCEDURE pro_test() --存储过程名称(参数列表) BEGIN - ...
物无定味适口者珍，Python3并发场景(CPU密集/IO密集)任务的并发方式的场景抉择(多线程threading/多进程multiprocessing/协程asyncio)
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_221 一般情况下,大家对Python原生的并发/并行工作方式:进程.线程和协程的关系与区别都能讲清楚.甚至具体的对象名称.内置方法 ...
常见SQL及备注
JUC源码学习笔记4——原子类，CAS，Volatile内存屏障，缓存伪共享与UnSafe相关方法
JUC源码学习笔记4--原子类,CAS,Volatile内存屏障,缓存伪共享与UnSafe相关方法 volatile的原理和内存屏障参考<Java并发编程的艺术> 原子类源码基于JDK8 ...
mybatis 02: 添加并简单使用mybatis
三层架构项目开发时,遵循的一种设计模式,分为三层界面层:用来接收客户端输入的数据,调用业务逻辑层进行功能处理,返回结果给客户端过去的servlet就完成了界面层的功能(但是他做的更多) 业务逻辑 ...
Taurus.MVC WebAPI 入门开发教程5：控制器安全校验属性【HttpGet、HttpPost】【Ack】【Token】【MicroService】。
系列目录 1.Taurus.MVC WebAPI 入门开发教程1:框架下载环境配置与运行. 2.Taurus.MVC WebAPI 入门开发教程2:添加控制器输出Hello World. 3.Tau ...
MyBatis-Plus 代码生成
MyBatis-Plus官网的代码生成器配置不是特别全,在此整理了较为完整的配置,供自己和大家查阅学习. // 代码生成器 AutoGenerator mpg = new AutoGenerator( ...

Node.js躬行记（23）——Worker threads

一、线程池

二、实践

Node.js躬行记（23）——Worker threads的更多相关文章

随机推荐

热门专题