在Malwarebytes我们经历了显著的增长，自从我一年前加入了硅谷的公司，一个主要的职责成了设计架构和开发一些系统来支持一个快速增长的信息安全公司和所有需要的设施来支持一个每天百万用户使用的产品。我在反病毒和反恶意软件行业的不同公司工作了12年，从而我知道由于我们每天处理大量的数据，这些系统是多么复杂。

有趣的是，在过去的大约9年间，我参与的所有的web后端的开发通常是通过Ruby on Rails技术实现的。不要错怪我。我喜欢Ruby on Rails，并且我相信它是个令人惊讶的环境。但是一段时间后，你会开始以ruby的方式开始思考和设计系统，你会忘记，如果你可以利用多线程、并行、快速执行和小内存开销，软件架构本来应该是多么高效和简单。很多年期间，我是一个c/c++、Delphi和c#开发者，我刚开始意识到使用正确的工具可以把复杂的事情变得简单些。

作为首席架构师，我不会很关心在互联网上的语言和框架战争。我相信效率、生产力。代码可维护性主要依赖于你如何把解决方案设计得很简单。

问题

当工作在我们的匿名遥测和分析系统中，我们的目标是可以处理来自于百万级别的终端的大量的POST请求。web处理服务可以接收包含了很多payload的集合的JSON数据，这些数据需要写入Amazon S3中。接下来，map-reduce系统可以操作这些数据。

按照习惯，我们会调研服务层级架构，涉及的软件如下：

Sidekiq
Resque
DelayedJob
Elasticbeanstalk Worker Tier
RabbitMQ
and so on…

搭建了2个不同的集群，一个提供web前端，另外一个提供后端处理，这样我们可以横向扩展后端服务的数量。

但是，从刚开始，在讨论阶段我们的团队就知道我们应该使用Go，因为我们看到这会潜在性地成为一个非常庞大（ large traffic）的系统。我已经使用了Go语言大约2年时间，我们开发了几个系统，但是很少会达到这样的负载（amount of load）。

我们开始创建一些结构，定义从POST调用得到的web请求负载，还有一个上传到S3 budket的函数。

type PayloadCollection struct {

    WindowsVersion  string    `json:"version"`

    Token           string    `json:"token"`

    Payloads        []Payload `json:"data"`

}

type Payload struct {

    // [redacted]

}

func (p *Payload) UploadToS3() error {

    // the storageFolder method ensures that there are no name collision in

    // case we get same timestamp in the key name

    storage_path := fmt.Sprintf("%v/%v", p.storageFolder, time.Now().UnixNano())

    bucket := S3Bucket

    b := new(bytes.Buffer)

    encodeErr := json.NewEncoder(b).Encode(payload)

    if encodeErr != nil {

        return encodeErr

    }

    // Everything we post to the S3 bucket should be marked 'private'

    var acl = s3.Private

    var contentType = "application/octet-stream"

    return bucket.PutReader(storage_path, b, int64(b.Len()), contentType, acl, s3.Options{})

}

本地Go routines方法

刚开始，我们采用了一个非常本地化的POST处理实现，仅仅尝试把发到简单go routine的job并行化：

func payloadHandler(w http.ResponseWriter, r *http.Request) {

    if r.Method != "POST" {

        w.WriteHeader(http.StatusMethodNotAllowed)

        return

    }

    // Read the body into a string for json decoding

    var content = &PayloadCollection{}

    err := json.NewDecoder(io.LimitReader(r.Body, MaxLength)).Decode(&content)

    if err != nil {

        w.Header().Set("Content-Type", "application/json; charset=UTF-8")

        w.WriteHeader(http.StatusBadRequest)

        return

    }

    // Go through each payload and queue items individually to be posted to S3

    for _, payload := range content.Payloads {

        go payload.UploadToS3()   // <----- DON'T DO THIS

    }

    w.WriteHeader(http.StatusOK)

}

对于中小负载，这会对大多数的人适用，但是大规模下，这个方案会很快被证明不是很好用。我们期望的请求数，不在我们刚开始计划的数量级，当我们把第一个版本部署到生产环境上。我们完全低估了流量。

上面的方案在很多地方很不好。没有办法控制我们产生的go routine的数量。由于我们收到了每分钟1百万的POST请求，这段代码很快就崩溃了。

再次尝试

我们需要找一个不同的方式。自开始我们就讨论过，我们需要保持请求处理程序的生命周期很短，并且进程在后台产生。当然，这是你在Ruby on Rails的世界里必须要做的事情，否则你会阻塞在所有可用的工作 web处理器上，不管你是使用puma、unicore还是passenger（我们不要讨论JRuby这个话题）。然后我们需要利用常用的处理方案来做这些，比如Resque、 Sidekiq、 SQS等。这个列表会继续保留，因为有很多的方案可以实现这些。

所以，第二次迭代，我们创建了一个缓冲channel，我们可以把job排队，然后把它们上传到S3。因为我们可以控制我们队列中的item最大值，我们有大量的内存来排列job，我们认为只要把job在channel里面缓冲就可以了。

var Queue chan Payload

func init() {

    Queue = make(chan Payload, MAX_QUEUE)

}

func payloadHandler(w http.ResponseWriter, r *http.Request) {

    ...

    // Go through each payload and queue items individually to be posted to S3

    for _, payload := range content.Payloads {

        Queue <- payload

    }

    ...

}

接下来，我们再从队列中取job，然后处理它们。我们使用类似于下面的代码：

func StartProcessor() {

    for {

        select {

        case job := <-Queue:

            job.payload.UploadToS3()  // <-- STILL NOT GOOD

        }

    }

}

说实话，我不知道我们在想什么。这肯定是一个满是Red-Bulls的夜晚。这个方法不会带来什么改善，我们用了一个有缺陷的缓冲队列并发，仅仅是把问题推迟了。我们的同步处理器同时仅仅会上传一个数据到S3，因为来到的请求远远大于单核处理器上传到S3的能力，我们的带缓冲channel很快达到了它的极限，然后阻塞了请求处理逻辑的queue更多item的能力。

我们仅仅避免了问题，同时开始了我们的系统挂掉的倒计时。当部署了这个有缺陷的版本后，我们的延时保持在每分钟以常量增长。

最好的解决方案

我们讨论过在使用用Go channel时利用一种常用的模式，来创建一个二级channel系统，一个来queue job，另外一个来控制使用多少个worker来并发操作JobQueue。

想法是，以一个恒定速率并行上传到S3，既不会导致机器崩溃也不好产生S3的连接错误。这样我们选择了创建一个Job/Worker模式。对于那些熟悉Java、C#等语言的开发者，可以把这种模式想象成利用channel以golang的方式来实现了一个worker线程池，作为一种替代。

var (

    MaxWorker = os.Getenv("MAX_WORKERS")

    MaxQueue  = os.Getenv("MAX_QUEUE")

)

// Job represents the job to be run

type Job struct {

    Payload Payload

}

// A buffered channel that we can send work requests on.

var JobQueue chan Job

// Worker represents the worker that executes the job

type Worker struct {

    WorkerPool  chan chan Job

    JobChannel  chan Job

    quit        chan bool

}

func NewWorker(workerPool chan chan Job) Worker {

    return Worker{

        WorkerPool: workerPool,

        JobChannel: make(chan Job),

        quit:       make(chan bool)}

}

// Start method starts the run loop for the worker, listening for a quit channel in

// case we need to stop it

func (w Worker) Start() {

    go func() {

        for {

            // register the current worker into the worker queue.

            w.WorkerPool <- w.JobChannel

            select {

            case job := <-w.JobChannel:

                // we have received a work request.

                if err := job.Payload.UploadToS3(); err != nil {

                    log.Errorf("Error uploading to S3: %s", err.Error())

                }

            case <-w.quit:

                // we have received a signal to stop

                return

            }

        }

    }()

}

// Stop signals the worker to stop listening for work requests.

func (w Worker) Stop() {

    go func() {

        w.quit <- true

    }()

}

我们已经修改了我们的web请求handler，用payload创建一个Job实例，然后发到JobQueue channel，以便于worker来获取。

func payloadHandler(w http.ResponseWriter, r *http.Request) {

    if r.Method != "POST" {

        w.WriteHeader(http.StatusMethodNotAllowed)

        return

    }

    // Read the body into a string for json decoding

    var content = &PayloadCollection{}

    err := json.NewDecoder(io.LimitReader(r.Body, MaxLength)).Decode(&content)

    if err != nil {

        w.Header().Set("Content-Type", "application/json; charset=UTF-8")

        w.WriteHeader(http.StatusBadRequest)

        return

    }

    // Go through each payload and queue items individually to be posted to S3

    for _, payload := range content.Payloads {

        // let's create a job with the payload

        work := Job{Payload: payload}

        // Push the work onto the queue.

        JobQueue <- work

    }

    w.WriteHeader(http.StatusOK)

}

在web server初始化时，我们创建一个Dispatcher，然后调用Run()函数创建一个worker池子，然后开始监听JobQueue中的job。

dispatcher := NewDispatcher(MaxWorker)

dispatcher.Run()

下面是dispatcher的实现代码：

type Dispatcher struct {

    // A pool of workers channels that are registered with the dispatcher

    WorkerPool chan chan Job

}

func NewDispatcher(maxWorkers int) *Dispatcher {

    pool := make(chan chan Job, maxWorkers)

    return &Dispatcher{WorkerPool: pool}

}

func (d *Dispatcher) Run() {

    // starting n number of workers

    for i := 0; i < d.maxWorkers; i++ {

        worker := NewWorker(d.pool)

        worker.Start()

    }

    go d.dispatch()

}

func (d *Dispatcher) dispatch() {

    for {

        select {

        case job := <-JobQueue:

            // a job request has been received

            go func(job Job) {

                // try to obtain a worker job channel that is available.

                // this will block until a worker is idle

                jobChannel := <-d.WorkerPool

                // dispatch the job to the worker job channel

                jobChannel <- job

            }(job)

        }

    }

}

注意到，我们提供了初始化并加入到池子的worker的最大数量。因为这个工程我们利用了Amazon Elasticbeanstalk带有的docker化的Go环境，所以我们常常会遵守12-factor方法论来配置我们的生成环境中的系统，我们从环境变了读取这些值。这种方式，我们控制worker的数量和JobQueue的大小，所以我们可以很快的改变这些值，而不需要重新部署集群。

var (

    MaxWorker = os.Getenv("MAX_WORKERS")

    MaxQueue  = os.Getenv("MAX_QUEUE")

)

直接结果

我们部署了之后，立马看到了延时降到微乎其微的数值，并未我们处理请求的能力提升很大。

Elastic Load Balancers完全启动后，我们看到ElasticBeanstalk 应用服务于每分钟1百万请求。通常情况下在上午时间有几个小时，流量峰值超过每分钟一百万次。

我们一旦部署了新的代码，服务器的数量从100台大幅下降到大约20台。

我们合理配置了我们的集群和自动均衡配置之后，我们可以把服务器的数量降至4x EC2 c4.Large实例，并且Elastic Auto-Scaling设置为如果CPU达到5分钟的90%利用率，我们就会产生新的实例。

总结

在我的书中，简单总是获胜。我们可以使用多队列、后台worker、复杂的部署设计一个复杂的系统，但是我们决定利用Elasticbeanstalk 的auto-scaling的能力和Go语言开箱即用的特性简化并发。

我们仅仅用了4台机器，这并不是什么新鲜事了。可能它们还不如我的MacBook能力强大，但是却处理了每分钟1百万的写入到S3的请求。

处理问题有正确的工具。当你的 Ruby on Rails 系统需要更强大的web handler时，可以考虑下ruby生态系统之外的技术，或许可以得到更简单但更强大的替代方案。

我们如何用Go来处理每分钟100万复杂请求的场景的更多相关文章

zt:如何快速赚取人生第一个100万？
投递人 itwriter 发布于 2016-06-20 23:43 评论(16) 有1795人阅读原文链接 [收藏] « » 不久前我开始使用「分答」,将回答问题的价格设置成 10 元.花最长 1 ...
SQLServer如何快速生成100万条不重复的随机8位数字
最近在论坛看到有人问,如何快速生成100万不重复的8位编号,对于这个问题,有几点是需要注意的: 1．如何生成8位随机数,生成的数越随机,重复的可能性当然越小 2．控制不重复 3． ...
涨姿势：创业做一个App需要花多少钱（8个人，6个月，就要100万，附笔记心得）
(原标题:涨姿势:创业做一个App要花多少钱?) 作为互联网从业者,被外行的朋友们问及最多的问题是,“做一个网站需要多少钱?”或者“做一个APP需要多少钱?”. 作为做过完整网站项目和APP的人,今天 ...
SQL 从100万条记录中的到成绩最高的记录
从100万条记录中的到成绩最高的记录问题分析:要从一张表中找到成绩最高的记录并不难,有很多种办法,最简单的就是利用TOP 1 select top 1 * from student order b ...
个性化品牌开始繁荣？为设计师和代工厂牵线的平台Maker's Row获得100万美元融资 | 36氪
个性化品牌开始繁荣?为设计师和代工厂牵线的平台Maker's Row获得100万美元融资 | 36氪个性化品牌开始繁荣?为设计师和代工厂牵线的平台Maker's Row获得100万美元融资
时尚B2B方兴未艾－Maker’s Row 获100万美元种子投资 |华丽志
时尚B2B方兴未艾-Maker's Row 获100万美元种子投资 |华丽志华丽志 » 网internet, 时尚B2B方兴未艾-Maker's Row 获100万美元种子投资由 luxeco 发 ...
Stackful 协程库 libgo（单机100万协程）
libgo 是一个使用 C++ 编写的协作式调度的stackful协程库, 同时也是一个强大的并行编程库. 设计之初是为高并发分布式Linux服务端程序开发提供底层框架支持,可以让链接进程序的同步的第 ...
极限挑战—C#+ODP 100万条数据导入Oracle数据库仅用不到1秒
链接地址:http://www.cnblogs.com/armyfai/p/4646213.html 要:在这里我们将看到的是C#中利用ODP实现在Oracle数据库中瞬间导入百万级数据,这对快速批量 ...
极限挑战—C#100万条数据导入SQL SERVER数据库仅用4秒 (附源码)
原文:极限挑战-C#100万条数据导入SQL SERVER数据库仅用4秒 (附源码) 实际工作中有时候需要把大量数据导入数据库,然后用于各种程序计算,本实验将使用5中方法完成这个过程,并详细记录各种方 ...

随机推荐

Oracle行列转换case when then方法案例
select (select name from t_area where id=areaid) 区域, end) 一月, end) 二月, end) 三月, end) 四月, end) 五月, en ...
CentOS7安装k8s
借鉴博客:https://www.cnblogs.com/xkops/p/6169034.html 此博客里面有每个k8s配置文件的注释:https://blog.csdn.net/qq_359048 ...
day 7-18 mysql case when语句
概述: sql语句中的case语句与高级语言中的switch语句,是标准sql的语法,适用于一个条件判断有多种值的情况下分别执行不同的操作. 首先,让我们看一下CASE的语法.在一般的SELECT中, ...
MyBaits全局配置文件的各项标签2
▲typeHandlers 类型处理器,它架起数据库和JavaBean一一映射的桥梁,这里需要注意一下,java在JDK1.8之前,日期处理函数并不丰富,但在JDK1.8之后引入JSR-310标准,这 ...
Gevent 性能和 gevent.loop 的运用和带来的思考
知乎自己在底层造了非常多的轮子,而且也在服务器部署方面和数据获取方面广泛使用 gevent 来提高并发获取数据的能力.现在开始我将结合实际使用与测试慢慢完善自己对 gevent 更全面的使用和扫盲. ...
Django 2.11 静态页面404 解决
在settings中配置 STATIC_URL = '/static/' STATICFILES_DIRS = ( os.path.join(BASE_DIR,"static"), ...
ASP.NET4.0所有网页指令
ASP.NET网页指令(Page Directive)就是在网页开头的标签声明: <% Page Language="C#" %> 而指令的作用在于指定网页和用户控件编 ...
centos7优化启动项，关闭一些不必要开启的服务
CentOS7已不再使用chkconfig 管理启动项使用 systemctl list-unit-files 可以查看启动项 systemctl list-unit-files | grep en ...
定位linux jdk安装路径
如何在一台Linux服务器上查找JDK的安装路径呢? 有那些方法可以查找定位JDK的安装路径?是否有一些局限性呢? 下面总结了一下如何查找JDK安装路径的方法. 1:echo $JAVA_HOME 使 ...
endnote中文格式“，等”的修改
https://www.howsci.com/endnote-eng-cn-refer-etal.html

我们如何用Go来处理每分钟100万复杂请求的场景

问题