Linux网络编程“惊群”问题总结

1、前言

　　我从事Linux系统下网络开发将近4年了，经常还是遇到一些问题，只是知其然而不知其所以然，有时候和其他人交流，搞得非常尴尬。如今计算机都是多核了，网络编程框架也逐步丰富多了，我所知道的有多进程、多线程、异步事件驱动常用的三种模型。最经典的模型就是Nginx中所用的Master-Worker多进程异步驱动模型。今天和大家一起讨论一下网络开发中遇到的“惊群”现象。之前只是听说过这个现象，网上查资料也了解了基本概念，在实际的工作中还真没有遇到过。今天周末，结合自己的理解和网上的资料，彻底将“惊群”弄明白。需要弄清楚如下几个问题：

（1）什么是“惊群”，会产生什么问题？

（2）“惊群”的现象怎么用代码模拟出来？

（3）如何处理“惊群”问题，处理“惊群”后的现象又是怎么样呢？

2、何为惊群

　　如今网络编程中经常用到多进程或多线程模型，大概的思路是父进程创建socket，bind、listen后，通过fork创建多个子进程，每个子进程继承了父进程的socket，调用accpet开始监听等待网络连接。这个时候有多个进程同时等待网络的连接事件，当这个事件发生时，这些进程被同时唤醒，就是“惊群”。这样会导致什么问题呢？我们知道进程被唤醒，需要进行内核重新调度，这样每个进程同时去响应这一个事件，而最终只有一个进程能处理事件成功，其他的进程在处理该事件失败后重新休眠或其他。网络模型如下图所示：

简而言之，惊群现象（thundering herd）就是当多个进程和线程在同时阻塞等待同一个事件时，如果这个事件发生，会唤醒所有的进程，但最终只可能有一个进程/线程对该事件进行处理，其他进程/线程会在失败后重新休眠，这种性能浪费就是惊群。

3、编码模拟“惊群”现象

　　我们已经知道了“惊群”是怎么回事，那么就按照上面的图编码实现看一下效果。我尝试使用多进程模型，创建一个父进程绑定一个端口监听socket，然后fork出多个子进程，子进程们开始循环处理（比如accept）这个socket。测试代码如下所示：

 #include <stdio.h>

 #include <unistd.h>

 #include <sys/types.h>

 #include <sys/socket.h>

 #include <netinet/in.h>

 #include <arpa/inet.h>

 #include <assert.h>

 #include <sys/wait.h>

 #include <string.h>

 #include <errno.h>

 #define IP   "127.0.0.1"

 #define PORT  8888

 #define WORKER 4

 int worker(int listenfd, int i)

 {

     while () {

         printf("I am worker %d, begin to accept connection.\n", i);

         struct sockaddr_in client_addr;

         socklen_t client_addrlen = sizeof( client_addr );

         int connfd = accept( listenfd, ( struct sockaddr* )&client_addr, &client_addrlen );

         if (connfd != -) {

             printf("worker %d accept a connection success.\t", i);

             printf("ip :%s\t",inet_ntoa(client_addr.sin_addr));

             printf("port: %d \n",client_addr.sin_port);

         } else {

             printf("worker %d accept a connection failed,error:%s", i, strerror(errno));
　　　　　　　　 close(connfd);

         }

     }

     return ;

 }

 int main()

 {

     int i = ;

     struct sockaddr_in address;

     bzero(&address, sizeof(address));

     address.sin_family = AF_INET;

     inet_pton( AF_INET, IP, &address.sin_addr);

     address.sin_port = htons(PORT);

     int listenfd = socket(PF_INET, SOCK_STREAM, );

     assert(listenfd >= );  

     int ret = bind(listenfd, (struct sockaddr*)&address, sizeof(address));

     assert(ret != -);  

     ret = listen(listenfd, );

     assert(ret != -);  

     for (i = ; i < WORKER; i++) {

         printf("Create worker %d\n", i+);

         pid_t pid = fork();

         /*child  process */

         if (pid == ) {

             worker(listenfd, i);

         }

         if (pid < ) {

             printf("fork error");

         }

     }

     /*wait child process*/

     int status;

     wait(&status);

     return ;

 }

编译执行，在本机上使用telnet 127.0.0.1 8888测试，结果如下所示：

按照“惊群"现象，期望结果应该是4个子进程都会accpet到请求，其中只有一个成功，另外三个失败的情况。而实际的结果显示，父进程开始创建4个子进程，每个子进程开始等待accept连接。当telnet连接来的时候，只有worker2 子进程accpet到请求，而其他的三个进程并没有接收到请求。

这是什么原因呢？难道惊群现象是假的吗？于是赶紧google查一下，惊群到底是怎么出现的。

其实在Linux2.6版本以后，内核内核已经解决了accept()函数的“惊群”问题，大概的处理方式就是，当内核接收到一个客户连接后，只会唤醒等待队列上的第一个进程或线程。所以，如果服务器采用accept阻塞调用方式，在最新的Linux系统上，已经没有“惊群”的问题了。

但是，对于实际工程中常见的服务器程序，大都使用select、poll或epoll机制，此时，服务器不是阻塞在accept，而是阻塞在select、poll或epoll_wait，这种情况下的“惊群”仍然需要考虑。接下来以epoll为例分析：

使用epoll非阻塞实现代码如下所示：

 #include <sys/types.h>

 #include <sys/socket.h>

 #include <sys/epoll.h>

 #include <netdb.h>

 #include <string.h>

 #include <stdio.h>

 #include <unistd.h>

 #include <fcntl.h>

 #include <stdlib.h>

 #include <errno.h>

 #include <sys/wait.h>

 #include <unistd.h>

 #define IP   "127.0.0.1"

 #define PORT  8888

 #define PROCESS_NUM 4

 #define MAXEVENTS 64

 static int create_and_bind ()

 {

     int fd = socket(PF_INET, SOCK_STREAM, );

     struct sockaddr_in serveraddr;

     serveraddr.sin_family = AF_INET;

     inet_pton( AF_INET, IP, &serveraddr.sin_addr);

     serveraddr.sin_port = htons(PORT);

     bind(fd, (struct sockaddr*)&serveraddr, sizeof(serveraddr));

     return fd;

 }

 static int make_socket_non_blocking (int sfd)

 {

     int flags, s;

     flags = fcntl (sfd, F_GETFL, );

     if (flags == -) {

         perror ("fcntl");

         return -;

     }

     flags |= O_NONBLOCK;

     s = fcntl (sfd, F_SETFL, flags);

     if (s == -) {

         perror ("fcntl");

         return -;

     }

     return ;

 }

 void worker(int sfd, int efd, struct epoll_event *events, int k) {

     /* The event loop */

     while () {

         int n, i;

         n = epoll_wait(efd, events, MAXEVENTS, -);

         printf("worker  %d return from epoll_wait!\n", k);

         for (i = ; i < n; i++) {

             if ((events[i].events & EPOLLERR) || (events[i].events & EPOLLHUP) || (!(events[i].events &EPOLLIN))) {

                 /* An error has occured on this fd, or the socket is not ready for reading (why were we notified then?) */

                 fprintf (stderr, "epoll error\n");

                 close (events[i].data.fd);

                 continue;

             } else if (sfd == events[i].data.fd) {

                 /* We have a notification on the listening socket, which means one or more incoming connections. */

                 struct sockaddr in_addr;

                 socklen_t in_len;

                 int infd;

                 char hbuf[NI_MAXHOST], sbuf[NI_MAXSERV];

                 in_len = sizeof in_addr;

                 infd = accept(sfd, &in_addr, &in_len);

                 if (infd == -) {

                     printf("worker %d accept failed!\n", k);

                     break;

                 }

                 printf("worker %d accept successed!\n", k);

                 /* Make the incoming socket non-blocking and add it to the list of fds to monitor. */

                 close(infd);

             }

         }

     }

 }

 int main (int argc, char *argv[])

 {

     int sfd, s;

     int efd;

     struct epoll_event event;

     struct epoll_event *events;

     sfd = create_and_bind();

     if (sfd == -) {

         abort ();

     }

     s = make_socket_non_blocking (sfd);

     if (s == -) {

         abort ();

     }

     s = listen(sfd, SOMAXCONN);

     if (s == -) {

         perror ("listen");

         abort ();

     }

     efd = epoll_create(MAXEVENTS);

     if (efd == -) {

         perror("epoll_create");

         abort();

     }

     event.data.fd = sfd;

     event.events = EPOLLIN;

     s = epoll_ctl(efd, EPOLL_CTL_ADD, sfd, &event);

     if (s == -) {

         perror("epoll_ctl");

         abort();

     }

     /* Buffer where events are returned */

     events = calloc(MAXEVENTS, sizeof event);

     int k;

     for(k = ; k < PROCESS_NUM; k++) {

         printf("Create worker %d\n", k+);

         int pid = fork();

         if(pid == ) {

             worker(sfd, efd, events, k);

         }

     }

     int status;

     wait(&status);

     free (events);

     close (sfd);

     return EXIT_SUCCESS;

 }

父进程中创建套接字，并设置为非阻塞，开始listen。然后fork出4个子进程，在worker中调用epoll_wait开始accpet连接。使用telnet测试结果如下：

从结果看出，与上面是一样的，只有一个进程接收到连接，其他三个没有收到，说明没有发生惊群现象。这又是为什么呢？

在早期的Linux版本中，内核对于阻塞在epoll_wait的进程，也是采用全部唤醒的机制，所以存在和accept相似的“惊群”问题。新版本的的解决方案也是只会唤醒等待队列上的第一个进程或线程，所以，新版本Linux 部分的解决了epoll的“惊群”问题。所谓部分的解决，意思就是：对于部分特殊场景，使用epoll机制，已经不存在“惊群”的问题了，但是对于大多数场景，epoll机制仍然存在“惊群”。

epoll存在惊群的场景如下：在worker保持工作的状态下，都会被唤醒，例如在epoll_wait后调用sleep一次。改写woker函数如下：

void worker(int sfd, int efd, struct epoll_event *events, int k) {

    /* The event loop */

    while () {

        int n, i;

        n = epoll_wait(efd, events, MAXEVENTS, -);

        /*keep running*/

        sleep(2);

        printf("worker  %d return from epoll_wait!\n", k);

        for (i = ; i < n; i++) {

            if ((events[i].events & EPOLLERR) || (events[i].events & EPOLLHUP) || (!(events[i].events &EPOLLIN))) {

                /* An error has occured on this fd, or the socket is not ready for reading (why were we notified then?) */

                fprintf (stderr, "epoll error\n");

                close (events[i].data.fd);

                continue;

            } else if (sfd == events[i].data.fd) {

                /* We have a notification on the listening socket, which means one or more incoming connections. */

                struct sockaddr in_addr;

                socklen_t in_len;

                int infd;

                char hbuf[NI_MAXHOST], sbuf[NI_MAXSERV];

                in_len = sizeof in_addr;

                infd = accept(sfd, &in_addr, &in_len);

                if (infd == -) {

                    printf("worker %d accept failed,error:%s\n", k, strerror(errno));

                    break;

                }

                printf("worker %d accept successed!\n", k);

                /* Make the incoming socket non-blocking and add it to the list of fds to monitor. */

                close(infd);

            }

        }

    }

}

测试结果如下所示：

终于看到惊群现象的出现了。

4、解决惊群问题

　　Nginx中使用mutex互斥锁解决这个问题，具体措施有使用全局互斥锁，每个子进程在epoll_wait()之前先去申请锁，申请到则继续处理，获取不到则等待，并设置了一个负载均衡的算法（当某一个子进程的任务量达到总设置量的7/8时，则不会再尝试去申请锁）来均衡各个进程的任务量。后面深入学习一下Nginx的惊群处理过程。

5、参考网址

http://blog.csdn.net/russell_tao/article/details/7204260

http://pureage.info/2015/12/22/thundering-herd.html

http://blog.chinaunix.net/uid-20671208-id-4935141.html

Linux网络编程“惊群”问题总结的更多相关文章

Linux网络编程&内核学习
c语言: 基础篇 1.<写给大家看的C语言书(第2版)> 原书名: Absolute Beginner's Guide to C (2nd Edition) 原出版社: Sams 作者: ...
【深入浅出Linux网络编程】 "开篇 -- 知其然，知其所以然"
[深入浅出Linux网络编程]是一个连载博客,内容源于本人的工作经验,旨在给读者提供靠谱高效的学习途径,不必在零散的互联网资源中浪费精力,快速的掌握Linux网络编程. 连载包含4篇,会陆续编写发出, ...
【linux草鞋应用编程系列】_5_ Linux网络编程
一.网络通信简介第一部分内容,暂时没法描述,内容实在太多,待后续专门的系列文章. 二.linux网络通信在linux中继承了Unix下“一切皆文件”的思想, 在linux中要实现网 ...
Linux 网络编程（IO模型）
针对linux 操作系统的5类IO模型,阻塞式.非阻塞式.多路复用.信号驱动和异步IO进行整理,参考<linux网络编程>及相关网络资料. 阻塞模式在socket编程(如下图)中调用如下 ...
linux网络编程 no route to host 解决方案
linux网络编程 no route to host 解决方案 [整合资料] (2013-05-13 21:38:12) 转载▼ 标签: net iptables it 分类: Linux 参考资料h ...
linux网络编程-（socket套接字编程UDP传输）
今天我们来介绍一下在linux网络环境下使用socket套接字实现两个进程下文件的上传,下载,和退出操作! 在socket套接字编程中,我们当然可以基于TCP的传输协议来进行传输,但是在文件的传输中, ...
linux网络编程_1
本文属于转载,稍有改动,以利于学习. (一)Linux网络编程--网络知识介绍 Linux网络编程--网络知识介绍客户端和服务端网络程序和普通的程序有一个最大的区别是网络程序是由两个 ...
Linux网络编程入门 (转载)
(一)Linux网络编程--网络知识介绍 Linux网络编程--网络知识介绍客户端和服务端网络程序和普通的程序有一个最大的区别是网络程序是由两个部分组成的--客户端和服务器端. 客户 ...
Linux网络编程必看书籍推荐
首先要说讲述计算机网络和TCP/IP的书很多. 先要学习网络知识才谈得上编程讲述计算机网络的最经典的当属Andrew S．Tanenbaum的<计算机网络>第五版,这本书难易适中. &l ...

随机推荐

WebGIS开源解决方案之矢量数据导入
前几篇介绍了开源WebGIS开发环境的搭建,本篇开始陆续介绍这些软件的使用,WebGIS的开发,首要的问题是解决数据来源,本篇主要介绍矢量数据在开源空间数据库PostgreSQL中的存储.后续篇幅中再 ...
WebGIS开源解决方案之开发环境搭建（一）
工欲善其事,必先利其器,本文主要讲述WebGIS开源解决方案之环境搭建--geoserver的安装安装方式一:tomcat环境下安装从tomcat官网下载tomcat环境,下载链接:http:// ...
Java爬虫（一）利用GET和POST发送请求，获取服务器返回信息
本人所使用软件 eclipse fiddle UC浏览器分析请求信息以知乎(https://www.zhihu.com)为例,模拟登陆请求,获取登陆后首页,首先就是分析请求信息. 用UC浏览器F1 ...
PL/SQL + Oracle客户端配置记录
oracle一直都没怎么用. oracle pl/sql也是在别人帮助下完成配置. 这次电脑重装后,自己搞定总结了下怎么配置. 1.下载Oracle 客户端. 安装的版本是win64_11gR2_cl ...
[玩耍]C++控制台扫雷
其实是大一还不会GUI时闲着无聊写的.都是硬编码,也不支持自定义棋盘大小,现在看看这代码惨不忍睹.下载地址:http://download.csdn.net/download/xienaoban/98 ...
Linux五种IO模型性能分析
1. 概念理解在进行网络编程时,我们常常见到同步(Sync)/异步(Async),阻塞(Block)/非阻塞(Unblock)四种调用方式: 同步: 所谓同步,就是在发出一个功能调用时, ...
原型(Prototype)模式
原型模式属于对象的创建模式.通过给出一个原型对象来指明所有创建的对象的类型,然后用复制这个原型对象的办法创建出更多同类型的对象.这就是原型模式的用意.原型模式的结构原型模式要求对象实现一个可以“克隆 ...
区块链入门(2):搭建以太坊私有链(private network of ethereum),以及挖矿的操作..
在做一些测试工作的时候, 为了方便控制以及更快的进入真正的测试工作,可能需要搭建一个私有的以太坊网络. 而以太坊节点之间能够互相链接需要满足1)相同的协议版本2)相同的networkid,所以搭建私有 ...
第七篇：数据预处理(四) - 数据归约(PCA/EFA为例)
前言这部分也许是数据预处理最为关键的一个阶段. 如何对数据降维是一个很有挑战,很有深度的话题,很多理论书本均有详细深入的讲解分析. 本文仅介绍主成分分析法(PCA)和探索性因子分析法(EFA),并给 ...
Oracle 12C 新特性之恢复表
RMAN的表级和表分区级恢复应用场景:1.You need to recover a very small number of tables to a particular point in time ...

Linux网络编程“惊群”问题总结

Linux网络编程“惊群”问题总结的更多相关文章

随机推荐

热门专题