本文分享自华为云社区《高性能网络设计秘笈：深入剖析Linux网络IO与epoll》，作者： Lion Long 。

一、epoll简介

epoll是Linux内核中一种可扩展的IO事件处理机制，可替代select和poll的系统调用。处理百万级并发访问性能更佳。

二、select的局限性

（1）文件描述符越多，性能越差。单个进程中能够监视的文件描述符存在最大的数量，默认是1024（在linux内核头文件中定义有 #define _FD_SETSIZE 1024）,当然也可以修改，但是文件描述符数量越多，性能越差。

（2）开销巨大，select需要复制大量的句柄数据结构，产生了巨大的开销（内核/用户空间内存拷贝问题）。

（3）select需要遍历整个句柄数组才能知道哪些句柄有事件。

（4）如果没有完成对一个已经就绪的文件描述符的IO操作，那么每次调用select还是会将这些文件描述符通知进程，即水平触发。

（5）poll使用链表保存监视的文件描述符，虽然没有了监视文件数量的限制，但是其他缺点依旧存在。

由于以上缺点，基于select模型的服务器程序，要达到十万以上的并发访问，是很难完成的。因此，epoll出场了。

三、epoll的优点

（1）不需要轮询所有的文件描述符

（2）每次取就绪集合，都在固定位置

（3）事件的就绪和IO触发可以异步解耦

四、epoll函数原型

4.1、epoll_create(int size)

#include <sys/epoll.h>

int epoll_create(int size);

功能：创建epoll的文件描述符。

参数说明：size表示内核需要监控的最大数量，但是这个参数内核已经不会用到，只要传入一个大于0的值即可。当size<=0时，会直接返回不可用，这是历史原因保留下来的，最早的epoll_create是需要定义一次性就绪的最大数量；后来使用了链表以便便维护和扩展，就不再需要使用传入的参数。

返回：返回该对象的描述符，注意要使用 close 关闭该描述符。

4.2、epoll_ctl

#include <sys/epoll.h>

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);

// epoll_ctl对应系统调用sys_epoll_ctl

功能：操作epoll的文件描述符，主要是对epoll的红黑树节点进行操作，比如节点的增删改查。

参数说明：

4.2.1、event参数说明

struct epoll_event结构体原型

typedef union epoll_data{

void* ptr;

int fd;

uint32_t u32;

uint64_t u64

};

struct epoll_event{

uint32_t events;

epoll_data_t data;

}

events成员代表要监听的epoll事件类型

events成员：

data成员：

data 成员时一个联合体类型，可以在调用 epoll_ctl 给 fd 添加/修改描述符监听的事件时携带一些数据，方便后面的epoll_wait可以取出信息使用。

4.2.2、扩展说明：SYSCALL_DEFINE数字的宏定义

跟着的数字代表函数需要的参数数量，比如SYSCALL_DEFINE1代表函数需要一个参数、SYSCALL_DEFINE4代表函数需要4个参数。

4.2.3、注意

epoll_ctl是非阻塞的，不会被挂起。

4.3、epoll_wait

函数原型

#include <sys/epoll.h>

int epoll_wait(int epfd, struct epoll_event *events, int maxevents, int timeout);

功能：阻塞一段时间，等待事件发生

返回：返回事件数量，事件集添加到events数组中。也就是遍历红黑树中的双向链表，把双向链表中的节点数据拷贝出来，拷贝完毕后把节点从双向链表中移除。

五、epoll使用步骤

step 1：创建epoll文件描述符

int epfd = epoll_create(1);

step 2：创建struct epoll_event结构体

struct epoll_event ev;

ev.data.fd=listenfd;//保存监听的fd，以便epoll_wait的后续操作

ev.events=EPOLLIN;//设置监听fd的可读事件

step 3：添加事件监听

epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev);

step 4：等待事件

struct epoll_event events[EVENTS_LENGTH];

char rbuffer[MAX_BUFF]={ 0 };

char wbuffer[MAX_BUFF]={ 0 };

while(1)

{

int nready = epoll_wait(epfd,events,EVENTS_LENGTH,-1);//-1表示阻塞等待

int i=0;

for(i=0;i<nready;i++)

{

int clientfd=events[i].data.fd;

if(clientfd==listenfd)

{

struct sockaddr_in client;

int len=sizeof(client);

int confd=accept(listenfd,(struct sockaddr*)&client,&len);

//step 2：创建struct epoll_event结构体

struct epoll_event evt;

evt.data.fd=confd;//保存监听的fd，以便epoll_wait的后续操作

evt.events=EPOLLIN;//设置监听fd的可读事件

// step 3：添加事件监听

epoll_ctl(epfd,EPOLL_CTL_ADD,confd,&evt);

}

else if(events[i].events &EPOLLIN)

{

int ret = recv(clientfd,rbuffer,MAX_BUFF,0);

if(ret>0)

{

rbuffer[ret]='\0';//剔除干扰数据

printf("recv: %s\n",rbuffer);

memcpy(wbuffer,rbuffer,MAX_BUFF);//拷贝数据，做回传示例

//step 2：创建struct epoll_event结构体

struct epoll_event evt;

evt.data.fd=clientfd;//保存监听的fd，以便epoll_wait的后续操作

evt.events=EPOLLOUT;//设置监听fd的可写事件

// step 3：修改事件监听

epoll_ctl(epfd,EPOLL_CTL_MOD,clientfd,&evt);

}

}

else if(events[i].events &EPOLLOUT)

{

int ret = send(clientfd,wbuffer,MAX_BUFF,0);

printf("send: %s\n",wbuffer);

//step 2：创建struct epoll_event结构体

struct epoll_event evt;

evt.data.fd=clientfd;//保存监听的fd，以便epoll_wait的后续操作

evt.events=EPOLLIN;//设置监听fd的可读事件

// step 3：修改事件监听

epoll_ctl(epfd,EPOLL_CTL_MOD,clientfd,&evt);

}

}

}

六、完整示例代码

#include <stdio.h>

#include <sys/socket.h>

#include <sys/types.h>

#include <netinet/in.h>

#include <fcntl.h>

#include <unistd.h>

#include <pthread.h>

#include <sys/epoll.h>

#include <string.h>

#define BUFFER_LENGTH 128

#define EVENTS_LENGTH 128

char rbuff[BUFFER_LENGTH] = { 0 };

char wbuff[BUFFER_LENGTH] = { 0 };

int main() {

// block

int listenfd = socket(AF_INET, SOCK_STREAM, 0); //

if (listenfd == -1) return -1;

// listenfd

struct sockaddr_in servaddr;

servaddr.sin_family = AF_INET;

servaddr.sin_addr.s_addr = htonl(INADDR_ANY);

servaddr.sin_port = htons(9999);

if (-1 == bind(listenfd, (struct sockaddr*)&servaddr, sizeof(servaddr))) {

return -2;

}

#if 0 // nonblock

int flag = fcntl(listenfd, F_GETFL, 0);

flag |= O_NONBLOCK;

fcntl(listenfd, F_SETFL, flag);

#endif

listen(listenfd, 10);

int epfd = epoll_create(1);

struct epoll_event ev, events[EVENTS_LENGTH];

ev.events = EPOLLIN;

ev.data.fd = listenfd;

epoll_ctl(epfd, EPOLL_CTL_ADD, listenfd, &ev);

printf("epfd : %d\n", epfd);

while (1)

{

int nready = epoll_wait(epfd, events, EVENTS_LENGTH, -1);

printf("nready --> %d\n",nready);

int i;

for (i = 0; i < nready;i++)

{

int clientfd = events[i].data.fd;

if (listenfd == clientfd)

{

// accept

struct sockaddr_in client;

int len = sizeof(client);

int conffd = accept(clientfd, (struct sockaddr*)&client,&len);

printf("conffd --> %d\n",conffd);

ev.events = EPOLLIN;

ev.data.fd = conffd;

epoll_ctl(epfd, EPOLL_CTL_ADD, conffd, &ev);

}

else if(events[i].events & EPOLLIN)//client

{

int ret=recv(clientfd, rbuff, BUFFER_LENGTH, 0);

if (ret > 0)

{

rbuff[ret] = '\0';

printf("recv buffer: %s\n", rbuff);

/*

int j;

for (j = 0; j < BUFFER_LENGTH;j++)

{

buff[j] = 'a' + (j % 26);

}

send(clientfd, buff, BUFFER_LENGTH, 0);

*/

memcpy(wbuff, rbuff, BUFFER_LENGTH);

ev.events = EPOLLOUT;

ev.data.fd = clientfd;

epoll_ctl(epfd, EPOLL_CTL_MOD, clientfd, &ev);

}

}

else if (events[i].events & EPOLLOUT)

{

send(clientfd, wbuff, BUFFER_LENGTH, 0);

printf("send --> %s\n",wbuff);

ev.events = EPOLLIN;

ev.data.fd = clientfd;

epoll_ctl(epfd, EPOLL_CTL_MOD, clientfd, &ev);

}

}

}

return 0;

}

七、epoll的缺点

读写使用相同的缓冲区。比如上述的示例中，wbuffer和rbuffer是使用同一个缓冲区的，所以需要rbuff[ret] = ‘\0’;去除杂数据。

八、水平触发（LT）与边沿触发(ET)

8.1、两者差异

1、水平触发可以一次recv，边沿触发需要用循环来recv；

2、水平触发可以使用阻塞模式，边沿模式不能

3、两者性能差异非常小，一般小数据使用水平触发LT，大数据使用边沿触发ET

4、listen fd最好使用水平触发，尽量不要边沿触发

5、当当recv的buffer小于接受的数据时：

（1）水平触发是只要有数据就一直触发，直到数据读完；

（2）边沿触发是来一次连接触发一次，如果接受数据的buffer不够大，则数据会保留在缓冲区，下次触发继续从缓冲区读出来；

6、一般，水平触发只需要一个recv，边沿触发需要搭配while从缓冲区读完数据

8.2、设置触发模式

默认是水平触发模式，在事件中设置中 | EPOLLET 就可以设置边沿触发，不设置则默认是水平触发。

例如：

ev.events=EPOLL_IN | EPOLLET

九、常见疑惑问题

9.1、为什么提前先定义一个事件？

我们需要注册，内核才会有事件来的时候通知进程。比如生活中要退一个快递，那么我们需要注册一个快递公司的账户，然后发送一个退快递请求时快递公司才能找到你并取快递。

9.2、epoll events超出EVENTS_LENGTH？

epoll会循环拷贝红黑树结构体中的双向链表节点，读取节点数据，直到没有事件。

9.3、缓冲区有多大空间时才返回可读/可写？

只要缓冲区有空间就返回可读、可写，不管空间多少。比如缓冲区是1024，但是有1023有数据了，这种极端条件也会返回可读、可写。

9.4、recv和send放在一起时，有什么问题？

发送给客户端数据很大的时候（大于内核缓冲区），就可能出现send不全，客户端recv不全，最好用EPOLLOUT单独处理发送数据事件。

总结

本文介绍了网络IO模型，引入了epoll作为Linux系统中高性能网络编程的核心工具。通过分析epoll的特点与优势，并给出使用epoll的注意事项和实践技巧，该文章为读者提供了宝贵的指导。通过掌握这些知识，读者能够构建高效、可扩展和稳定的网络应用，提供出色的用户体验。

点击关注，第一时间了解华为云新鲜技术~

高性能网络设计秘笈：深入剖析Linux网络IO与epoll的更多相关文章

点石成金：访客至上的网页设计秘笈（原书第2版）中文PDF版
可用性设计是Web设计中最重要也是难度最大的一项任务.本书作者根据多年从业的经验,剖析用户的心理,在用户使用的模式.为扫描进行设计.导航设计.主页布局.可用性测试等方面提出了许多独特的观点,并给出了大 ...
转：Linux网络IO并行化技术概览
转:http://codinginet.com/articles/view/201605-linux_net_parallel?simple=1&from=timeline&isapp ...
Socket-IO 系列（一）Linux 网络 IO 模型
Socket-IO 系列(一)Linux 网络 IO 模型一.基本概念在正式开始讲 Linux IO 模型前,先介绍 5 个基本概念. 1.1 用户空间与内核空间现在操作系统都是采用虚拟存储器, ...
Linux网络IO函数以及TCP连接函数包装
标准I/O VS 网络IO 标准I/O又称为标准I/O流,从某种意义上讲是全双工的,因为程序能够在同一个流上执行输入和输出. Unix/Linux对网络的抽象是一种称为套接字的文件类型.和任何Unix ...
Unix/Linux 网络 IO 模型简介
概述 Linux内核将所有外部设备都看做一个文件来操作.对该文件的读写操作会调用内核提供的系统命令, 返回一个fd(file descriptor)文件描述符.而对一个socket的读写也有相应的描述 ...
《DON'T MAKE ME THINK》/《点石成金访客至上的网页设计秘笈》读书笔记
1.web页面要尽可能简单,让用户不用思考就能知道页面的功能,如果要进行一些崭新的.开拓性的或者非常复杂的页面设计时, 此时要利用页面元素的外观.精心选择的名称.页面布局以及少量仔细斟酌过的文字,使页 ...
《点石成金：访客至上的Web和可用性设计秘笈（原书第3版）》--- 读书笔记
这是一本绝妙的书, 它的英语书名是“Don't make me think”.更确切的说是个小册子, 但是作者的语言实在是让人忍俊不禁. 真TM的有趣, 为毛外国人就能写出如此美妙的书? 而国人却不能 ...
Linux网络IO模型
同步和异步,阻塞和非阻塞同步和异步关注的是结果消息的通信机制同步:同步的意思就是调用方需要主动等待结果的返回异步:异步的意思就是不需要主动等待结果的返回,而是通过其他手段比如,状态通知,回调函 ...
Linux 网络编程（epoll）
服务器端代码 #include<stdio.h> #include<stdlib.h> #include<string.h> #include<sys/soc ...
Linux 服务器IO模型 epoll
epoll模型 #include <unistd.h> #include <sys/types.h> /* basic system data types */ #includ ...

随机推荐

P3214 [HNOI2011] 卡农题解
感觉不是很麻烦,可能就组合排列转化绕一点... 抽象化题意给定 \(n\) 个元素,从中选出 \(m\) 个集合,要求: 集合不为空,集合里不能有相同的元素 \(m\) 个集合都互不相同所有元素被 ...
AcWing 456. 车站分级
原题链接AcWing 456. 车站分级抽象出题意,停靠过的车站的等级一定严格大于为停靠过的车站的等级,且不存在环,例如车站\(A\)等级大于车站\(B\),则\(A >= B + 1\),不 ...
在路上---学习篇（一）Python 数据结构和算法（5）二分查找、二叉树遍历
独白: 利用算法进行查找指定元素,最近学习二分查找和二叉树遍历.二分查找前提是在有序中进行查找,二叉树引入了树的概念.树的概念其中有许多小知识点,也是一种新的数据结构.还是之前的感悟,需了解其本质才会 ...
手机成绩分析软件排行榜TOP10下载
随着智能手机的普及和移动应用的快速发展,手机成绩分析软件越来越受到学生.家长和教育机构的关注.这些软件可以帮助用户方便地记录.分析和管理学生成绩,提供个性化的学习指导和反馈.在本文中,将详细介绍202 ...
SpringBoot Seata 死锁问题排查
现象描述:Spring Boot项目,启动的时候卡住了,一直卡在那里不动,没有报错,也没有日志输出但是,奇怪的是,本地可以正常启动好吧,姑且先不深究为什么本地可以启动而部署到服务器上就无法启动的问 ...
Linux笔记02: Linux环境_2.2 Linux系统安装
2.2 Linux系统本文使用的Linux系统为CentOS 7.9.2009,读者可以根据自己的需要选择不同的版本. 2.2.1 CentOS版本 CentOS基本上是安装在i386.x86_64 ...
drf实战和源码剖析----学习笔记1
学自:bilibili武沛齐老师. 武老师讲课:清晰,连贯,实用,透彻,真乃名师! # 1. 什么是前后端分离 - 不分离,主要用于后台系统(CRUD)和用户量上的情况,开发起来代价小- 分离,面向用 ...
C++学习笔记二：变量与数据类型（整型）
1.int(整型数据): 1.1 进制的表示:十进制,八进制,16进制,二进制 int number1 = 15; // Decimal int number2 = 017; // Octal int ...
C++ Qt开发：Tab与Tree组件实现分页菜单
Qt 是一个跨平台C++图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本章将重点介绍tabWidg ...
2023"安洵杯"第六届网络安全挑战赛-Misc WP
dacongのsecret 题目我的解答: 题目给出一张png图片和一个加密压缩包,压缩包里面还存在另一张jpg图片看名字就知道是盲水印.由于压缩包里的图片提不出来,因此是单图盲水印,我们使用工具 ...

高性能网络设计秘笈：深入剖析Linux网络IO与epoll