协程的IO

asyncio 作为实现异步编程的库,任务执行中遇到系统IO的时能够自动切换到其他任务。协程使用的IO模型是IO多路复用。asyncio 低阶API 一篇中提到过 “以Linux系统为例,IO模型有阻塞,非阻塞,IO多路复用等。asyncio 常用的是IO多路复用模型的epoolkqueue”。本篇就介绍一下IO多路复用技术以及操作系统的IO,为后续内容做一个铺垫。

什么是IO

根据冯.诺依曼结构,它将计算机分成分为5个部分:运算器、控制器、存储器、输入设备、输出设备。

涉及计算机核心与其他设备间数据迁移的过程就是IO

常见的IO包括:文件的读写、网络请求。

以文件读写为例,一个应用程序读一个文件。一个应用程序就是一个进程,操作系统为每一个进程分配的内存分为两个部分,分别是用户空间和内核空间。以32位系统为例,用户空间分配3GB,内核空间分为1GB。IO操作因为都是和硬件设备交互,所以不能让用户进程直接操作,而是需要进程调用操作提供提供的API来完成。

应用程序读一个文件的流程是:

  1. 应用程序调用系统提供读文件的命令
  2. 系统将磁盘中文件内容读取到内核空间
  3. 系统将文件内容从内核空间拷贝的用户空间
  4. 应用程序读取用户空间中的文件内容

从文件IO总结IO的基本流程为:

总结来看,IO操作的基本流程是:

  1. 应用程序发起IO调用
  2. 操作系统完成IO操作

阻塞IO模型

阻塞IO模型就是应用程序发起IO调用之后一直阻塞等待,一直等到数据从内核空间拷贝用户空间,此次调用才算完成。

流程图如下:

存在问题:

如果内核数据一直没准备好,那用户进程将一直阻塞,CPU空转而浪费时间。并发大的情况下将导致进程数量变大,限制并发数量。

非阻塞IO模型

应用程序发起IO调用,如果内核空间数据还没读取完成,可以先返回错误信息给用户进程,让它不需要等待,而是通过轮询的方式再来请求。这就是非阻塞IO,流程图如下:

非阻塞IO的流程如下:

  • 应用进程向操作系统内核,发起读取数据。
  • 操作系统内核数据没有准备好,立即返回错误码。
  • 应用程序轮询调用,继续向操作系统内核发起读取数据。
  • 操作系统内核空间读取数据完成,从内核缓冲区拷贝到用户空间。
  • 完成调用,返回成功提示。

存在问题:

它相对于阻塞IO,虽然大幅提升了性能,但是它依然存在性能问题,即频繁的轮询,导致频繁的系统调用,同样会消耗大量的CPU资源。

IO多路复用模型

非阻塞IO的问题

非阻塞IO模型下并发情况下应用程序可能会发送上千次请求,如果每一次请求的IO都需要轮询获取结果,那么应用就需要创建上千个线程去轮询监听数据是否拷贝完成。

这么多的线程不断调用系统函数 recvfrom 请求数据,首先服务器不能支持这么多请求,其次这种方式太浪费资源了,线程是我们操作系统的宝贵资源,大量的线程用来去读取数据了,那么就意味着能做其它事情的线程就会少。如何解决这个问题呢?使用IO多路复用可以将轮询监听的线程降低到1个。

IO多路复用介绍

IO多路复用的原理

可以由一个线程监控多个网络请求,当有数据准备好之后再通知对应的线程去读取数据。这样就可以只需要一个线程完成数据是否就绪状态的查询。通过复用一个轮询的线程节省出大量的线程资源出来,这个就是IO复用模型的思路。

IO多路复用的流程

  1. 应用程序调用IO请求返回一个文件描述符
  2. IO多路复用的函数(select、poll、epoll)同时监控多个文件描述符
  3. 当某一个文件描述符的状态变成就绪时,IO多路复用函数通知对应应用程序
  4. 应用程序读取文件,数据从内核空间拷贝的用户空间,完成数据IO

IO多路复用使用的函数有三种,分别是:select、poll、epoll。三者在实现上有一些区别。IO多路复用实现的核心思想是监听文件描述符fd的状态,当fd状态就绪时通知对应的应用读取数据。

select

应用进程通过调用select函数,可以同时监控多个文件描述符。在select函数监控的fd中,只要有任何一个数据状态准备就绪了,select函数就会返回可读状态,这时应用进程再发起recvfrom请求去读取数据。

select缺点:

  • 监听的IO最大连接数有限,在Linux系统上一般为1024。
  • select函数是通过遍历fdset,找到就绪的描述符fd。遍历的时间性能消耗较大

poll

由于select存在连接数限制,所以后来又提出了poll。poll模型里面通过使用链表的形式来保存自己监控的fd信息,连接数限制问题。

缺点:

select和poll一样,还是需要通过遍历文件描述符来获取已经就绪的socket。如果同时连接的大量客户端在一时刻可能只有极少处于就绪状态,伴随着监视的描述符数量的增长,效率也会线性下降。

epoll

epoll并不是像select一样去遍历事件列表逐个轮询的监控fd的事件状态,而是事先就建立了fd与之对应的回调函数,当事件激活后主动回调将fd加入到就绪链表中,这也就避免了遍历事件列表的这个操作。

这里去掉了遍历文件描述符的低性能操作,而是采用监听事件回调的的机制。这就是epoll的亮点。

小结

需要注意的是IO多路复用也是阻塞的IO,只不过它能并发处理的IO效率更高。

信号驱动模型

信号驱动IO不再用主动询问的方式去确认数据是否就绪,而是向内核发送一个信号(调用sigaction的时候建立一个SIGIO的信号),然后应用用户进程可以去做别的事,不用阻塞。当内核数据准备好后,再通过SIGIO信号通知应用进程,数据准备好后的可读状态。应用用户进程收到信号之后,立即调用recvfrom,去读取数据。

信号驱动IO模型,在应用进程发出信号后,是立即返回的,不会阻塞进程。它已经有异步操作的感觉了。但是数据复制到应用缓冲的时候,应用进程还是阻塞的。

回过头来看下,不管是非阻塞IO、IO多路复用还是信号驱动,在数据从内核复制到应用缓冲的时候,都是阻塞的。

异步IO模型

非阻塞IO、IO多路复用还是信号驱动在数据从内核复制到应用缓冲的时候,都是阻塞的,因此都不是真正的异步。

异步IO实现了IO全流程的非阻塞,就是应用进程发出系统调用后,是立即返回的,但是立即返回的不是处理结果,而是表示提交成功类似的意思。等内核数据准备好,将数据拷贝到用户进程缓冲区,发送信号通知用户进程IO操作执行完毕。

异步IO的原理很简单,只需要向内核发送一次请求,就可以完成数据状态询问和数据拷贝的所有操作,并且不用阻塞等待结果。

同步、异步、阻塞、非阻塞总结

相关术语:

  • 同步阻塞(blocking-IO)简称BIO
  • 同步非阻塞(non-blocking-IO)简称NIO
  • 异步非阻塞(asynchronous-non-blocking-IO)简称AIO

参考文章:

https://zhuanlan.zhihu.com/p/439770090

Python异步编程原理篇之协程的IO的更多相关文章

  1. Python【第十篇】协程、异步IO

    大纲 Gevent协程 阻塞IO和非阻塞IO.同步IO和异步IO的区别 事件驱动.IO多路复用(select/poll/epoll) 1.协程 1.1协程的概念 协程,又称微线程,纤程.英文名Coro ...

  2. python 并发编程 基于gevent模块 协程池 实现并发的套接字通信

    基于协程池 实现并发的套接字通信 客户端: from socket import * client = socket(AF_INET, SOCK_STREAM) client.connect(('12 ...

  3. 这篇文章讲得精彩-深入理解 Python 异步编程(上)!

    可惜,二和三现在还没有出来~ ~~~~~~~~~~~~~~~~~~~~~~~~~ http://python.jobbole.com/88291/ ~~~~~~~~~~~~~~~~~~~~~~~~~~ ...

  4. 深入理解 Python 异步编程(上)

    http://python.jobbole.com/88291/ 前言 很多朋友对异步编程都处于"听说很强大"的认知状态.鲜有在生产项目中使用它.而使用它的同学,则大多数都停留在知 ...

  5. python 异步编程

    Python 3.5 协程究竟是个啥 Yushneng · Mar 10th, 2016 原文链接 : How the heck does async/await work in Python 3.5 ...

  6. 最新Python异步编程详解

    我们都知道对于I/O相关的程序来说,异步编程可以大幅度的提高系统的吞吐量,因为在某个I/O操作的读写过程中,系统可以先去处理其它的操作(通常是其它的I/O操作),那么Python中是如何实现异步编程的 ...

  7. python异步编程 (转载)

    Python Async/Await入门指南   转自:https://zhuanlan.zhihu.com/p/27258289 本文将会讲述Python 3.5之后出现的async/await的使 ...

  8. JavaScript异步编程原理

    众所周知,JavaScript 的执行环境是单线程的,所谓的单线程就是一次只能完成一个任务,其任务的调度方式就是排队,这就和火车站洗手间门口的等待一样,前面的那个人没有搞定,你就只能站在后面排队等着. ...

  9. Python之线程、进程和协程

    python之线程.进程和协程 目录: 引言 一.线程 1.1 普通的多线程 1.2 自定义线程类 1.3 线程锁 1.3.1 未使用锁 1.3.2 普通锁Lock和RLock 1.3.3 信号量(S ...

  10. 深入理解Python异步编程(上)

    本文代码整理自:深入理解Python异步编程(上) 参考:A Web Crawler With asyncio Coroutines 一.同步阻塞方式 import socket def blocki ...

随机推荐

  1. [ARC132E] Paw

    题目链接 考虑最后形态,一定是有某一个区间 \([l,r]\) 保持初始的样子, \(l\) 前面都是 <,\(r\) 后面都是 >. 这个区间一定是某两个相邻圆点的位置.设 \(f_i\ ...

  2. 文心一言 VS 讯飞星火 VS chatgpt (155)-- 算法导论12.3 2题

    二.用go语言,假设通过反复向一棵树中插人互不相同的关键字来构造一棵二叉搜索树.证明:在这棵树中查找关键字所检查过的结点数目等于先前插入这个关键字所检查的结点数目加 1. 文心一言: 为了证明这个结论 ...

  3. 组合式api的使用方式

    方式一:通过setup选项 <script> export default { setup(){ // 提供数据 // 提供函数 // 提供计算属性等等..... } } </scr ...

  4. TypeScript Vs JavaScript 区别

    一.观察 1. JS 平常的复制类型 let val; val = 123; val = "123"; val = true; val = [1, 3, 5]; 注意点: 由于JS ...

  5. 从零玩转Yaip使用-cong-ling-wan-zhuan-yaip-shi-yong

    title: 从零玩转Yaip使用 date: 2021-07-16 15:47:17.624 updated: 2021-12-26 17:43:12.255 url: https://www.yb ...

  6. 云MSP服务案例丨某知名制造集团的Oracle RAC部署实践

    简介: 随着DT时代到来,移动互联网.物联网开始高速发展,更多的企业意识到了数据库架构选型对业务发展的重要性,如何管理和利用好数据已经变得越来越重要.Oracle作为世界上目前最流行的关系型数据库管理 ...

  7. 【推荐】Helix的编程语言配置

    目录 编程语言 languages.toml 语言配置 探测文件类型 编程语言服务 为一个编程语言配置语言服务 Tree-sitter 语法配置 选择语法 编程语言 编程语言设置以及语言服务器设置位于 ...

  8. 文心一言 VS 讯飞星火 VS chatgpt (30)-- 算法导论5.2 2题

    二.在 HIRE-ASSISTANT 中,假设应聘者以随机顺序出现,你正好雇用两次的概率是多少? 文心一言: 我们可以先计算出在HIRE-ASSISTANT中,雇佣一个应聘者的概率为3/4,然后计算出 ...

  9. 华为云分布式云原生UCS,助力MetaERP构建企业级高可用分布式业务

    本文分享自华为云社区<华为云分布式云原生UCS,助力MetaERP构建企业级高可用分布式业务>,作者:云容器大未来. 引言 华为云最近成为<Forrester Wave: Multi ...

  10. 盘点Python 中字符串的常用操作

    摘要:盘点 Python 中字符串的几个常用操作,对新手极度的友好. 本文分享自华为云社区<盘点 Python 中字符串的常用操作,对新手极度友好>,作者:TT-千叶 . 在 Python ...