[Advanced Python] 10 - Transfer parameters
Ref: HOWTO Fetch Internet Resources Using The urllib Package
Ref: Python High Performance - Second Edition【基于python3】
Ref: http://online.fliphtml5.com/odjuw/kcqs/#p=8【在线电子书】
Ref: 廖雪峰的异步IO【还是这个比较好一点】
Ref: Efficient web-scraping with Python’s asynchronous programming【参考】
Ref: A Web Crawler With asyncio Coroutines【参考】
一些概念
并行:parallel
并发:concurrent
协程:Coroutines
一种比线程更加轻量级的存在。正如一个进程可以拥有多个线程一样,一个线程也可以拥有多个协程。
协程不是被操作系统内核所管理,而完全是由程序所控制(也就是在用户态执行)。
这样带来的好处就是性能得到了很大的提升,不会像线程切换那样消耗资源。
Linux异步原理
参考一:boost coroutine with multi core
参考二:poll 和 select
poll 和 select 的实现基本上是一致的,只是传递参数有所不同,他们的基本流程如下:
1. 复制用户数据到内核空间
2. 估计超时时间
3. 遍历每个文件并调用f_op->poll 取得文件当前就绪状态, 如果前面遍历的文件都没有就绪,向文件插入wait_queue节点
4. 遍历完成后检查状态:
a). 如果已经有就绪的文件转到5;
b). 如果有信号产生,重启poll或select(转到 1或3);
c). 否则挂起进程等待超时或唤醒,超时或被唤醒后再次遍历所有文件取得每个文件的就绪状态
5. 将所有文件的就绪状态复制到用户空间
6. 清理申请的资源
写在开始
requests.get 串行策略
import requests
import string
import random # 生成url
def generate_urls(base_url, num_urls):
"""
We add random characters to the end of the URL to break any caching
mechanisms in the requests library or the server
"""
for i in range(num_urls):
yield base_url + "".join(random.sample(string.ascii_lowercase, 10)) # 执行url
def run_experiment(base_url, num_iter=500):
response_size = 0
for url in generate_urls(base_url, num_iter):
print(url)
response = requests.get(url)
response_size += len(response.text)
return response_size
if __name__ == "__main__":
import time
delay = 100
num_iter = 50
base_url = "http://www.baidu.com/add?name=serial&delay={}&".format(delay) start = time.time()
result = run_experiment(base_url, num_iter)
end = time.time()
print("Result: {}, Time: {}".format(result, end - start))
Gevent 方案
【暂时放弃该方案,太复杂且代码不可用】
以下是有变化部分的代码:
from gevent import monkey
monkey.patch_socket()
#----------------------------------
import gevent
from gevent.coros import Semaphore
import urllib2
from contextlib import closing
import string
import random
def download(url, semaphore):
with semaphore, closing(urllib2.urlopen(url)) as data:
return data.read() def chunked_requests(urls, chunk_size=100):
semaphore = Semaphore(chunk_size)
requests = [gevent.spawn(download, u, semaphore) for u in urls]
for response in gevent.iwait(requests):
yield response def run_experiment(base_url, num_iter=500):
urls = generate_urls(base_url, num_iter)
response_futures = chunked_requests(urls, 100)
response_size = sum(len(r.value) for r in response_futures)
return response_size
gevent.spawn()
Create a new Greenlet object and schedule it to run function(*args, **kwargs).
greenlet的源代码,代码不多,就2000行C语言的代码,其中有一部分栈寄存器的修改的代码是由汇编实现的。
一句话来说明greenlet的实现原理:通过栈的复制切换来实现不同协程之间的切换。
contextlib 的 closing
对于不支持使用 "with"语句 的 "类似文件” 的对象,使用 contextlib.closing():
import contextlib.closing
with closing(urllib.urlopen("http://www.python.org/")) as front_page:
for line in front_page:
print line
异步IO
一、简单的模型
yield是有返回值的。
def consumer():
r = ''
while True:
n = yield r
if not n:
return
print('[CONSUMER] Consuming %s...' % n)
r = '200 OK' def produce(c):
c.send(None) # <-- 启动生成器
n = 0
while n < 5:
n = n + 1
print('[PRODUCER] Producing %s...' % n)
r = c.send(n)
print('[PRODUCER] Consumer return: %s' % r)
c.close() #-------------------------------------------------- c = consumer()
produce(c) # 给消费者c喂消息
二、asyncio 的由来
传统方式
Ref: https://www.liaoxuefeng.com/wiki/1016959663602400/1017970488768640
(1) 从asyncio模块中直接获取一个EventLoop的引用,
(2) 然后把需要执行的协程扔到EventLoop中执行,就实现了异步IO。
import threading
import asyncio @asyncio.coroutine
def hello():
print('Hello world! (%s)' % threading.currentThread())
yield from asyncio.sleep(1) # 看成是一个耗时的io操作
print('Hello again! (%s)' % threading.currentThread()) loop = asyncio.get_event_loop() # (1) 获取一个EventLoop引用
tasks = [hello(), hello()]
loop.run_until_complete(asyncio.wait(tasks)) # (2) 将携程扔到EventLoop中去执行
loop.close()
异步wget网页
writer.drain():这是一个与底层IO输入缓冲区交互的流量控制方法。当缓冲区达到上限时,drain()阻塞,待到缓冲区回落到下限时,写操作可以被恢复。当不需要等待时,drain()会立即返回。
#%%
import asyncio @asyncio.coroutine
def wget(host):
print('wget %s...' % host) # (1) 首先,获得socket双向管道
connect = asyncio.open_connection(host, 80)
reader, writer = yield from connect # (2) 发送request要网页内容
header = 'GET / HTTP/1.0\r\nHost: %s\r\n\r\n' % host
writer.write(header.encode('utf-8'))
yield from writer.drain() # (3) 获得网页内容
while True:
line = yield from reader.readline()
if line == b'\r\n':
break
print('%s header > %s' % (host, line.decode('utf-8').rstrip()))
# Ignore the body, close the socket
writer.close()
loop = asyncio.get_event_loop()
tasks = [wget(host) for host in ['www.sina.com.cn', 'www.sohu.com', 'www.163.com']]
loop.run_until_complete(asyncio.wait(tasks))
loop.close()
总结下来就是主要做了两件事:
(1) @asyncio.coroutine
(2) yield from:不希望堵塞的地方
换为 async, await
换个写法,看上去干净一些。
import threading
import asyncio async def hello():
print('Hello world! (%s)' % threading.currentThread())
await asyncio.sleep(1) # 看成是一个耗时的io操作
print('Hello again! (%s)' % threading.currentThread()) loop = asyncio.get_event_loop() # (1) 获取一个EventLoop引用
tasks = [hello(), hello()]
loop.run_until_complete(asyncio.wait(tasks)) # (2) 将协程扔到EventLoop中去执行
loop.close()
三、aiohttp 助力
现在是把asyncio放在了服务器端!
asyncio可以实现单线程并发IO操作。如果仅用在客户端,发挥的威力不大。如果把asyncio用在服务器端,例如Web服务器,由于HTTP连接就是IO操作,因此可以用单线程+coroutine实现多用户的高并发支持。
# server code import asyncio
from aiohttp import web async def index(request):
await asyncio.sleep(0.5)
return web.Response(body=b'<h1>Index</h1>') async def hello(request):
await asyncio.sleep(0.5)
text = '<h1>hello, %s!</h1>' % request.match_info['name']
return web.Response(body=text.encode('utf-8')) async def init(loop):
app = web.Application(loop=loop)
app.router.add_route('GET', '/', index)
app.router.add_route('GET', '/hello/{name}', hello)
srv = await loop.create_server(app.make_handler(), '127.0.0.1', 8000)
print('Server started at http://127.0.0.1:8000...')
return srv
loop = asyncio.get_event_loop()
loop.run_until_complete(init(loop))
loop.run_forever()
异步百万并发
文章不错,详见链接。
值得注意的一点是:最大并发限制的设置。
semaphore = asyncio.Semaphore(500) # 限制并发量为500
End.
[Advanced Python] 10 - Transfer parameters的更多相关文章
- Python 10 —— 杂
Python 10 —— 杂 科学计算 NumPy:数组,数组函数,傅里叶变换 SciPy:依赖于NumPy,提供更多工具,比如绘图 绘图 Matplitlib:依赖于NumPy和Tkinter
- python 10分钟入门pandas
本文是对pandas官方网站上<10 Minutes to pandas>的一个简单的翻译,原文在这里.这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook .习惯 ...
- Python 10 训练模型
原文:https://www.cnblogs.com/denny402/p/7520063.html 原文:https://www.jianshu.com/p/84f72791806f 原文:http ...
- python 10大算法之一 LinearRegression 笔记
简单的线性回归预测房价 #!/usr/bin/env python # encoding: utf-8 """ @version: @author: --*--. @fi ...
- Python 10 协程,异步IO,Paramiko
本节内容 Gevent协程 异步IO Paramiko 携程 协程,又称为微线程,纤程(coroutine).是一种用户态的轻量级线程. 协程拥有自己的寄存器上下文和栈.协程调度切换时,将寄存器上下文 ...
- [ Python - 10 ] 练习:批量管理主机工具
需求: 主机分组 登录后显示主机分组,选择分组后查看主机列表 可批量执行命令.发送文件,结果实时返回 主机用户名密码可以不同 流程图: 说明: ## 需求: 主机分组 登录后显示主机分组,选择分组后查 ...
- python 10 动态参数
目录 1. 函数的动态参数 1.1 动态位置参数(*arges) 1.2 动态关键字参数 (**kwargs) 1.3 万能传参: 2. 函数的注释 3. 名称空间 4. 函数嵌套 5. 函数变量修改 ...
- [Advanced Python] 11 - Implement a Class
基础概念:[Python] 08 - Classes --> Objects 进阶概念:[Advanced Python] 11 - Implement a Class 参考资源:廖雪峰,面向对 ...
- [Advanced Python] 16 - Google style guide for programming
Ref: Python 风格指南 - 内容目录 这里主要记录一下值得注意的地方. Python语言规范 Lint:vsCode自带 导入:完整路径 异常 Ref: [Python] 07 - Stat ...
随机推荐
- mysql的优化策略
1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引. 2.应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索 ...
- AntV F2+vue-cli构建移动端可视化视图
AntV F2是蚂蚁金服旗下的一个专注于移动,开箱即用的可视化解决方案,完美支持 H5 环境同时兼容多种环境(Node, 小程序,Weex), 完备的图形语法理论,满足你的各种可视化需求,专业的移动设 ...
- thinkPHP中的简单文章推荐(按浏览量)功能实现
在公司中接触到了thinkPHP框架,其中要在项目中实现文章推荐功能.记录笔记如下: 一.在Controller中获取从文章列表页进入详情页传入的文章ID值. 二.在Controller中绑定数据库查 ...
- Linux之Shell编程(16)
读取从控制台输入的值(read): 系统函数: basename:返回完整路径最后/部分,常用于获取文件名 basename [pathname] [suffix] dirname:返回完整路径最后/ ...
- MySql优化相关概念的理解笔记
MySQL架构 查询执行流程 查询执行的流程是怎样的: 连接1.1客户端发起一条Query请求,监听客户端的‘连接管理模块’接收请求1.2将请求转发到‘连接进/线程模块’1.3调用‘用户模块’来进行授 ...
- Badboy中创建Suite, test, step和Template
参考: http://leafwf.blog.51cto.com/872759/1111744 http://www.51testing.com/html/00/130600-1367743.html ...
- gym/102021/K GCPC18 背包dp算不同数和的可能
gym/102021/K 题意: 给定n(n<=60)个直线 ,长度<=1000; 可以转化为取 计算 ans = (sum + 10 - g) / ( n + 1) 在小于5的条件下 ...
- 【Leetcode】【简单】【66. 加一】【JavaScript】
题目描述 66. 加一 给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一. 最高位数字存放在数组的首位, 数组中每个元素只存储单个数字. 你可以假设除了整数 0 之外,这个整数不会以零 ...
- Python 单元测试框架系列:聊聊 Python 的单元测试框架(一):unittest
作者:HelloGitHub-Prodesire HelloGitHub 的<讲解开源项目>系列,项目地址:https://github.com/HelloGitHub-Team/Arti ...
- 【Offer】[26] 【树的子结构】
题目描述 思路分析 测试用例 Java代码 代码链接 题目描述 输入两棵二叉树A和B,判断B是不是A的子结构.图中右边的树是左边的子结构  思路分析 先对树A进行遍历,找到与树B的根结点值相同的节点 ...