什么是进程?

进程是程序运行的实例,是系统进行资源分配和调度的一个独立单位,它包括独立的地址空间,资源以及1个或多个线程。

什么是线程?

线程可以看成是轻量级的进程,是CPU调度和分派的基本单位。

进程和线程的区别?

1.调度 :从上面的定义可以看出一个是调度和分派的基本单位,一个是拥有资源的基本单位

2.共享地址空间,资源:进程拥有各自独立的地址空间,资源,所以共享复杂,需要用IPC,同步简单; 线程共享所属进程的资源,共享简单,但同步复杂,要通过加锁等措施。

3.占用内存,cpu: 进程占用内存多,切换复杂,CPU利用率低; 线程占用内存少,切换简单,CPU利用率高。

4.相互影响: 进程间不会相互影响; 一个线程挂掉会导致整个进程挂掉

应用场景?
计算型:就用进程,CPython有一个GIL锁 (GIL全称Global Interpreter Lock),同一时刻,只能使用一个进程使用。

IO密集型:就用线程,因为IO操作不通过CPU。

非常有趣的解释了什么是进程和线程

参考博客:http://www.ruanyifeng.com/blog/2013/04/processes_and_threads.html

同步和异步的概念

同步是指用户线程发起IO请求后需要等待或者轮询内核IO操作完成后才能继续执行。

异步是指用户线程发起IO请求后仍继续执行,当内核IO操作完成后会通知用户线程,或者调用用户线程注册的回调函数。

阻塞和非阻塞的概念

阻塞是指IO操作需要彻底完成后才返回到用户空间。

非阻塞是指IO操作被调用后立即返回给用户一个状态值,无需等到IO操作彻底完成。

一、多线程

可以实现并发
但是,请求发送出去后和返回之前,中间时期线程空闲
编写方式:
- 直接返回处理
- 通过回调函数处理

方法一:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# Author: nulige
#线程
from concurrent.futures import ThreadPoolExecutor
import requests
import time def task(rul):
response = requests.get(url)
print(url, response) pool = ThreadPoolExecutor(6) url_list = [
'http://huaban.com/favorite/beauty/',
'https://www.bing.com/',
'https://www.baidu.com/',
'https://www.sina.com/',
'https://www.zhihu.com/',
'https://www.tencent.com/',
] for url in url_list:
pool.submit(task,url) pool.shutdown(wait=True)

方法二:

#!/usr/bin/env python
# -*- coding:utf- -*-
# Author: nulige
#进程 from concurrent.futures import ThreadPoolExecutor
import requests
import time def task(url):
response = requests.get(url)
return response def done(future,*args,**kwargs):
response = future.result()
print(response) pool = ThreadPoolExecutor() url_list = [
'http://huaban.com/favorite/beauty/',
'https://www.bing.com/',
'https://www.baidu.com/',
'https://www.sina.com/',
'https://www.zhihu.com/',
'https://www.tencent.com/',
] for url in url_list:
v = pool.submit(task,url)
v.add_done_callback(done) pool.shutdown(wait=True)

二、多进程

可以实现并发
但是,请求发送出去后和返回之前,中间时期进程空闲
编写方式:
- 直接返回处理
- 通过回调函数处理

方法一:

from concurrent.futures import ProcessPoolExecutor
import requests
import time def task(url):
response = requests.get(url)
print(url,response)
# 写正则表达式 pool = ProcessPoolExecutor()
url_list = [
'http://www.cnblogs.com/wupeiqi',
'http://huaban.com/favorite/beauty/',
'http://www.bing.com',
'http://www.zhihu.com',
'http://www.sina.com',
'http://www.baidu.com',
'http://www.autohome.com.cn',
]
for url in url_list:
pool.submit(task,url) pool.shutdown(wait=True)

方法二:

from concurrent.futures import ProcessPoolExecutor
import requests
import time def task(url):
response = requests.get(url)
return response def done(future,*args,**kwargs):
response = future.result()
print(response.status_code,response.content) pool = ProcessPoolExecutor()
url_list = [
'http://www.cnblogs.com/wupeiqi',
'http://huaban.com/favorite/beauty/',
'http://www.bing.com',
'http://www.zhihu.com',
'http://www.sina.com',
'http://www.baidu.com',
'http://www.autohome.com.cn',
]
for url in url_list:
v = pool.submit(task,url)
v.add_done_callback(done) pool.shutdown(wait=True

三、协程(微线程)+异步IO = 1个线程发送N个Http请求

异步IO (asyncio IO)

1、单线程,实现伪并发,同时处理两个任务,所有请求同时发出去,有返回值就继续执行。

#!/usr/bin/env python
# -*- coding:utf- -*-
#Author: nulige import asyncio @asyncio.coroutine
def task():
print('before...task......')
yield from asyncio.sleep() # 发送Http请求,支持TCP获取结果..
print('end...task......') tasks = [task(), task()] loop = asyncio.get_event_loop()
loop.run_until_complete(asyncio.gather(*tasks))
loop.close()

执行结果:

before...task......
before...task......
end...task......
end...task......

2、单线程,发送http请求原理(asyncio 内部完成了,异步IO操作)

asyncio:内部其实就是自己封装了http数据包

安装模块:

pip3 install asyncio

代码:

#!/usr/bin/env python
# -*- coding:utf- -*-
#Author: nulige import asyncio @asyncio.coroutine
def task(host, url='/'):
print('start', host, url)
reader, writer = yield from asyncio.open_connection(host, ) #创建连接 request_header_content = "GET %s HTTP/1.0\r\nHost: %s\r\n\r\n" % (url, host,) #http请求格式
request_header_content = bytes(request_header_content, encoding='utf-8') writer.write(request_header_content)
yield from writer.drain()
text = yield from reader.read()
#返回结果
print('end', host, url, text)
writer.close() #两个任务
tasks = [
task('www.cnblogs.com', '/wupeiqi/'),
task('dig.chouti.com', '/pic/show?nid=4073644713430508&lid=10273091')
] loop = asyncio.get_event_loop()
results = loop.run_until_complete(asyncio.gather(*tasks))
loop.close()

3、asyncio(异步IO)+aiohttp(内部封装Http数据包)

安装模块:

pip3 install aiohttp

代码:

#!/usr/bin/env python
# -*- coding:utf- -*-
#Author: nulige import aiohttp
import asyncio @asyncio.coroutine
def fetch_async(url):
print(url)
response = yield from aiohttp.request('GET', url)
print(url, response)
response.close() tasks = [fetch_async('http://www.baidu.com/'), fetch_async('http://www.chouti.com/')] event_loop = asyncio.get_event_loop()
results = event_loop.run_until_complete(asyncio.gather(*tasks))
event_loop.close()

4、asyncio+requests模块

安装模块

pip3 install requests

代码:

#!/usr/bin/env python
# -*- coding:utf- -*-
#Author: nulige import asyncio
import requests @asyncio.coroutine
def task(func, *args):
print(func,args)
loop = asyncio.get_event_loop()
future = loop.run_in_executor(None, func, *args) # requests.get('http://www.cnblogs.com/wupeiqi/')
response = yield from future
print(response.url, response.content) tasks = [
task(requests.get, 'http://www.cnblogs.com/wupeiqi/'),
task(requests.get, 'http://dig.chouti.com/pic/show?nid=4073644713430508&lid=10273091')
] loop = asyncio.get_event_loop()
results = loop.run_until_complete(asyncio.gather(*tasks))
loop.close()

四、gevent,依赖greenlet(是个协程的模块)+异步IO(requests模块)

协程是微线程,规定这个线程先执行点什么,再执行点什么。

安装模块:

pip3 install greenlet

pip3 install gevent

代码:

#!/usr/bin/env python
# -*- coding:utf- -*-
#Author: nulige import gevent
import requests
from gevent import monkey
monkey.patch_all() #找到你内部封装的异步IO的socket def task(method, url, req_kwargs):
#第一个任务来先传到这里
print(method, url, req_kwargs)
#request(get内部就是调用了request)
response = requests.request(method=method, url=url, **req_kwargs)
print(response.url, response.content) ##### 发送请求 #####
# gevent.joinall([
# gevent.spawn(task, method='get', url='https://www.python.org/', req_kwargs={}),
# gevent.spawn(task, method='get', url='https://www.yahoo.com/', req_kwargs={}),
# gevent.spawn(task, method='get', url='https://github.com/', req_kwargs={}),
# ]) ##### 发送请求(协程池控制最大协程数量,就是控制往远程发送多少个请求) #####
from gevent.pool import Pool
pool = Pool()
gevent.joinall([
pool.spawn(task, method='get', url='https://www.python.org/', req_kwargs={}),
pool.spawn(task, method='get', url='https://www.yahoo.com/', req_kwargs={}),
pool.spawn(task, method='get', url='https://www.github.com/', req_kwargs={}),
])

执行结果:

get https://www.python.org/ {}
get https://www.yahoo.com/ {}
get https://www.github.com/ {}
后面省略......

五、 grequests模块 =  gevent+requests

安装模块:

pip3 install grequests

代码:

#!/usr/bin/env python
# -*- coding:utf- -*-
#Author: nulige import grequests request_list = [
grequests.get('http://httpbin.org/delay/1', timeout=0.001),
grequests.get('http://fakedomain/'),
grequests.get('http://httpbin.org/status/500')
] #执行并获取响应列表
request_list = grequests.map(request_list)
print(request_list)

执行结果:

[None, None, <Response []>]

六、Twisted (用一个线程,发多个请求)

#!/usr/bin/env python
# -*- coding:utf- -*-
from twisted.internet import defer
from twisted.web.client import getPage
from twisted.internet import reactor def one_done(arg):
print(arg) def all_done(arg):
print('done')
reactor.stop() @defer.inlineCallbacks
def task(url):
res = getPage(bytes(url, encoding='utf8')) # 发送Http请求
res.addCallback(one_done)
yield res url_list = [
'http://www.cnblogs.com',
'http://www.cnblogs.com',
'http://www.cnblogs.com',
'http://www.cnblogs.com',
] defer_list = [] # [特殊,特殊,特殊(已经向url发送请求)]
for url in url_list:
v = task(url)
defer_list.append(v) d = defer.DeferredList(defer_list)
d.addBoth(all_done) reactor.run() # 死循环

七、Tornado (用一个线程,发多个请求)

#!/usr/bin/env python
# -*- coding:utf- -*-
from tornado.httpclient import AsyncHTTPClient
from tornado.httpclient import HTTPRequest
from tornado import ioloop COUNT =
def handle_response(response):
global COUNT
COUNT -=
if response.error:
print("Error:", response.error)
else:
print(response.body)
# 方法同twisted
# ioloop.IOLoop.current().stop()
if COUNT == :
ioloop.IOLoop.current().stop() def func():
url_list = [
'http://www.baidu.com',
'http://www.bing.com',
]
global COUNT
COUNT = len(url_list)
for url in url_list:
print(url)
http_client = AsyncHTTPClient()
http_client.fetch(HTTPRequest(url), handle_response) ioloop.IOLoop.current().add_callback(func)
ioloop.IOLoop.current().start() # 死循环

执行结果:

http://www.baidu.com
http://www.bing.com

八、自定义异步IO框架

import socket
import select # ########################## HTTP请求本质,阻塞 ##########################
"""
sk = socket.socket()
# .连接
sk.connect(('www.baidu.com',,)) # IO阻塞
print('连接成功了...') # . 连接成功发送消息
sk.send(b'GET / HTTP/1.0\r\nHost:www.baidu.com\r\n\r\n')
# sk.send(b'POST / HTTP/1.0\r\nHost:www.baidu.com\r\n\r\nk1=v1&k2=v2') # . 等待着服务端响应
data = sk.recv() # IO阻塞
print(data) # 关闭连接
sk.close()
"""
# ########################## HTTP请求本质,非阻塞 ##########################
"""
sk = socket.socket()
sk.setblocking(False)
# .连接
try:
sk.connect(('www.baidu.com',,)) # IO阻塞
print('连接成功了...')
except BlockingIOError as e:
print(e)
# . 连接成功发送消息
sk.send(b'GET / HTTP/1.0\r\nHost:www.baidu.com\r\n\r\n')
# sk.send(b'POST / HTTP/1.0\r\nHost:www.baidu.com\r\n\r\nk1=v1&k2=v2') # . 等待着服务端响应
data = sk.recv() # IO阻塞
print(data) # 关闭连接
sk.close()
"""

############################异步IO非阻塞################################
IO:就是读和写 class HttpRequest:
def __init__(self,sk,host,callback):
self.socket = sk
self.host = host
self.callback = callback
def fileno(self):
return self.socket.fileno() class HttpResponse:
def __init__(self,recv_data):
self.recv_data = recv_data
self.header_dict = {}
self.body = None self.initialize()
def initialize(self):
headers, body = self.recv_data.split(b'\r\n\r\n', )
self.body = body
header_list = headers.split(b'\r\n')
for h in header_list:
h_str = str(h,encoding='utf-8')
v = h_str.split(':',)
if len(v) == :
self.header_dict[v[]] = v[] class AsyncRequest:
def __init__(self):
self.conn = []
self.connection = [] # 用于检测是否已经连接成功 def add_request(self,host,callback):
try:
sk = socket.socket()
sk.setblocking()
sk.connect((host,,))
except BlockingIOError as e:
pass
request = HttpRequest(sk,host,callback)
self.conn.append(request)
self.connection.append(request) def run(self): while True:
rlist,wlist,elist = select.select(self.conn,self.connection,self.conn,0.05)
for w in wlist:
print(w.host,'连接成功...')
# 只要能循环到,表示socket和服务器端已经连接成功
tpl = "GET / HTTP/1.0\r\nHost:%s\r\n\r\n" %(w.host,)
w.socket.send(bytes(tpl,encoding='utf-8'))
self.connection.remove(w)
for r in rlist:
# r,是HttpRequest
recv_data = bytes()
while True:
try:
chunck = r.socket.recv() #最多接收的大小
recv_data += chunck
except Exception as e:
break
response = HttpResponse(recv_data)
r.callback(response)
r.socket.close()
self.conn.remove(r)
if len(self.conn) == :
break def f1(response):
print('保存到文件',response.header_dict) def f2(response):
print('保存到数据库', response.header_dict) url_list = [
{'host':'www.baidu.com','callback': f1},
{'host':'cn.bing.com','callback': f2},
{'host':'www.cnblogs.com','callback': f2},
] req = AsyncRequest()
for item in url_list:
req.add_request(item['host'],item['callback']) req.run() 

备注:本篇博客用到的模块(python3.x)

#安装安装地址如下:

pip3 install aiohttp -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 

pip3 install greenlet -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 

pip3 install gevent -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 

pip3 install grequests -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 

pip3 install tornado -i http://pypi.douban.com/simple --trusted-host pypi.douban.com   

爬虫之多线程 多进程 自定义异步IO框架的更多相关文章

  1. 自定义异步IO框架

    异步就是回调 异步 = 非阻塞+循环 select只能完成IO多路复用,不能完成异步 IO多路复用--->监听多个socket对象,这个过程是同步的 利用其特性可以开发异步模块 异步IO:非阻塞 ...

  2. 多线程,多进程和异步IO

    1.多线程网络IO请求: #!/usr/bin/python #coding:utf-8 from concurrent.futures import ThreadPoolExecutor impor ...

  3. python---爬虫相关性能(各个异步模块的使用,和自定义异步IO模块)

    一:线程池,进程池等相关文章了解 python---基础知识回顾(十)进程和线程(py2中自定义线程池和py3中的线程池使用) python---基础知识回顾(十)进程和线程(协程gevent:线程在 ...

  4. python之爬虫_并发(串行、多线程、多进程、异步IO)

    并发 在编写爬虫时,性能的消耗主要在IO请求中,当单进程单线程模式下请求URL时必然会引起等待,从而使得请求整体变慢 import requests def fetch_async(url): res ...

  5. Python并发编程之初识异步IO框架:asyncio 上篇(九)

    大家好,并发编程 进入第九篇. 通过前两节的铺垫(关于协程的使用),今天我们终于可以来介绍我们整个系列的重点 -- asyncio. asyncio是Python 3.4版本引入的标准库,直接内置了对 ...

  6. 自定义 异步 IO 非阻塞框架

    框架一 自定义Web异步非阻塞框架 suosuo.py #!/usr/bin/env python # -*- coding: utf-8 -*-# # __name__ = Web_Framewor ...

  7. Python 并发总结,多线程,多进程,异步IO

    1 测量函数运行时间 import time def profile(func): def wrapper(*args, **kwargs): import time start = time.tim ...

  8. Python学习---IO的异步[自定义异步IO]

    自定义IO异步基础知识: --所有的请求都基于socket实现,一个请求就是一个socket socket.setblocking(False) 不需要阻塞,一个请求完了发送另外一个,会报错,需解决 ...

  9. Python并发编程之实战异步IO框架:asyncio 下篇(十一)

    大家好,并发编程 进入第十一章. 前面两节,我们讲了协程中的单任务和多任务 这节我们将通过一个小实战,来对这些内容进行巩固. 在实战中,将会用到以下知识点: 多线程的基本使用 Queue消息队列的使用 ...

随机推荐

  1. inline-block,vertical-align:middle

    现在inline-block貌似可以替代float来实现多个item的排列分布吧 div是块级元素,如果不设置他的明确的宽度,那他就等于父元素的宽度,如果想让他其它随着子元素的变化而变化,需要改变他的 ...

  2. Python+Selenium 自动化实现实例-Css捕捉元素的几种方法

    #coding=utf-8 from selenium import webdriverimport timedriver = webdriver.Chrome()driver.get("h ...

  3. JAVA 语言类的特性(成员、重载、构造方法、静态成员)

    一.类的私有成员和公有成员 1.私有成员 修饰符private    如果在类的声明前加上修饰符private,则无法从该类的外部访问到该类的内部成员,而只能被该类自身访问和修改,而不嗯那个被其他类, ...

  4. DuplicateHandle

    功能:将一个进程内的伪句柄,转化为可以用来进程间通信的实句柄 BOOL DuplicateHandle(  HANDLE hSourceProcessHandle,  HANDLE hSourceHa ...

  5. nginx静态资源浏览器缓存

    1.缓存介绍 作用:提升用户体验,减少服务器压力 浏览器无缓存:浏览器发起请求->无缓存->请求WEB服务器->web服务器检查是否有更新(没有更新返回304)->呈现 浏览器 ...

  6. http测试工具ab

    转载:https://www.cnblogs.com/ym123/archive/2015/07/08/4629735.html ab的全称是Apache Bench,是Apache自带的网络压力测试 ...

  7. 一个通用的php正则表达式匹配或检测或提取特定字符类

      在php开发时,日常不可或缺地会用到正则表达式,可每次都要重新写,有时忘记了某一函数还要翻查手册,所以,抽空写了一个关于日常所用到的正则表达式区配类,便于随便移置调用.(^_^有点偷懒). /*/ ...

  8. LOJ #6280. 数列分块入门 4-分块(区间加法、区间求和)

    #6280. 数列分块入门 4 内存限制:256 MiB时间限制:500 ms标准输入输出 题目类型:传统评测方式:文本比较 上传者: hzwer 提交提交记录统计测试数据讨论   题目描述 给出一个 ...

  9. 字典树&01字典树算法笔记

    1]学习了字典树之后,觉得它很明显的就是用空间来换时间,空间复杂度特别大,比如字典数单单存26个小写字母,那么每个节点的孩子节点都有26个孩子节点,字典树中的每一层都保留着不同单词的相同字母. 2]0 ...

  10. 第K短路模板【POJ2449 / 洛谷2483 / BZOJ1975 / HDU6181】

    1.到底如何求k短路的? 我们考虑,要求k短路,要先求出最短路/次短路/第三短路……/第(k-1)短路,然后访问到第k短路. 接下来的方法就是如此操作的. 2.f(x)的意义? 我们得到的f(x)更小 ...