多线程、多进程、协程、IO多路复用请求百度

最近学习了多线程、多进程、协程以及IO多路复用，那么对于爬取数据来说，这几个方式哪个最快呢，今天就来稍微测试一下

普通方式请求百度5次

import socket

import time

import socks 

socks.set_default_proxy(socks.HTTP,addr='192.168.105.71',port=80) #设置socks代理

socket.socket = socks.socksocket  # 把代理应用到socket

def blocking(wd):

    sock = socket.socket()

    sock.connect(('www.baidu.com',80)) # 连接百度

    request = 'GET {} HTTP/1.0\r\nHost:www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(wd)) # 构造http请求头

    response = b''  # 用于接收数据

    sock.send(request.encode())  # 发送http请求

    chunk = sock.recv(1024)  # 一次接收1024字节数据

    while chunk:  # 循环接收数据，若没有数据了说明已接收完

        response += chunk  # 字符串拼接

        chunk = sock.recv(1024)

    # print(response.decode())

    return response

def blocking_way():

    search_list = ['python', 'java', 'C++', 'Ruby', 'Go']

    for item in search_list:

        blocking(item)

if __name__ == '__main__':

    start_time = time.time()

    blocking_way()

    print('请求5次百度总耗时:{}'.format(round(time.time()-start_time,2)))

多次执行结果：

请求5次百度总耗时:4.24秒

多线程版本

import socket

import time

import socks

from multiprocessing.pool import ThreadPool

socks.set_default_proxy(socks.HTTP,addr='192.168.105.71',port=80) #设置socks代理

socket.socket = socks.socksocket  # 把代理应用到socket

def blocking(wd):

    sock = socket.socket()

    sock.connect(('www.baidu.com',80)) # 连接百度

    request = 'GET {} HTTP/1.0\r\nHost:www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(wd)) # 构造http请求头

    response = b''  # 用于接收数据

    sock.send(request.encode())  # 发送http请求

    chunk = sock.recv(1024)  # 一次接收1024字节数据

    while chunk:  # 循环接收数据，若没有数据了说明已接收完

        response += chunk  # 字符串拼接

        chunk = sock.recv(1024)

    # print(response.decode())

    return response

def blocking_way():

    #多线程

    pool = ThreadPool(5) #实例线程池，开启5个线程

    search_list = ['python','java','C++','Ruby','Go']

    for i in search_list:

        pool.apply_async(blocking,args=(i,)) # 提交任务到线程池

    pool.close() #线程池不再接收任务

    pool.join() #等待任务执行完

if __name__ == '__main__':

    start_time = time.time()

    blocking_way()

    print('请求5次百度总耗时:{}'.format(round(time.time()-start_time,2)))

多次执行结果：

请求5次百度总耗时:1.0秒

多进程版本

import socket

import time

import socks

from multiprocessing import Pool

socks.set_default_proxy(socks.HTTP,addr='192.168.105.71',port=80) #设置socks代理

socket.socket = socks.socksocket  # 把代理应用到socket

def blocking(wd):

    sock = socket.socket()

    sock.connect(('www.baidu.com',80)) # 连接百度

    request = 'GET {} HTTP/1.0\r\nHost:www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(wd)) # 构造http请求头

    response = b''  # 用于接收数据

    sock.send(request.encode())  # 发送http请求

    chunk = sock.recv(1024)  # 一次接收1024字节数据

    while chunk:  # 循环接收数据，若没有数据了说明已接收完

        response += chunk  # 字符串拼接

        chunk = sock.recv(1024)

    # print(response.decode())

    return response

def blocking_way():

    #多进程

    pool = Pool(5)

    search_list = ['python','java','C++','Ruby','Go']

    for i in search_list:

        pool.apply_async(blocking,args=(i,))

    pool.close()

    pool.join()

if __name__ == '__main__':

    start_time = time.time()

    blocking_way()

    print('请求5次百度总耗时:{}'.format(round(time.time()-start_time,2)))

多次执行结果：

请求5次百度总耗时:1.52秒

协程版本

from gevent import monkey;monkey.patch_socket()

import socket

import time

import socks

import gevent

socks.set_default_proxy(socks.HTTP,addr='192.168.105.71',port=80) #设置socks代理

socket.socket = socks.socksocket  # 把代理应用到socket

def blocking(wd):

    sock = socket.socket()

    sock.connect(('www.baidu.com',80)) # 连接百度

    request = 'GET {} HTTP/1.0\r\nHost:www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(wd)) # 构造http请求头

    response = b''  # 用于接收数据

    sock.send(request.encode())  # 发送http请求

    chunk = sock.recv(1024)  # 一次接收1024字节数据

    while chunk:  # 循环接收数据，若没有数据了说明已接收完

        response += chunk  # 字符串拼接

        chunk = sock.recv(1024)

    # print(response.decode())

    return response

def blocking_way():

    search_list = ['python', 'java', 'C++', 'Ruby', 'Go']

    tasks = [gevent.spawn(blocking,i) for i in search_list]

    gevent.joinall(tasks)

if __name__ == '__main__':

    start_time = time.time()

    blocking_way()

    print('请求5次百度总耗时:{}'.format(round(time.time()-start_time,2)))

多次执行结果：

请求5次百度总耗时:1.02秒

IO多路复用版本

import socks

import time

import socket

import selectors

socks.set_default_proxy(socks.HTTP,addr='192.168.105.71',port=80)  # 设置socks代理

socket.socket = socks.socksocket  # 把代理应用到socket

selector = selectors.DefaultSelector()  # 事件选择器

flag = True  # 事件循环的标志

times = 5  # 用于计数，每请求一次百度，就减1，若为0，说明已请求5次，此时结束事件循环

class Crawler():

    def __init__(self,wd):

        self.response = b'' # 用于接收数据

        self.wd = wd # 搜索内容

    def fetch(self):

        '''创建客户端套接字，连接百度，定义好如果连接成功应该调用什么函数'''

        client = socket.socket()

        client.setblocking(False)

        try:

            client.connect(('www.baidu.com',80))  #此处需要注册事件监控

        except BlockingIOError:

            pass

        selector.register(client,selectors.EVENT_WRITE,self.send_request)

    def send_request(self,client):

        '''连接成功后发送请求到百度，并注册事件：收到百度应答应该做什么'''

        selector.unregister(client) # 把原先监控的事件取消，方便后面监控其他事件

        request = 'GET {} HTTP/1.0\r\nHost:www.baidu.com\r\n\r\n'.format('/s?wd={}'.format(self.wd))  # 构造http请求头

        client.send(request.encode())

        selector.register(client,selectors.EVENT_READ,self.get_response) #此处注册事件，若百度响应，调用get_response

    def get_response(self,client):

        '''若有数据发过来，就接收，每次发数据过来，都会触发，所以不用while循环'''

        global flag

        global times

        data = client.recv(1024) # 每次接收的数据不超过1024字节，若大于1024，分批传输

        if data:

            self.response += data # 字符串拼接

        else:  # 数据接收完

            # print(self.response.decode())

            client.close()

            selector.unregister(client)

            times -= 1 # 每次请求的响应接收完后，计数器减一

            if times == 0: # 5次请求完后，结束事件监控循环

                flag = False

def loop():

    '''事件监控循环'''

    while flag:

        events = selector.select()

        for key,mask in events:

            callback = key.data

            callback(key.fileobj)

if __name__ == '__main__':

    start_time = time.time()

    search_list = ['python', 'java', 'C++', 'Ruby', 'Go']

    for item in search_list:

        crawler = Crawler(item)

        crawler.fetch()

    loop()

    print('请求5次百度耗时:{}'.format(round(time.time()-start_time,2)))

多次执行结果：

请求5次百度耗时:1.17秒

大家可以把请求数调多一些多试几次！

基本上协程和多线程耗时较短，更适用于爬虫。

多线程、多进程、协程、IO多路复用请求百度的更多相关文章

协程IO多路复用
协程:单线程下实现并发并发:伪并行,遇到IO就切换,单核下多个任务之间切换执行,给你的效果就是貌似你的几个程序在同时执行.提高效率任务切换 + 保存状态并行:多核cpu,真正的同时执行串行:一个任务执 ...
day 35 协程 IO多路复用
0.基于socket发送Http请求 import socket import requests # 方式一 ret = requests.get('https://www.baidu.com/s?w ...
多线程多进程协程 Queue(爬虫代码)
快速理解多进程与多线程以及协程的使用场合和特点首先我们来了解下python中的进程,线程以及协程! 从计算机硬件角度: 计算机的核心是CPU,承担了所有的计算任务.一个CPU,在一个时间切片里只能运 ...
Python之路--协程/IO多路复用
引子: 之前学习过了,线程,进程的概念,知道了在操作系统中进程是资源分配的最小单位,线程是CPU调度的最小单位.按道理来说我们已经算是把CPU的利用率提高很多了.但是我们知道无论是创建多进程还是创建多 ...
12_进程,线程,协程,IO多路复用的区别
1.进程 1.进程可以使用计算机多核 2.进程是资源分配的单位 3.进程的创建要比线程消耗更多的资源效率很低 4.进程空间独立,数据安全性跟好操作有专门的进程间通信方式 5.一个进程可以包含多个线程, ...
协程 IO多路复用
-----------------------------------------------------------------试试并非受罪,问问并不吃亏.善于发问的人,知识丰富. # # ---- ...
Python自动化【第十篇】：Python进阶-多进程/协程/事件驱动与Select\Poll\Epoll异步IO
本节内容: 多进程协程事件驱动与Select\Poll\Epoll异步IO 1. 多进程启动多个进程进程中启进程父进程与子进程进程间通信不同进程间内存是不共享的,要想实现两个进程间 ...
也说性能测试，顺便说python的多进程+多线程、协程
最近需要一个web系统进行接口性能测试,这里顺便说一下性能测试的步骤吧,大概如下一.分析接口频率根据系统的复杂程度,接口的数量有多有少,应该优先对那些频率高,数据库操作频繁的接口进行性能测试,所以 ...
深入浅析python中的多进程、多线程、协程
深入浅析python中的多进程.多线程.协程我们都知道计算机是由硬件和软件组成的.硬件中的CPU是计算机的核心,它承担计算机的所有任务. 操作系统是运行在硬件之上的软件,是计算机的管理者,它负责资源 ...

随机推荐

Sublime Text 格式化代码快捷键
首选项->按键绑定-用户加入代码: {"keys": ["ctrl+alt+j"], "command": "reinde ...
Oracle起步---创建临时表空间/表空间/创建用户/授权
1. 安装: 百度一下你就知道 2. sqlplus登录/sqlplus命令登录在安装Oracle时,你需要记住设置的“全局数据库名”(默认为orcl) 和口令,在以两种方式登录时: 用户名: s ...
Cocos2d-x 3.3Bate0 ExpandedListView
之前写的ExpandedListView版本号因为版本号升级这里提供Cocos2d-x 3.3Bate0 版本号代码下载:http://download.csdn.net/detail/qqmcy/ ...
Linux下搜索文件find、which、whereis、locate
Linux下搜索文件find.which.whereis.locate: - which 寻找“执行文件” - -a 将所有可找到的命令均列出,而不仅仅列出第一个找到的命令名称 - whereis 寻 ...
[转]C# 获取指定目录下所有文件信息、移动目录、拷贝目录
原文:http://blog.csdn.net/vchao13/article/details/6200255 1.获取指定目录下所有文件信息 /// <summary> /// 返回指定 ...
Sublime text 3 快捷键：
Ctrl+Shift+[ 选中代码,按下快捷键,折叠代码. Ctrl+Shift+] 选中代码,按下快捷键,展开代码. Ctrl+Shift+P:打开命令面板 Ctrl+P:打开搜索框,搜索项目 ...
将json转为 SortedDictionary
#region ConvertJsonToSortedDictionary 将json转为 SortedDictionary /// <summary> // ...
Kubernetes之kubectl常用命令
最近项目有用到Kubernetes作集群配置,所以学习下相关命令,记录下以备下次使用... kubectl help 显示具体的用法 kubectl controls the Kubernetes c ...
JDK源码分析之concurrent包（二） -- 线程池ThreadPoolExecutor
上一篇我们简单描述了Executor框架的结构,本篇正式开始并发包中部分源码的解读. 我们知道,目前主流的商用虚拟机在线程的实现上可能会有所差别.但不管如何实现,在开启和关闭线程时一定会耗费很多CPU ...
test-event-create
# 1 创建存储过程 /* delimiter // create procedure test() begin update test SET name = date_format(now(),'% ...

多线程、多进程、协程、IO多路复用请求百度

多线程、多进程、协程、IO多路复用请求百度的更多相关文章

随机推荐

热门专题