多任务异步协程asyncio

特殊函数:

	- 就是async关键字修饰的一个函数的定义

	- 特殊之处：

        - 特殊函数被调用后会返回一个协程对象

        - 特殊函数调用后内部的程序语句没有被立即执行

- 协程

    - 对象。协程==特殊的函数。协程表示的就是一组特定的操作。

- 任务对象

    - 高级的协程（对协程的进一步的封装）

        - 任务对象==协程==特殊的函数

            - 任务对象==特殊的函数

    - 绑定回调：

        - task.add_done_callback(task)

            - 参数task：当前回调函数对应的任务对象

            - task.result():返回的就是任务对象对应的特殊函数的返回值

- 事件循环对象

    - 创建事件循环对象

    - 将任务对象注册到该对象中并且开启该对象

    - 作用：loop可以将其内部注册的所有的任务对象进行异步执行

- 挂起：就是交出cpu的使用权。

await:被用做在特殊函数的内部,在被阻塞的时候

wait:给每一个任务赋予一个可被挂起的权限

#【重点】在特殊函数内部的实现中，不可以出现不支持异步的模块(例如time,requests)代码，如果出现了，则会中断整个的异步效果！！！

asyncio的使用

import asyncio

import time

from time import sleep

# 特殊函数

async def get_request(url):

    print('正在下载: ',url)

    sleep(2)

    print('下载完毕: ',url)

    return 'page_text'

# 回调函数,普通函数

def parse(task):

    # 参数表示任务对象

    print('i am callback',task.result())

start = time.time()

# 调用特殊函数

func = get_request('www.xx.com')

# 创建任务对象

task = asyncio.ensure_future(func)

# 给任务对象绑定回调函数

task.add_done_callback(parse)

# 创建一个事件循环对象

loop = asyncio.get_event_loop()

# 让loop执行一个任务

loop.run_until_complete(task)

print("总耗时:",time.time()-start) #总耗时: 2.0017831325531006

多任务协程

import asyncio

import time

# 特殊函数

async def get_request(url):

    print('正在下载',url)

    # time.sleep(2) 不支持异步的模块 会中断整个的异步效果

    await asyncio.sleep(2)

    print('下载完成',url)

    return 'page_text'

def parse(task):

    print(task.result())

start = time.time()

urls = ['www.xxx1.com','www.xxx2.com','www.xxx3.com']

tasks = []  #存放多任务

for url in urls:

    # 调用特殊函数

    func = get_request(url)

    # 创建任务对象

    task = asyncio.ensure_future(func)

    # 给任务对象绑定回调函数

    task.add_done_callback(parse)

    tasks.append(task)

# 创建事件循环对象

loop = asyncio.get_event_loop()

# 执行任务

loop.run_until_complete(asyncio.wait(tasks))

print('总耗时:',time.time()-start) #2.0015313625335693

aiohttp的使用

- requests一定是不支持异步

- aiohttp是一个支持异步的网络请求模块

    - 环境安装

    - 编码流程：

        - 大致的架构:

             with aiohttp.ClientSession() as s:

                #s.get(url,headers,params,proxy="http://ip:port")

                with s.get(url) as response:

                    #response.read()二进制（.content）

                    page_text = response.text()

                    return page_text

    - 补充细节

         - 在每一个with前加上async

         - 需要在每一个阻塞操作前加上await

                async with aiohttp.ClientSession() as s:

                    #s.get(url,headers,params,proxy="http://ip:port")

                    async with await s.get(url) as response:

                        #response.read()二进制（.content）

                        page_text = await response.text()

                        return page_text

异步协程爬虫案例

# 需求用多任务异步协程获取百度,搜狗,京东,淘宝的页面源码数据,并简单解析

import asyncio

import requests

import time

from lxml import etree

urls = ['https://www.baidu.com','http://www.taobao.com/','http://www.jd.com/','https://www.sogou.com/']

headers={

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

}

# 特殊函数

async def get_request(url):

    print('正在下载',url)

    page_text = requests.get(url,headers=headers).text

    print(url,'下载完成')

    return page_text

# 回调函数

def parse(task):

    page_text = task.result()

    tree = etree.HTML(page_text)

    div = tree.xpath('//div')

    print(div)

start = time.time()

tasks = []#存放多任务

for url in urls:

    func = get_request(url)

    task = asyncio.ensure_future(func)

    task.add_done_callback(parse)

    tasks.append(task)

# 创建事件要在循环外

loop = asyncio.get_event_loop()

loop.run_until_complete(asyncio.wait(tasks))

print('总耗时:',time.time()-start)

#根据结果发现执行并不是异步,原因是requests不是异步模块,所以整个程序不会异步执行

基于aiohttp的多任务协程的爬虫

# 需求用多任务异步协程获取百度,搜狗,京东,淘宝的页面源码数据,并简答解析

import asyncio

import requests

import time

import aiohttp

from lxml import etree

urls = ['https://www.baidu.com','http://www.taobao.com/','http://www.jd.com/','https://www.sogou.com/']

headers={

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'

}

# 特殊函数

async def get_request(url):

    async with aiohttp.ClientSession() as s:

        # s.get(url,headers,params,proxy="http://ip:port")

        async with await s.get(url,headers=headers) as response:

            print('正在下载', url)

            # response.read()二进制（.content）

            page_text = await response.text()

            print(url, '下载完成')

            return page_text

# 回调函数

def parse(task):

    page_text = task.result()

    tree = etree.HTML(page_text)

    div = tree.xpath('//div')

    print(div)

start = time.time()

tasks = []#存放多任务

for url in urls:

    func = get_request(url)

    task = asyncio.ensure_future(func)

    task.add_done_callback(parse)

    tasks.append(task)

# 创建事件要在循环外

loop = asyncio.get_event_loop()

loop.run_until_complete(asyncio.wait(tasks))

print('总耗时:',time.time()-start) #总耗时: 3.0848371982574463

python爬虫--多任务异步协程, 快点,在快点......的更多相关文章

Python爬虫进阶 | 异步协程
一.背景之前爬虫使用的是requests+多线程/多进程,后来随着前几天的深入了解,才发现,对于爬虫来说,真正的瓶颈并不是CPU的处理速度,而是对于网页抓取时候的往返时间,因为如果采用request ...
小爬爬4.协程基本用法&&多任务异步协程爬虫示例(大数据量)
1.测试学习 (2)单线程: from time import sleep import time def request(url): print('正在请求:',url) sleep() print ...
python tornado TCPserver异步协程实例
项目所用知识点 tornado socket tcpserver 协程异步 tornado tcpserver源码抛析在tornado的tcpserver文件中,实现了TCPServer这个类,他 ...
Python 简易的异步协程使用方法
代码 import asyncio async def ex(id, n): print(id+" start") await asyncio.sleep(n/2) print(i ...
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用
python爬虫---单线程+多任务的异步协程,selenium爬虫模块的使用一丶单线程+多任务的异步协程特殊函数 # 如果一个函数的定义被async修饰后,则该函数就是一个特殊的函数 async ...
asyncio模块实现单线程-多任务的异步协程
本篇介绍基于asyncio模块,实现单线程-多任务的异步协程基本概念协程函数协程函数: 定义形式为 async def 的函数; aysnc 在Python3.5+版本新增了aysnc和awai ...
爬虫必知必会（4）_异步协程-selenium_模拟登陆
一.单线程+多任务异步协程(推荐) 协程:对象.可以把协程当做是一个特殊的函数.如果一个函数的定义被async关键字所修饰.该特殊的函数被调用后函数内部的程序语句不会被立即执行,而是会返回一个协程对象 ...
Python中异步协程的使用方法介绍
1. 前言在执行一些 IO 密集型任务的时候,程序常常会因为等待 IO 而阻塞.比如在网络爬虫中,如果我们使用 requests 库来进行请求的话,如果网站响应速度过慢,程序一直在等待网站响应,最后 ...
【Python3爬虫】使用异步协程编写爬虫
一.基本概念进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动.进程是操作系统动态执行的基本单元. 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源.线程 ...

随机推荐

SpringBoot 配置文件与依赖库分离打包配置
一.应用场景一般情况下我们对springboot应用打包时使用springboot的maven插件spring-boot-maven-plugin的maven进行打包,打包完成得到一个fatjar, ...
leetcode-242 判断两个字符串是不是 Anagram ？
题目描述假设给定两个字符串 s 和 t, 让我们写出一个方法来判断这两个字符串是否是字母异位词? 字母异位词就是,两个字符串中含有字母的个数和数量都一样,比如: Example 1: Input: ...
如何编译和使用自定义Qt动态链接库 | how to build and use user-defined qt library
本文首发于个人博客https://kezunlin.me/post/cf628dd8/,欢迎阅读! guide to build qt library and use in another proje ...
2019-9-27：渗透测试，metasploit-framework初接触
初次利用metasploit漏洞利用框架,入侵获取win7获取权限目标机系统:windows7,无修复补丁目标ip地址:192.168.20.131 任务:利用ms17-010,永恒之蓝漏洞,获取 ...
ehcache同步原理
最近研究ehcache同步时发现一个问题: 现有A.B两个服务器,由A服务器向B服务器同步信息,采用RMI方式手动方式进行同步配置信息如下: <?xml version="1.0&q ...
Java基础面试题及答案（四）
反射 57. 什么是反射? 反射主要是指程序可以访问.检测和修改它本身状态或行为的一种能力 Java反射: 在Java运行时环境中,对于任意一个类,能否知道这个类有哪些属性和方法?对于任意一个对象,能 ...
【Java并发系列】----JUC之Lock
显式锁 Lock 在Java 5.0之前,协调共享对象的访问时可以使用的机制只有synchronized和volatile.Java 5.0后增加了一些新的机制,但并不是一种替代内置锁的方法,而是当内 ...
mac 终端高亮显示~
针对terminal采用bash模式: 编辑 ~/.bash_profile, 加入以下代码: export CLICOLOR=1 export LSCOLORS=gxfxaxdxcxegedabag ...
使用IDEA2017.3.5搭建SSM框架
转载自博客园,附上原文地址https://www.cnblogs.com/hackyo/p/6646051.html?utm_source=itdadao&utm_medium=referra ...
WebGL简易教程——目录
目录 1. 绪论 2. 目录 3. 资源 1. 绪论最近研究WebGL,看了<WebGL编程指南>这本书,结合自己的专业知识写的一系列教程.之前在看OpenGL/WebGL的时候总是感觉 ...

python爬虫--多任务异步协程, 快点,在快点......

多任务异步协程asyncio

asyncio的使用

多任务协程

aiohttp的使用

异步协程爬虫案例

基于aiohttp的多任务协程的爬虫

python爬虫--多任务异步协程, 快点,在快点......的更多相关文章

随机推荐

热门专题