爬虫----异步---高性能爬虫----aiohttp 和asycio 的使用

前情提要:

　　首先膜拜loco大佬

　　　　肯定有人像我一样.不会异步,发一下.

一:性能比对

　　　　多进程,多线程,(这里不建议使用,太消耗性能)

　　　　进程池和线程池 (可以适当的使用)

　　　　单线程+异步协程 (推荐使用)

二:案例演示

　　　　1->1: 普通的啥也不用的

　　　　1->2:

　　　　　　2->1:

　　　　　　使用线程池

　　　　　　2->2:结果

三:异步协程

　　　　1: 协程的参数设定

　　　　　　2:协程的简单使用

　　　　　　3:task的使用

4:future 的使用

回调函数的使用

四:支持异步请求网络的模块: aiohttp

import aiohttp

import asyncio

async def get_page(url):

    async with aiohttp.ClientSession() as session:      #with 前面都要加async

        async with await session.get(url=url) as response:  # 有io阻塞的都要加await 
挂起

            page_text = await response.text() #read()  json()

            print(page_text)

start = time.time()

urls = [

    'http://127.0.0.1:5000/bobo',

    'http://127.0.0.1:5000/jay',

    'http://127.0.0.1:5000/tom',

    'http://127.0.0.1:5000/bobo',

    'http://127.0.0.1:5000/jay',

    'http://127.0.0.1:5000/tom',

    'http://127.0.0.1:5000/bobo',

    'http://127.0.0.1:5000/jay',

    'http://127.0.0.1:5000/tom'

]

tasks = []

loop = asyncio.get_event_loop()

for url in urls:

    c = get_page(url)

    task = asyncio.ensure_future(c)

    tasks.append(task)

loop.run_until_complete(asyncio.wait(tasks))

print('总耗时：',time.time()-start)

爬虫----异步---高性能爬虫----aiohttp 和asycio 的使用的更多相关文章

【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250
在本篇博文当中,将会教会大家如何使用高性能爬虫,快速爬取并解析页面当中的信息.一般情况下,如果我们请求网页的次数太多,每次都要发出一次请求,进行串行执行的话,那么请求将会占用我们大量的时间,这样得不偿 ...
八、asynicio模块以及爬虫应用asynicio模块(高性能爬虫)
asynicio模块以及爬虫应用asynicio模块(高性能爬虫) 一.背景知识爬虫的本质就是一个socket客户端与服务端的通信过程,如果我们有多个url待爬取,只用一个线程且采用串行的方式执行, ...
Python爬虫-01：爬虫的概念及分类
目录 # 1. 为什么要爬虫? 2. 什么是爬虫? 3. 爬虫如何抓取网页数据? # 4. Python爬虫的优势? 5. 学习路线 6. 爬虫的分类 6.1 通用爬虫: 6.2 聚焦爬虫: # 1. ...
放养的小爬虫--京东定向爬虫(AJAX获取价格数据)
放养的小爬虫--京东定向爬虫(AJAX获取价格数据) 笔者声明:只用于学习交流,不用于其他途径.源代码已上传github.githu地址:https://github.com/Erma-Wang/Sp ...
crawler_爬虫_反爬虫策略
关于反爬虫和恶意攻击的一些策略和思路有时网站经常受到恶意spider攻击,疯狂抓取网站内容,对网站性能有较大影响. 下面我说说一些反恶意spider和spam的策略和思路. 1. 通过日志分析来 ...
Java 多线程爬虫及分布式爬虫架构探索
这是 Java 爬虫系列博文的第五篇,在上一篇 Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是 IP 被封及其对应办法.前面几篇文章我们把 ...
Java 多线程爬虫及分布式爬虫架构
这是 Java 爬虫系列博文的第五篇,在上一篇 Java 爬虫服务器被屏蔽,不要慌,咱们换一台服务器中,我们简单的聊反爬虫策略和反反爬虫方法,主要针对的是 IP 被封及其对应办法.前面几篇文章我们把 ...
【Python网络爬虫一】爬虫原理和URL基本构成
1.爬虫定义网络爬虫,即Web Spider,是一个很形象的名字.把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛.网络蜘蛛是通过网页的链接地址来寻找网页的.从网站某一个页面(通常 ...
Python爬虫从入门到放弃（二十二）之爬虫与反爬虫大战
爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念爬虫:自动获取网站数据的程序反爬虫:使用技术手段防止爬虫程序爬取数据误伤:反爬虫技术将普通用 ...

随机推荐

golang使用注意事项
1.可以给类型取别名,但是该类型和别名是两个不同的类型: type myInt int 2.go支持可变参数:args... 0个或多个参数:func sum(args... int) sum int ...
python将url转变成二维码图片
将url数据转变成二维码数据,再将二维码图片转成base64格式返回 import qrcode import io def url_image(self,url): img = qrcode.mak ...
使用HSE配置系统时钟并用MCO输出监测系统时钟
使用模板,在User下新建文件夹RCC 新建bsp_rccclkconfig.h和bsp_rccclkconfig.c 工程和魔术棒添加对照着上节的RCC源文件编写: void HSE_SetSys ...
UPUPW Apache5.5系列本地开发环境配置
UPUPW Apache5.5系列 1. 在官网下载 Apache5.5系列,选择云端下载. 官网地址: http://www.upupw.net/aphp55/n110.html 2. 下载后,将压 ...
Mongo DB分片
分片,指的就是把数据拆分,将其分散到不同机器上的过程.MongoDB支持自动分片,对应用而言,好像始终和一个单机的服务器交互一样. 分片和复制复制是让多台服务器拥有相同的数据副本,而分片是每个分片都拥 ...
Mysql高可用集群环境介绍
MySQL高可用集群环境搭建 01.MySQL高可用环境方案 02.MySQL主从复制原理 03.MySQL主从复制作用 04.在Linux环境上安装MySQL 05.在MySQL集群环境上配置主从复 ...
java01_简介_开发环境
JAVA的前世今生美国SUN(Stanford University Network)公司,在中国大陆的正式中文名为"太阳计算机系统(中国)有限公司",在中国台湾的正式中文名为& ...
SAP Kyma(Extension Factory on SAP Cloud Platform)的架构简介
SAP kyma主要分三大块组成: (1) Application connector simplify and securely connect external systems to Kyma a ...
EditPlus使用技巧
1.p{$$}*10 按ctrl+E 自动填写10行 P标签. $表示数字,$$表示2位数... p{b$}*10 2.cltr +j 复制当前行. 3.自动填充开启. --------锚 ...
Liunx-tail命令
1. 实时刷新tail -f /var/log/messages 2. 实时刷新最新500条log tail -500f /var/log/messages 3. tail -n 20 catali ...

爬虫----异步---高性能爬虫----aiohttp 和asycio 的使用

爬虫----异步---高性能爬虫----aiohttp 和asycio 的使用的更多相关文章

随机推荐

热门专题