python3异步爬虫 ——aiohttp模板使用

一.简单使用和讲解

import aiohttp

import asyncio

async def fetch(client):

    async with client.get('http://httpbin.org/get') as resp:

        assert resp.status == 200

        return await resp.text()

async def main():

    async with aiohttp.ClientSession() as client:

        html = await fetch(client)

        print(html)

loop = asyncio.get_event_loop()     #返回一个事件循环对象，是asyncio.Baseeventloop的实例

for i in range(30):

    task = loop.create_task(main())     #添加任务

loop.run_until_complete(main())    #运行直至main()运行完

二.asyncio模块(事件相关)

Column	Column
Asyncio.get_event_loop()	返回一个事件循环对象，是asyncio.Baseeventloop的实例
Abstracteventloop.stop()	停止运行事件循环
Abstracteventloop.run_forever()	一直运行直到stop()
Abstracteventloop.run_until_complete(func())	运行直至func对象运行完
Abstracteventloop.close()	关闭事件循环
Abstracteventloop.is_running()	返回事件循环的是否运行
Abstracteventloop.create_task(func())	添加事件

三.asyncio模块回调(部分代码)

loop = asyncio.get_event_loop()     #返回一个事件循环对象，是asyncio.Baseeventloop的实例

task = loop.create_task(main())

task.add_done_callback(callback)   #上面的mian方法的返回值为下面callback方法名所用方法的入参

四.aiohttp请求相关

1.发起请求

import aiohttp

import asyncio

async def request_get(url):

    async with aiohttp.ClientSession() as client:  # 创建

        async with client.get(url) as resp:

            assert resp.status == 200  # 如果状态码是200才往下走,不然抛异常

            print( await resp.text())

loop = asyncio.get_event_loop()

loop.run_until_complete(request_get("http://httpbin.org/get"))

2.添加请求头,params,cookies,代理

和reuqest模块类似直接加就可以了

#设置代理

 session.get("http://python.org",proxy="http://some.proxy.com")

3.自定义域名解析地址

#我们可以指定域名服务器的 IP 对我们提供的get或post的url进行解析

from aiohttp.resolver import AsyncResolver

resolver = AsyncResolver(nameservers=["8.8.8.8", "8.8.4.4"])

conn = aiohttp.TCPConnector(resolver=resolver)

4.控制同时连接的数量（连接池）

async def func1():

 cookies = {'my_cookie': "my_value"}

 conn = aiohttp.TCPConnector(limit=2)　　#默认100，0表示无限

 async with aiohttp.ClientSession(cookies=cookies,connector=conn) as session:

    pass

五.aiohttp响应相关

1.获取网站的响应状态码

resp.status

2.获取网站的请求头

resp.headers 来查看响应头，得到的值类型是一个dict

resp.raw_headers　　查看原生的响应头，字节类型

resp.history　     查看重定向的响应头

3.获取网站的响应内容

使用text()方法

使用json()方法  json格式

使用read()方法，不进行编码，为字节形式

r.content.read(10)  获取二进制流前10

注意：text(),read()方法是把整个响应体读入内存，如果你是获取大量的数据，请考虑使用”字节流“（StreamResponse）

python3异步爬虫 ——aiohttp模板使用的更多相关文章

python 基于aiohttp的异步爬虫实战
钢铁知识库,一个学习python爬虫.数据分析的知识库.人生苦短,快用python. 之前我们使用requests库爬取某个站点的时候,每发出一个请求,程序必须等待网站返回响应才能接着运行,而在整个爬 ...
利用aiohttp制作异步爬虫
asyncio可以实现单线程并发IO操作,是Python中常用的异步处理模块.关于asyncio模块的介绍,笔者会在后续的文章中加以介绍,本文将会讲述一个基于asyncio实现的HTTP框架--a ...
Python3 网络爬虫（请求库的安装）
Python3 网络爬虫(请求库的安装) 爬虫可以简单分为几步:抓取页面,分析页面和存储数据在页面爬取的过程中我们需要模拟浏览器向服务器发送请求,所以需要用到一些python库来实现HTTP的请求操 ...
深入理解协程（四）：async/await异步爬虫实战
本文目录: 同步方式爬取博客标题 async/await异步爬取博客标题本片为深入理解协程系列文章的补充. 你将会在从本文中了解到:async/await如何运用的实际的爬虫中. 案例从CSDN上 ...
Python实现基于协程的异步爬虫
一.课程介绍 1. 课程来源本课程核心部分来自<500 lines or less>项目,作者是来自 MongoDB 的工程师 A. Jesse Jiryu Davis 与 Python ...
Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载提取码:d03u 内容简介本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
自定义异步爬虫架构 - AsyncSpider
作者:张亚飞山西医科大学在读研究生 1. 并发编程 Python中实现并发编程的三种方案:多线程.多进程和异步I/O.并发编程的好处在于可以提升程序的执行效率以及改善用户体验:坏处在于并发的程序不容 ...
python异步爬虫
本文主要包括以下内容线程池实现并发爬虫回调方法实现异步爬虫协程技术的介绍一个基于协程的异步编程模型协程实现异步爬虫线程池.回调.协程我们希望通过并发执行来加快爬虫抓取页面的速度.一般的实 ...
[python]新手写爬虫v2.5（使用代理的异步爬虫）
开始开篇:爬代理ip v2.0(未完待续),实现了获取代理ips,并把这些代理持久化(存在本地).同时使用的是tornado的HTTPClient的库爬取内容. 中篇:开篇主要是获取代理ip:中篇打 ...

随机推荐

Java基础一篇过（八）常见异常速查
一.引言开发过程中可能会遇到各种各样的异常,这里还是汇总一些比较典型的异常,有些比较直观的异常如空指针这种就不写了,此文可作为异常速查用. 二.异常大军正在来袭~ IllegalArgumentEx ...
linux学习（十一）linux安装nginx
一.前言由于本地练手的小demo用的是vue+spring boot来玩的,所以部署的时候想着用Nginx来实现反向代理[即请求转发,解决前后端分离的跨域请求问题],既然要用,那么首先得在服务器上面 ...
你想要的Java资料这里都有！！！
你想要的Java资料这里都有!!! [复制链接] 1.资源标题:程序员的SQL金典(完整) 资源地址:http://down.51cto.com/data/2207566 2.资源标题: ...
工具请求接口参数为string类型的JSON字符串时需要加转义字符模拟测试
例如postMan传String类型的json字符串请后台接口时,需要\转义
Python练习题 035：Project Euler 007：第10001个素数
本题来自 Project Euler 第7题:https://projecteuler.net/problem=7 # Project Euler: Problem 7: 10001st prime ...
详解Class加载过程
1.Class文件内容格式 2.一个class文件是被加载到内存的过程是怎样的? loading 把一个class文件装到内存里,class文件是一个二进制,一个个的字节 linking Verifi ...
sqlserver 分列
sql server 数据库中某张表(Person)的数据信息是: ID Address 1 平山花园-4单元-12幢-203 2 香山花园-3单元-22幢-304 现在有需求是,将地址信息显示形式改 ...
6-kubernetes网络
1.service存在的意义防止破的失联(服务发现) 定义一组pod的访问策略(提供负载均衡) 2.pod与service的关系通过label-selector相关联通过service实现pod ...
多测师讲解接口 _需求文档（用户增删改查）_高级讲师肖sir
首先连接Duoceshi_new网络密码为Duoceshi_new,因为接口项目部署在Duoceshi_new网段中. 测试工具:postman域名:http://192.168.1.2:8081/ ...
Markdown语法及使用方法完整手册
欢迎使用 Markdown在线编辑器 MdEditor Markdown是一种轻量级的「标记语言」 Markdown是一种可以使用普通文本编辑器编写的标记语言,通过简单的标记语法,它可以使普通文本内容 ...

python3异步爬虫 ——aiohttp模板使用

一.简单使用和讲解

二.asyncio模块(事件相关)

三.asyncio模块回调(部分代码)

四.aiohttp请求相关

1.发起请求

2.添加请求头,params,cookies,代理

3.自定义域名解析地址

五.aiohttp响应相关

1.获取网站的响应状态码

2.获取网站的请求头

3.获取网站的响应内容

python3异步爬虫 ——aiohttp模板使用的更多相关文章

随机推荐

热门专题