爬虫2.5-scrapy框架-下载中间件
scrapy框架-下载中间件
middlewares.py中有两个类,一个是xxSpiderMiddleware类 一个是xxDownloaderMiddleware类,xx代表项目名,本次笔记主要记录DownloaderMiddleware类的一些知识点
1. process_request(self, request, spider):
这个方法会在请求之前执行,所以可以添加代理pi和随机请求头等
1.1 参数:
reuqest:发送的请求
spider:发送请求的spider对象,即request是哪个爬虫对象发过来的。
1.2 返回值:
1)如果返回的是None:scrapy将把request对象交给下一个中间件
2)如果返回的是response对象,则不会调用任何的process_request方法,而是将response对象直接返回给已激活的process_response()方法
3)返回request对象,不会调用下一个中间件,而是根据返回的request对象返回数据
4)抛出异常,调用process_exception方法。
2. process_response(self, request, response, spider):
2.1 参数:
1)request:之前发送的request请求对象
2)response:返回的数据对象
3)spider:爬虫对象
2.2 返回值:
1)返回response对象,会将这个新的response对象传给其他中间件,最终传给爬虫
2)返回request对象,下载器链被切断,返回的request会重新被下载器调度
3)抛出异常,调用request中的errback方法,没有就抛出异常
3. 设置请求头
专业请求头网站 http://www.useragentstring.com/pages/useragentstring.php?type=Browser
定义xxDownloaderMiddleware类,在写process_request()方法
class xxDownloaderMiddleware(object):
USER_AGENTS = [
'xxxx',
'xxxxx',
'xxxx',
'xxxxxx' # 请求头
]
def process_request(self, request, spider):
user_agent = random.choice(self.USER_AGENTS)
request.headers['user-agent'] = user_agent
然后在settings.py中打开中间件设置
DOWNLOADER_MIDDLEWARES = {
'projectname.middlewares.xxDownloaderMiddleware': 543
}
4. ip代理池
代理服务商:
快递代理、芝麻代理、太阳代理、讯代理、蚂蚁代理
当然是花钱买,免费的不好用
新建一个类
class XXXDownloaderMiddleware(object):
PROXIES = ['IP1','IP2','IP3']
def process_request(self, request, spider):
proxy = random.choice(self.PROXIES)
request.meta('proxy') = proxy
修改settings.py
DOWNLOADER_MIDDLEWARES = {
'project.middlewares.XXXDownloaderMiddleware':542 # 多个中间件的优先级自己设定,1为最高级
}
5. 一个略完善的代理思路
开启两个下载中间件,一个请求头代理,一个ip代理,添加到settings中间
ip代理中间件需要两个函数,
1 process_request(self, request, spider)
2 process_response(self, request, response, spider)
函数1 获取代理ip、端口、过期时间可以调用代理网站给的api获取
函数2 当ip被封,返回的是值是不一样的,所以可以return request对象 重新分配代理ip、端口
伪代码:
def process_request(self, request, spider):
if 'proxy' not in request.meta or 代理即将过期 or 代理被封:
更新代理
更新代理被封标志
request.meta['proxy'] = 代理ip
def process_response(self, request, response, spider):
if response.status != 200 or 验证码页面url特殊标志 in response.url:
代理被封标志
更新代理
return request
return response
因为scrapy框架下各个请求是异步的,所以更新代理的函数需要进行一定的更改,因为每次将一个ip使用到被封才使用下一个ip,所以每个异步请求都应该使用同一个ip,过期或被封之后才更换
def 更新代理:
加锁:
if 代理没有设置好 or 代理即将过期
请求代理ip
6. selenium+chromedriver中间件
这个中间件相当于使用chromedriver访问页面,并将各类ajax数据传回给爬虫进行解析,而scrapy框架负责调度url和数据解析存储。
当页面中ajax数据较多且复杂时,采用这种方式更方便。
~ meddlewares.py
from selenium import webdriver
from scrapy.http.response.html import HtmlResponse
class SeleniumDownloaderMiddleware(object):
def __init__(self):
self.driver = webdriver.Chrome(executable_path=r'D:\chromedriver\chromedriver.exe') # 创建driver
def process_request(self, request, spider):
self.driver.get(request.url) # 打开不同的页面
source = self.driver.page_source
response = HtmlResponse(self.driver.current_url, body=source, request=request, encoding='utf-8') # 传入的参数是按原本response对象需要的参数
return response # 必须返回response对象给爬虫
最后在settings.py中开启这个中间件
DOWNLOADER_MIDDLEWARES = {
'boss.middlewares.SeleniumDownloaderMiddleware': 543,
}
爬虫2.5-scrapy框架-下载中间件的更多相关文章
- 第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
第三百三十一节,web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令 Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --u ...
- 第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码
第三百三十五节,web爬虫讲解2—Scrapy框架爬虫—豆瓣登录与利用打码接口实现自动识别验证码 打码接口文件 # -*- coding: cp936 -*- import sys import os ...
- Scrapy——6 APP抓包—scrapy框架下载图片
Scrapy——6 怎样进行APP抓包 scrapy框架抓取APP豆果美食数据 怎样用scrapy框架下载图片 怎样用scrapy框架去下载斗鱼APP的图片? Scrapy创建下载图片常见那些问题 怎 ...
- Scrapy——5 下载中间件常用函数、scrapy怎么对接selenium、常用的Setting内置设置有哪些
Scrapy——5 下载中间件常用的函数 Scrapy怎样对接selenium 常用的setting内置设置 对接selenium实战 (Downloader Middleware)下载中间件常用函数 ...
- Python爬虫进阶之Scrapy框架安装配置
Python爬虫进阶之Scrapy框架安装配置 初级的爬虫我们利用urllib和urllib2库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架Scrapy,这安装过程也是煞费苦心哪,在此 ...
- UA池 代理IP池 scrapy的下载中间件
# 一些概念 - 在scrapy中如何给所有的请求对象尽可能多的设置不一样的请求载体身份标识 - UA池,process_request(request) - 在scrapy中如何给发生异常的请求设置 ...
- 第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址 有多 ...
- 第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录 模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
- 第三百三十二节,web爬虫讲解2—Scrapy框架爬虫—Scrapy使用
第三百三十二节,web爬虫讲解2—Scrapy框架爬虫—Scrapy使用 xpath表达式 //x 表示向下查找n层指定标签,如://div 表示查找所有div标签 /x 表示向下查找一层指定的标签 ...
随机推荐
- 杂记(那些我还容易混淆的c和c++知识)
1: 定义一个对象时先调用基类的构造函数.然后调用派生类的构造函数:析构的时候恰好相反:先调用派生类的析构函数.然后调用基类的析构函数.2: 多态性具体体现在运行和编译两个方面:在程序运行时的多态性 ...
- Centos 7安装Grafana 4及结合Zabbix3.2实现可视化监控图形
上一篇介绍了如何在Centos 7环境下安装zabbix监控,本章继续介绍在Centos 7环境下安装Grafana,并结合Zabbix实现可视化监控图形! 简介: Grafana 是 Graphit ...
- 理解Web应用程序的代码结构和运行原理(3)
1.理解Web应用程序的运行原理和机制 Web应用程序是基于浏览器/服务器模式(也称B/S架构)的应用程序,它开发完成后,需要部署到Web服务器上才能正常运行,与用户交互的客户端是网页浏览器. 浏览器 ...
- PHP 查找二维数组中是否有指定字符串的字段
Array ( ] => Array ( [content] => 您提交了订单,请等待系统确认 :: [operator] => 客户 ) ] => Array ( [con ...
- celery知多少
Celery 1.什么是Celery Celery是一个简单.灵活且可靠的,处理大量消息的分布式系统 专注于实时处理的异步任务队列 同时也支持任务调度 Celery架构 Celery的架构由三部分组成 ...
- JVM类加载机制概述
首先类加载在整个体系结构的哪一个环节呢?见红色圈住的部分. 类加载器分为那几个过程呢?五个过程 加载 根据类的全限定名(简单理解为类的绝对路径,见附录),找到指定的字节码文件,并在内存中生产一个jav ...
- golang 项目实战简明指南
原文地址 开发环境搭建 golang 的开发环境搭建比较简单,由于是编译型语言,写好 golang 源码后,只需要执行 go build 就能将源码编译成对应平台(本文中默认为 linux)上的可执行 ...
- Altera三速以太网IP核使用(下篇)--- 百兆网接口设计与使用
MAC IP核的主要作用是:实现数据链路层协议,分为TX方向与RX方向,TX方向实现的是在原包文的前面加上7个55和1个D5,RX方向则相反.在使用这个 MAC IP核之前,首先确认下自己使用的网卡是 ...
- DP_最长公共子序列/动规入门
学自:https://open.163.com/movie/2010/12/L/4/M6UTT5U0I_M6V2U1HL4.html 最长公共子序列:(本文先谈如何求出最长公共子序列的长度,求出最长公 ...
- leetcode记录-两数之和
给定一个整数数组和一个目标值,找出数组中和为目标值的两个数. 你可以假设每个输入只对应一种答案,且同样的元素不能被重复利用. 示例: 给定 nums = [2, 7, 11, 15], target ...