scrapy 下载器中间件随机切换user-agent

下载器中间件如下列表

['scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware',

'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',

'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',

'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',

'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',

'scrapy.downloadermiddlewares.retry.RetryMiddleware',

'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',

'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',

'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',

'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',

'scrapy.downloadermiddlewares.stats.DownloaderStats']

下载器中间件的四个函数

from_crawler(cls,crawler) 配置函数

process_reuquest 处理请求

process_response 处理响应

process_exception 异常出现时触发

随机切换user_agent

from faker import Faker

class MySpiderMiddleware(object):

    def __init__(self):

        self.fake = Faker()

    def process_request(self,request,spider):

        request.headers.setdefault('User-Agent',self.fake.user_agent())

DOWNLOADER_MIDDLEWARES = {
   #'middle.middlewares.MyCustomDownloaderMiddleware': 543,
   'middle.middlewares.MySpiderMiddleware': 100,
   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

第一种方式 在setting 配置里面配置，我也没测试过，到底是一直是随机取其中一个还是每次请求都随机一个

USER_AGENT_LIST=[

'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36'

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",

    "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",

    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",

    "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",

    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",

    "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"

]

USER_AGENT = random.choice(USER_AGENT_LIST)

第二种方式写一个自己的randomUseragent中间件并且在setting里面启用，但是要修改顺序靠前，比如100 或者直接把默认启用的user_agent 设置为None

第三种方式直接继承默认的userAgent中间件，然后改写方法

中间件可以用faker来实现或者自己招个列表也可以

def process_request(self,request,spider):

        request.headers.setdefault('User-Agent',self.fake.user_agent())

scrapy 下载器中间件随机切换user-agent的更多相关文章

Scrapy下载器中间件用法示例
1.爬虫文件httpbin.py # -*- coding: utf-8 -*- import scrapy class HttpbinSpider(scrapy.Spider): name = 'h ...
Scrapy下载器中间件实现随机请求头和代理ip
一.设置随机请求头 class UAMiddleWare(object): UA_LIST = [ 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; ...
scrapy-下载器中间件随机切换user_agent
from faker import Faker class MySpiderMiddleware(object): def __init__(self): self.fake = Faker() de ...
Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
scrapy中的下载器中间件
scrapy中的下载器中间件下载中间件下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和response的一个轻量.底层 ...
Scrapy入门到放弃04：下载器中间件，让爬虫更完美
前言 MiddleWare,顾名思义,中间件.主要处理请求(例如添加代理IP.添加请求头等)和处理响应本篇文章主要讲述下载器中间件的概念,以及如何使用中间件和自定义中间件. MiddleWare分类 ...
scrapy基础知识之随机切换fake-useragent 库的使用：
pip install fake-useragent from fake_useragent import UserAgent ua = UserAgent() middlewares.py from ...
爬虫（十四）：scrapy下载中间件
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...
Python爬虫从入门到放弃（二十三）之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换
总架构理解Middleware 通过scrapy官网最新的架构图来理解: 这个图较之前的图顺序更加清晰,从图中我们可以看出,在spiders和ENGINE提及ENGINE和DOWNLOADER之间都可 ...

随机推荐

wordpress 获取指定作者的所有 post meta
$args = array( 'post_type' => array( 'post','knowledgebase'), 'post_status' => 'publish', 'aut ...
008-linux shell vim使用
一.概述 vi: Visual Interface 可视化接口 vim: VI iMproved VI增强版全屏编辑器,模式化编辑器 vim模式: 编辑模式(命令模式) 输入模式末行模式模式转换 ...
cheerio 服务器端的jquery
cheerio https://cheerio.js.org/ Fast, flexible, and lean implementation of core jQuery designed spec ...
Linux（CentOS）安装JDK1.8
1.JDK的RPM包安装方式: https://www.cnblogs.com/hunttown/p/5450463.html 2.JDK的tar包安装方式: 首先,从SUN公司网站下载最新的JDK ...
Docker守护式容器
1.什么是守护式容器能够长期运行没有交互式会话适合运行应用程序和服务 2.以守护形式运行容器运行交互式容器时以Ctrl+P Ctrl+Q 来退出容器,此时容器还在后台继续运行,我们可以通过do ...
LeetCode_448. Find All Numbers Disappeared in an Array
448. Find All Numbers Disappeared in an Array Easy Given an array of integers where 1 ≤ a[i] ≤ n (n ...
Spring、SpringMVC、Spring Boot、Spring Cloud 概念、关系及区别
注:此文章转载于其他大神一.正面解读: Spring主要是基于IOC反转Beans管理Bean类,主要依存于SSH框架(Struts+Spring+Hibernate)这个MVC框架,所以定位很明确 ...
BottomTabNavigator 顶部导航的显示隐藏
const TabNavigator = createBottomTabNavigator({ ...模块, ...模块, },{ navigationOptions:{ header:null }
[LeetCode] 769. Max Chunks To Make Sorted 可排序的最大块数
Given an array arr that is a permutation of [0, 1, ..., arr.length - 1], we split the array into som ...
FLINK-11738
caused by: akka.pattern.asktimeoutexception: ask timed out on flink Caused by: akka.pattern.AskTimeo ...

scrapy 下载器中间件 随机切换user-agent

scrapy 下载器中间件 随机切换user-agent的更多相关文章

随机推荐

热门专题

scrapy 下载器中间件随机切换user-agent

scrapy 下载器中间件随机切换user-agent的更多相关文章