scrapy的User-Agent中间件、代理IP中间件、cookies设置、多个爬虫自定义settings设置

在scrapy的反爬中，常用的几个配置，简单总结了下：

User-Agent中间件：

from fake_useragent import UserAgent

class RandomUserAgentMiddleware(object):

    def __init__(self, crawler):

        self.ua = UserAgent()

    def process_request(self, request, spider):

        request.headers.setdefault('User-Agent', self.ua.random)

代理IP中间件：

class RandomProxyMiddleware(object):
    '''
     这只是一个简单的演示
    '''

    def process_request(self, request, spider):

        ip = ''  # 要用到的代理IP

        port = ''  # 要使用的代理port

        request.meta['proxy'] = 'http://{}:{}'.format(ip, port)

cookies设置、多个爬虫共用一个settings时，各自spider中的设置：

class BaiduSpider(scrapy.Spider):

    name = 'baidu'

    allowed_domains = ['baidu.com']

    start_urls = ['https://www.baidu.com']

    # custom_settings可以设置调整settings中的配置参数，以此来适配自己的spider。

    custom_settings = {

        'COOKIES_ENABLED':True,  # 在配置文件settings中可以设置成False, 在这个spider中这样设置就可以开启cookies了，其他的配置一样适用

    }

    def parse(self, response):

        pass

都是很简单实用的配置

验证码：打码平台比较简单、省事、效率

注：每天进步一点点，或记录或不记录，都是自己的。记录是怕遗忘，也是为了更好的想起！

scrapy的User-Agent中间件、代理IP中间件、cookies设置、多个爬虫自定义settings设置的更多相关文章

Scrapy 框架中间件代理IP 提高效率
中间件拦截请求跟响应进行ua(User-Agent ) 伪装代理 IP 中间件位置: 引擎和下载器中间的中间件 ( 下载中间件) 引擎跟 spider 中间的中间件 ( 爬虫中间件)( ...
scrapy爬虫-代理IP中间件
class ProxyDownloaderMiddleware(object): # Not all methods need to be defined. If a method is not de ...
python scrapy 爬取西刺代理ip(一基础篇)（ubuntu环境下） -赖大大
第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrapy框架具体就自行百度了,主要内容不是在这. 第二步:创建scrapy(简单介绍) 1.Creating a p ...
python+scrapy 爬取西刺代理ip(一)
转自:https://www.cnblogs.com/lyc642983907/p/10739577.html 第一步:环境搭建 1.python2 或 python3 2.用pip安装下载scrap ...
Python3网络爬虫(四)：使用User Agent和代理IP隐藏身份《转》
https://blog.csdn.net/c406495762/article/details/60137956 运行平台:Windows Python版本:Python3.x IDE:Sublim ...
Python3网络爬虫（3）：使用User Agent和代理IP隐藏身份
Python版本: python3 IDE: pycharm2017.3.3 一.为何要设置User Agent 有一些网站不喜欢被爬虫访问,所以会检测对象,如果是爬虫程序,他就会不让你访问,通过设置 ...
使用User Agent和代理IP隐藏身份
一.为何要设置User Agent 有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的 ...
Scrapy爬取西刺代理ip流程
西刺代理爬虫 1. 新建项目和爬虫 scrapy startproject daili_ips ...... cd daili_ips/ #爬虫名称和domains scrapy genspider ...
第三百四十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP
第三百四十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP 设置代理ip只需要,自定义一个中间件,重写process_request方法, request ...

随机推荐

mycat重启报错Failed to connect to the Wrapper at port解决方法
报错信息 ERROR | wrapper | 2018/05/11 14:01:55 | Startup failed: Timed out waiting for a signal from the ...
python自动化测试学习笔记-9测试框架
学习了这么久的python,我们已经可以自己搭建一个简单的测试和框架了,先从简单的开始,有时我们编写接口的测试用例会用excel进行编写,以下面的接口测试用例模板为例,进行编写:
区间DP UVA 11584 Partitioning by Palindromes
题目传送门 /* 题意:给一个字符串,划分成尽量少的回文串区间DP:状态转移方程:dp[i] = min (dp[i], dp[j-1] + 1); dp[i] 表示前i个字符划分的最少回文串, 如 ...
C. Coin Troubles 有依赖的背包 + 完全背包变形
http://codeforces.com/problemset/problem/283/C 一开始的时候,看着样例不懂,为什么5 * a1 + a3不行呢?也是17啊原来是,题目要求硬币数目a3 ...
[译]Cookies Without Chocolate Chips
Cookies Without Chocolate Chips In the HTTP sense, a cookie is a name with an associated value. A se ...
LN : leetcode 513 Find Bottom Left Tree Value
lc 513 Find Bottom Left Tree Value 513 Find Bottom Left Tree Value Given a binary tree, find the lef ...
继承static的注意点
继承static的注意点 singleton模式会使用 <?php class Auth { protected static $_instance = null; /** * 单用例入口 * ...
esp8266 SOC方案经过半年沉淀之后再度重启
我发誓这是最后一次玩esp8266,该脱坑了...... 以前看不懂的教程 http://club.gizwits.com/thread-6447-1-1.html 2018教程 http://clu ...
计算机二级C语言冲刺笔记。
2018-03-0618:32:26 风萧萧兮易水寒,壮士一去...... 四级依旧没过,计算机二级接踵而至, default语句在switch语句中可以省略,所以B错误:switch语句中并非每个c ...
Android Bitmap转换WebP图片导致损坏的分析及解决方案
背景作为移动领域所力推的图片格式,WebP图片在商业领域证明了其应有的价值.基于其他格式的横向对比,其在压缩性能表现,及还原度极为优秀,节省大量的带宽开销.基于可观的效益比,团队早前已开始磋商将当前 ...

scrapy的User-Agent中间件、代理IP中间件、cookies设置、多个爬虫自定义settings设置

scrapy的User-Agent中间件、代理IP中间件、cookies设置、多个爬虫自定义settings设置的更多相关文章

随机推荐

热门专题