scrapy 代理

说明：

本文参照了官网文档，以及stackoverflow的几个问题

概要：

在scrapy中使用代理，有两种使用方式

使用中间件
直接设置Request类的meta参数

方式一：使用中间件

要进行下面两步操作

在文件 settings.py 中激活代理中间件ProxyMiddleware
在文件 middlewares.py 中实现类ProxyMiddleware

1.文件 settings.py 中:

# settings.py

DOWNLOADER_MIDDLEWARES = {

    'project_name.middlewares.ProxyMiddleware': 100,    # 注意修改 project_name

    'scrapy.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,

}

说明：

数字100, 110表示中间件先被调用的次序。数字越小，越先被调用。

官网文档：

The integer values you assign to classes in this setting determine the order in which they run: items go through from lower valued to higher valued classes. It’s customary to define these numbers in the 0-1000 range.

2.文件 middlewares.py 看起来像这样:

代理不断变换

这里利用网上API 直接get过来。（需要一个APIKEY，免费注册一个账号就有了。这个APIKEY是我自己的，不保证一直有效！）
也可以从网上现抓。
还可以从本地文件读取

# middlewares.py

import requests

class ProxyMiddleware(object):

    def process_request(self, request, spider):

        APIKEY = 'f95f08afc952c034cc2ff9c5548d51be'

        url = 'https://www.proxicity.io/api/v1/{}/proxy'.format(APIKEY) # 在线API接口

        r = requests.get(url)

        request.meta['proxy'] = r.json()['curl'] # 协议://IP地址:端口（如 http://5.39.85.100:30059）

        return request

方式二：直接设置Request类的meta参数

import random

# 事先准备的代理池

proxy_pool = ['http://proxy_ip1:port', 'http://proxy_ip2:port', ..., 'http://proxy_ipn:port']

class MySpider(BaseSpider):

    name = "my_spider"

    allowed_domains = ["example.com"]

    start_urls = [

        'http://www.example.com/articals/',

    ]

    def start_requests(self):

        for url in self.start_urls:

            proxy_addr = random.choice(proxy_pool) # 随机选一个

            yield scrapy.Request(url, callback=self.parse, meta={'proxy': proxy_addr}) # 通过meta参数添加代理

    def parse(self, response):

        # doing parse

延伸阅读

1.阅读官网文档对Request类的描述，我们可以发现除了设置proxy，还可以设置method, headers, cookies, encoding等等:

class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0, dont_filter=False, errback])

2.官网文档对Request.meta参数可以设置的详细列表：

dont_redirect
dont_retry
handle_httpstatus_list
handle_httpstatus_all
dont_merge_cookies (see cookies parameter of Request constructor)
cookiejar
dont_cache
redirect_urls
bindaddress
dont_obey_robotstxt
download_timeout
download_maxsize
proxy

如随机设置请求头和代理：

# my_spider.py

import random

# 事先收集准备的代理池

proxy_pool = [

    'http://proxy_ip1:port',

    'http://proxy_ip2:port',

     ...,

    'http://proxy_ipn:port'

]

# 事先收集准备的 headers

headers_pool = [

    {'User-Agent': 'Mozzila 1.0'},

    {'User-Agent': 'Mozzila 2.0'},

    {'User-Agent': 'Mozzila 3.0'},

    {'User-Agent': 'Mozzila 4.0'},

    {'User-Agent': 'Chrome 1.0'},

    {'User-Agent': 'Chrome 2.0'},

    {'User-Agent': 'Chrome 3.0'},

    {'User-Agent': 'Chrome 4.0'},

    {'User-Agent': 'IE 1.0'},

    {'User-Agent': 'IE 2.0'},

    {'User-Agent': 'IE 3.0'},

    {'User-Agent': 'IE 4.0'},

]

class MySpider(BaseSpider):

    name = "my_spider"

    allowed_domains = ["example.com"]

    start_urls = [

        'http://www.example.com/articals/',

    ]

    def start_requests(self):

        for url in self.start_urls:

            headers = random.choice(headers_pool) # 随机选一个headers

            proxy_addr = random.choice(proxy_pool) # 随机选一个代理

            yield scrapy.Request(url, callback=self.parse, headers=headers, meta={'proxy': proxy_addr})

    def parse(self, response):

        # doing parse

scrapy 代理的更多相关文章

scrapy代理的设置
scrapy代理的设置在我的上一篇文章介绍了scrapy下载器中间件的使用,这里的scrapyIP的代理就是用这个原理实现的,重写了下载器中间件的process_request(self,reque ...
Scrapy 代理IP
Scrapy 代理IP 一.Scarpy使用代理IP 1.在setting.py 配置代理服务器IP 2.在middlermares.py 配置 downloadmiddlermare(下载中间件) ...
如何让你的scrapy爬虫不再被ban
前面用scrapy编写爬虫抓取了自己博客的内容并保存成json格式的数据(scrapy爬虫成长日记之创建工程-抽取数据-保存为json格式的数据)和写入数据库(scrapy爬虫成长日记之将抓取内容写入 ...
scrapy设置"请求池"
scrapy设置"请求池" 引言相信大家有时候爬虫发出请求的时候会被ban,返回的是403错误,这个就是请求头的问题,其实在python发出请求时,使用的是默认的自己的请求头,网 ...
12.Scrapy与mongodb交互和设置中间键
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
Python爬虫框架Scrapy实例（四）下载中间件设置
还是豆瓣top250爬虫的例子,添加下载中间件,主要是设置动态Uesr-Agent和代理IP Scrapy代理IP.Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控 ...
Scrapy 分布式数据采集方案
运行环境 CentOS7. + Python2. + Scrapy1. + MongoDB3. + BeautifulSoup4. 编程工具 PyCharm + Robomongo + Xshell ...
爬虫框架Scrapy之Downloader Middlewares
反反爬虫相关机制 Some websites implement certain measures to prevent bots from crawling them, with varying d ...
Scrapy框架之代理和cookie
Cookie 是在 HTTP 协议下,服务器或脚本可以维护客户工作站上信息的一种方式.Cookie 是由 Web 服务器保存在用户浏览器(客户端)上的小文本文件,它可以包含有关用户的信息.无论何时用户 ...

随机推荐

iOS--APP 登录界面图（xuer）
ViewController.h #import "ViewController.h" @interface ViewController () @property(strong, ...
Swift控制流
本文简单的介绍swift一些基本语法的使用,在本文中不会做更深的剖析,只提及一些语法的简单的使用,快速学会编写swift程序.高手请绕路走嘿嘿常量与变量: swift中定义所有的变量使用var,定义 ...
Silverlight项目笔记3:Silverlight RIA Services缓存引发的问题
问题描述:使用Silverlight的RIA Services进行数据库更新操作,重复提交时发现异常,SubmitOperation发生错误,提示实体类冲突,检查发现之前删除的数据竟然还存在(数据库 ...
OC语言-06-OC语言-block与protocol
一.block 1> 基本使用相当于用来存放代码的代码块效率高若没有形参可以省略小括号 2> block与函数的相同点可以保存代码可以有返回值可以有形参调用方式一样 3> ...
Monyer's Game 0~5关过关方法
自从Monyer编写了这个通关小游戏,可谓是好事坏事参半吧! 好事是Monyer认识了许多电脑高手,包括netpatch.luoluo等,连LCX这种骨灰级选手也过来了,可谓是收获不小(所以既然我已经 ...
MYSQL的慢查询两个方法
对于排查问题找出性能瓶颈来说,最容易发现并解决的问题就是MYSQL的慢查询以及没有得用索引的查询. ================================================== ...
Outlook 2013 在邮件里面点击超链接时弹出“组织策略阻止我们为您完成此操作”
现象描叙: 在Outlook在邮件里面点击超链接时,打不开超链接页面,弹出如下提示: 这个是因为之前安装了其它浏览器(例如,我安装了360的浏览器),并且设置为了默认浏览器,后来卸载了该浏览器 ...
Android开发之 Android应用程序目录结构解析
建立的HelloWorld的应用项目,其代码是由ADT插件自动生成的,形成Android项目特有的结构框架. 接下来让我带领大家解析一个Android程序的各个组成部分,这次我们拿一个Hello,Wo ...
Python pass语句作用与用法
Python中的pass语句作用是什么?表示它不做任何事情,一般用做占位语句.pass语句具体作用及使用方法,我们往下看. pass语句在函数中的作用当你在编写一个程序时,执行语句部分思路还没有完成 ...
FZU 1608 Huge Mission(线段树)
Problem 1608 Huge Mission Time Limit: 1000 mSec Memory Limit : 32768 KB Problem Description Oaiei ...