scrapy设置代理的方法

方法一：

直接在spider文件下设置代理，通过传参的方式设置在Request中

import scrapy

class MimvpSpider(scrapy.spiders.Spider):

    name = "mimvp"

    allowed_domains = ["mimvp.com"]

    start_urls = [

        "http://proxy.mimvp.com/exist.php",

        "https://proxy.mimvp.com/exist.php",

    ]

    ## 代理设置方式1：直接在代理里设置

    def start_requests(self):

        urls = [

            "http://proxy.mimvp.com/exist.php",

            "https://proxy.mimvp.com/exist.php",

        ]

        for url in urls:

            meta_proxy = ""

            if url.startswith("http://"):

                meta_proxy = "http://180.96.27.12:88"           # http代理

            elif url.startswith("https://"):

                meta_proxy = "http://109.108.87.136:53281"      # https代理

            yield scrapy.Request(url=url, callback=self.parse, meta={'proxy': meta_proxy})

    def parse(self, response):

        mimvp_url = response.url                    # 爬取时请求的url

        body = response.body                        # 返回网页内容

        print("mimvp_url : " + str(mimvp_url))

        print("body : " + str(body))

方法二：

利用中间件middlewares.py+settings配置

middlewares.py

## 代理设置方式2： 通过 middlewares.py + settings.py 配置文件设置

## mimvp custom by yourself

class ProxyMiddleware(object):

    def process_request(self,request,spider):

        if request.url.startswith("http://"):

            request.meta['proxy']="http://180.96.27.12:88"          # http代理

        elif request.url.startswith("https://"):

            request.meta['proxy']="http://109.108.87.136:53281"         # https代理

#         # proxy authentication

#         proxy_user_pass = "USERNAME:PASSWORD"

#         encoded_user_pass = base64.encodestring(proxy_user_pass)

#         request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

settings.py

# Enable or disable downloader middlewares

# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

# 优先级越小越先执行

DOWNLOADER_MIDDLEWARES = {

    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,

    'mimvp_proxy_python_scrapy.middlewares.ProxyMiddleware': 100,

}

scrapy设置代理的方法的更多相关文章

[转] Ubuntu的apt-get 设置代理的方法
点击阅读原文新立得软件管理器这种图形化的代理设置很明了,这里介绍下终端命令行的网络代理设置,这样大家就可以通过代理进行apt-get了. 方法一: 如果只是想临时使用http代理,可以在使用apt- ...
Ubuntu设置代理的方法
用过Linux的都知道,众多的PROXY配置,让人应接不暇,本文列出常见的一些PROXY的配置 1.apt-get proxy 的配置sudo gedit /etc/apt/apt.conf NOTE ...
selenium phantomjs 设置代理ip方法
最近遇到phantomjs动态更换ip的功能,在知乎上看到一篇不错的文章,顺手记下来以备后用 phantomjs selenium 如何动态修改代理? 可以这样做(Python代码): # 不使用代理 ...
scrapy设置代理
在爬取网站内容的时候,最常遇到的问题是:网站对IP有限制,会有防抓取功能,最好的办法就是IP轮换抓取(加代理) 下面来说一下Scrapy如何配置代理,进行抓取 1.在Scrapy工程下新建“middl ...
为YUM设置代理的方法
http://momo-fedora.blog.163.com/blog/static/1161345982009329611312/
网络爬虫之scrapy框架设置代理
前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程. 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的. 环境变量是以一 ...
C# 为WebBrowser设置代理,打开网页
WebBrowser控件是基于IE浏览器的,所以它的内核功能是依赖于IE的,相信做.NET的人都知道. 今天的主题,和上一篇文章应该是差不多的,都是通过代理来实现功能的. 请看下面的代码: //1.定 ...
使用Chrome浏览器设置XX-net的方法
以下介绍使用Chrome浏览器设置XX-net的方法 1.下载并安装谷歌浏览器. 2.打开https://github.com/XX-net/XX-Net/blob/master/code/d ...
C# WebBrowser设置代理
WebBrowser控件是基于IE浏览器的,所以它的内核功能是依赖于IE. code: class IEProxy { //设置代理选项 private const int INTERNET_OPTI ...

随机推荐

区分命令行模式和Python交互模式
命令行模式在Windows开始菜单选择"命令提示符",就进入到命令行模式,它的提示符类似C:\> Python交互模式在命令行模式下敲命令python,就看到类似如下的一 ...
十八、Hadoop学记笔记————Hbase架构
Hbase结构图: Client,Zookeeper,Hmaster和HRegionServer相互交互协调,各个组件作用如下: 这几个组件在实际使用过程中操作如下所示: Region定位,先读取zo ...
VMware12下CentOS 7安装教程
CentOS 7 DVD安装光盘(百度搜索CentOS即可找到官方主页):VMware Workstation 12 Pro及以上软件: 启动VMware Workstation 12 Pro程序,在 ...
面试时怎样回答：你对原生ajax的理解
很多人跟我一样用习惯了jq封装好的$.ajax,但是面试时,原生ajax是很多面试官喜欢问的问题,今天再查资料,打算好好整理一下自己理解的原生ajax. 首先,jq的ajax:一般我常用的参数就是这些 ...
SDOI2017 BZOJ 4820 硬币游戏解题报告
写在前面此题网上存在大量题解,但本人太菜了,看了不下10篇均未看懂,只好自己冷静分析了.本文将严格详细地论述算法(避免一切意会和玄学),因此可能会比其它题解更加理论化一些,希望能对像我一样看了其它题 ...
BZOJ_1717_[Usaco2006 Dec]Milk Patterns 产奶的模式_后缀数组
BZOJ_1717_[Usaco2006 Dec]Milk Patterns 产奶的模式_后缀数组 Description 农夫John发现他的奶牛产奶的质量一直在变动.经过细致的调查,他发现:虽然他 ...
BZOJ_1014_[JSOI2008]火星人prefix_splay+hash
BZOJ_1014_[JSOI2008]火星人prefix_splay+hash 题意:火星人最近研究了一种操作:求一个字串两个后缀的公共前缀.比方说,有这样一个字符串:madamimadam, 我们 ...
CentOS7 安装Redis Cluster集群
上一篇中已经讲到了如何安装单击版Redis,这一篇我们来说下如何安装Cluster,关于哨兵模式这里我就不写文章安装了,有兴趣的同学可以自己去研究,哨兵模式可以在主从模式下在创建三台机器的哨兵集群监控 ...
Python3 ——斐波那契数列（经典）
刚刚学习了斐波那契数列,整理一下思路,写个博文给未来的学弟学妹参考一下,希望能够帮助到他们永远爱你们的 ----新宝宝经历过简单的学习之后,写出一个比较简单的代码,斐波那契数列:具体程序如下: ...
MySQL 上手教程
安装通过官网选择版本下载安装.Mac 上可通过 Homebrew 方便地安装: $ brew install mysql 检查安装是否成功: $ mysql --version mysql Ver ...

scrapy设置代理的方法

scrapy设置代理的方法的更多相关文章

随机推荐

热门专题