scrapy设置代理的方法

方法一：

直接在spider文件下设置代理，通过传参的方式设置在Request中

import scrapy

class MimvpSpider(scrapy.spiders.Spider):

    name = "mimvp"

    allowed_domains = ["mimvp.com"]

    start_urls = [

        "http://proxy.mimvp.com/exist.php",

        "https://proxy.mimvp.com/exist.php",

    ]

    ## 代理设置方式1：直接在代理里设置

    def start_requests(self):

        urls = [

            "http://proxy.mimvp.com/exist.php",

            "https://proxy.mimvp.com/exist.php",

        ]

        for url in urls:

            meta_proxy = ""

            if url.startswith("http://"):

                meta_proxy = "http://180.96.27.12:88"           # http代理

            elif url.startswith("https://"):

                meta_proxy = "http://109.108.87.136:53281"      # https代理

            yield scrapy.Request(url=url, callback=self.parse, meta={'proxy': meta_proxy})

    def parse(self, response):

        mimvp_url = response.url                    # 爬取时请求的url

        body = response.body                        # 返回网页内容

        print("mimvp_url : " + str(mimvp_url))

        print("body : " + str(body))

方法二：

利用中间件middlewares.py+settings配置

middlewares.py

## 代理设置方式2： 通过 middlewares.py + settings.py 配置文件设置

## mimvp custom by yourself

class ProxyMiddleware(object):

    def process_request(self,request,spider):

        if request.url.startswith("http://"):

            request.meta['proxy']="http://180.96.27.12:88"          # http代理

        elif request.url.startswith("https://"):

            request.meta['proxy']="http://109.108.87.136:53281"         # https代理

#         # proxy authentication

#         proxy_user_pass = "USERNAME:PASSWORD"

#         encoded_user_pass = base64.encodestring(proxy_user_pass)

#         request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

settings.py

# Enable or disable downloader middlewares

# See http://scrapy.readthedocs.org/en/latest/topics/downloader-middleware.html

# 优先级越小越先执行

DOWNLOADER_MIDDLEWARES = {

    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,

    'mimvp_proxy_python_scrapy.middlewares.ProxyMiddleware': 100,

}

scrapy设置代理的方法的更多相关文章

[转] Ubuntu的apt-get 设置代理的方法
点击阅读原文新立得软件管理器这种图形化的代理设置很明了,这里介绍下终端命令行的网络代理设置,这样大家就可以通过代理进行apt-get了. 方法一: 如果只是想临时使用http代理,可以在使用apt- ...
Ubuntu设置代理的方法
用过Linux的都知道,众多的PROXY配置,让人应接不暇,本文列出常见的一些PROXY的配置 1.apt-get proxy 的配置sudo gedit /etc/apt/apt.conf NOTE ...
selenium phantomjs 设置代理ip方法
最近遇到phantomjs动态更换ip的功能,在知乎上看到一篇不错的文章,顺手记下来以备后用 phantomjs selenium 如何动态修改代理? 可以这样做(Python代码): # 不使用代理 ...
scrapy设置代理
在爬取网站内容的时候,最常遇到的问题是:网站对IP有限制,会有防抓取功能,最好的办法就是IP轮换抓取(加代理) 下面来说一下Scrapy如何配置代理,进行抓取 1.在Scrapy工程下新建“middl ...
为YUM设置代理的方法
http://momo-fedora.blog.163.com/blog/static/1161345982009329611312/
网络爬虫之scrapy框架设置代理
前戏 os.environ()简介 os.environ()可以获取到当前进程的环境变量,注意,是当前进程. 如果我们在一个程序中设置了环境变量,另一个程序是无法获取设置的那个变量的. 环境变量是以一 ...
C# 为WebBrowser设置代理,打开网页
WebBrowser控件是基于IE浏览器的,所以它的内核功能是依赖于IE的,相信做.NET的人都知道. 今天的主题,和上一篇文章应该是差不多的,都是通过代理来实现功能的. 请看下面的代码: //1.定 ...
使用Chrome浏览器设置XX-net的方法
以下介绍使用Chrome浏览器设置XX-net的方法 1.下载并安装谷歌浏览器. 2.打开https://github.com/XX-net/XX-Net/blob/master/code/d ...
C# WebBrowser设置代理
WebBrowser控件是基于IE浏览器的,所以它的内核功能是依赖于IE. code: class IEProxy { //设置代理选项 private const int INTERNET_OPTI ...

随机推荐

Java bean和json互转时，屏蔽某个属性
有的时候我们把java bean 转换成json的时候,希望屏蔽掉某个属性,这时可以在java bean的属性上加上@JsonIgnore注解,在com.fasterxml.jackson.annot ...
mysql中如何处理字符
concat函数使用方法: CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串.如有任何一个参数为NULL ,则返回值为 NULL. 注意: 如果所有参数均为非二进制字符串,则结 ...
Unable to find remote helper for 'https'
出现这个报错,说明git目前的状态是正常的,要么没装好,要么自己解决压缩安装导致没有权限第三次情况是,使用yum install git 重新安装后,仍然报错,是因为环境变量中GIT_HOM配置的仍 ...
Nginx安装及配置详解
nginx概述 nginx是一款自由的.开源的.高性能的HTTP服务器和反向代理服务器:同时也是一个IMAP.POP3.SMTP代理服务器:nginx可以作为一个HTTP服务器进行网站的发布处理,另外 ...
如何把Python脚本导出为exe程序
一.pyinstaller简介 pyinstaller将Python脚本打包成可执行程序,使在没有Python环境的机器上运行最新版是pyinstaller 3.1.1.支持python2.7和py ...
Inception体验之安装
Inception介绍 MySQL Inception是数据库管理员的工具.它允许DBA构建好的SQL语句,在只读数据集上测试它们,并最终针对生产数据库运行这些SQL语句,并且能够在SQL语句出于某种 ...
SpringBoot JMS(ActiveMQ) 使用实践
ActiveMQ 1. 下载windows办的activeMQ后,在以下目录可以启动: 2. 启动后会有以下提示 3. 所以我们可以通过http://localhost:8161访问管理页面,通过tc ...
nsq源码阅读笔记之nsqd（四）——Channel
与Channel相关的代码主要位于nsqd/channel.go, nsqd/nsqd.go中. Channel与Topic的关系 Channel是消费者订阅特定Topic的一种抽象.对于发往Topi ...
POJ_1556_The Doors_判断线段相交+最短路
POJ_1556_The Doors_判断线段相交+最短路 Description You are to find the length of the shortest path through a ...
HTTP VISUAL HTTP请求可视化工具、HTTP快照工具(公测)
先啰嗦几句,最近工作比较忙,再加上自己又开设了一个小站(简单点),没时间写博客,都快憋坏了,趁着周末有时间,抓紧来一篇~ HTTP VISUAL是一款HTTP可视化工具,它可以记录HTTP请求,包括请 ...

scrapy设置代理的方法

scrapy设置代理的方法的更多相关文章

随机推荐

热门专题