scrapy代理的设置

在我的上一篇文章介绍了scrapy下载器中间件的使用,这里的scrapyIP的代理就是用这个原理实现的，重写了下载器中间件的process_request(self,request,spider)这个函数,这个函数的主要作用就是对request进行处理。

话不多说直接撸代码

import random

import scrapy

import logging

class proxMiddleware(object):

#proxy_list=[{'http': 'http://123.157.146.116:8123'}, {'http': 'http://116.55.16.233:8998'}, {'http': 'http://115.85.233.94:80'}, {'http': 'http://180.76.154.5:8888'}, {'http': 'http://139.213.135.81:80'}, {'http': 'http://124.88.67.14:80'}, {'http': 'http://106.46.136.90:808'}, {'http': 'http://106.46.136.226:808'}, {'http': 'http://124.88.67.21:843'}, {'http': 'http://113.245.84.253:8118'}, {'http': 'http://124.88.67.10:80'}, {'http': 'http://171.38.141.12:8123'}, {'http': 'http://124.88.67.52:843'}, {'http': 'http://106.46.136.237:808'}, {'http': 'http://106.46.136.105:808'}, {'http': 'http://106.46.136.190:808'}, {'http': 'http://106.46.136.186:808'}, {'http': 'http://101.81.120.58:8118'}, {'http': 'http://106.46.136.250:808'}, {'http': 'http://106.46.136.8:808'}, {'http': 'http://111.78.188.157:8998'}, {'http': 'http://106.46.136.139:808'}, {'http': 'http://101.53.101.172:9999'}, {'http': 'http://27.159.125.68:8118'}, {'http': 'http://183.32.88.133:808'}, {'http': 'http://171.38.37.193:8123'}]

proxy_list=[

    "http://180.76.154.5:8888",

    "http://14.109.107.1:8998",

    "http://106.46.136.159:808",

    "http://175.155.24.107:808",

    "http://124.88.67.10:80",

    "http://124.88.67.14:80",

    "http://58.23.122.79:8118",

    "http://123.157.146.116:8123",

    "http://124.88.67.21:843",

    "http://106.46.136.226:808",

    "http://101.81.120.58:8118",

    "http://180.175.145.148:808"

]

def process_request(self,request,spider):

    # if not request.meta['proxies']:

    ip = random.choice(self.proxy_list)

    print ip

    #print 'ip=' %ip

    request.meta['proxy'] = ip

主要的原理：

给出一个代理列表，然后在这个列表中随机取出一个代理，设置在request中，其中request.meta['proxy']就是设置代理的格式

但是现在主要的问题就是没有代理ip可用，如果去买的话又太贵了，自己玩玩买代理不值当，所以只好自己写爬虫去爬取免费的代理了，但是免费的代理存活的时间是有限的，这是个非常麻烦的事情，我提供的方法就是实现自己的一个ip代理池，每天定时更新自己的代理池，具体的实现方法会在下一篇文章中介绍，现在提供一段代码用来爬

取西刺网站的代理

直接撸代码，接招吧

#coding:utf-8

import requests

from bs4 import BeautifulSoup

import threading

import Queue

class Get_ips():

def __init__(self,page):

    self.ips=[]

    self.urls=[]

    for i in range(page):

        self.urls.append("http://www.xicidaili.com/nn/" + str(i))

    self.header = {"User-Agent": 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0'}

    #self.file=open("ips",'w')

    self.q=Queue.Queue()

    self.Lock=threading.Lock()

def get_ips(self):

    for url in self.urls:

        res = requests.get(url, headers=self.header)

        soup = BeautifulSoup(res.text, 'lxml')

        ips = soup.find_all('tr')

        for i in range(1, len(ips)):

            ip = ips[i]

            tds = ip.find_all("td")

            ip_temp = "http://" + tds[1].contents[0] + ":" + tds[2].contents[0]

            # print str(ip_temp)

            self.q.put(str(ip_temp))

def review_ips(self):

    while not self.q.empty():

        ip=self.q.get()

        try:

            proxy={"http": ip}

            #print proxy

            res = requests.get("http://www.baidu.com", proxies=proxy,timeout=5)

            self.Lock.acquire()

            if res.status_code == 200:

                self.ips.append(ip)

                print ip

                self.Lock.release()

        except Exception:

            pass

            #print 'error'

def main(self):

    self.get_ips()

    threads=[]

    for i in range(40):

        threads.append(threading.Thread(target=self.review_ips,args=[]))

    for t in threads:

        t.start()

    for t in threads:

        t.join()

    return self.ips

def get_ip():

my=Get_ips(4)

return my.main()

get_ip()

实现的原理

这里用到了BeautifulSoup解析页面，然后将提取到的代理交给队列，然后再通过共享队列分配给线程，这里主要开启线程通过设置代理ip访问一个网站，因为访问网站的时间比较长，因此要开起多个线程，相信大家能够学习设置代理ip了应该都是比较上手的了，这里具体的代码就不一一解释了，如果代码有什么问题可以及时联系我，我的联系方式在关于我的一栏中有提到

补充

想要ip应用起来，还要在配置文件settings中添加DOWNLOADER_MIDDLEWARES = { 'demo.proxy.proxMiddleware':400 }这里的demo是工程的名字，proxy是py文件的名,proxMiddleware是类的名字

当然这里可能你觉得proxy_list写在这里有点冗余，你可以在配置文件中定义，然后将配置文件的内容import到py文件中

以上全是博主慢慢摸索出来的，可以说自学一门技术真的很难，学习python爬虫已经有两三个月了，可以说全是自己通过看项目，网上查资料才有了今天的成功，不过现在还有几个问题没有解决，就是分布式爬虫、移动端爬取，博主接下来就要主攻这两个方面，学好之后会在自己的博客上分享学习心得的，因为网上没有系统的学习教程，对于自学的人来说实在是太痛苦了

scrapy代理的设置的更多相关文章

python爬虫scrapy之downloader_middleware设置proxy代理
一.背景: 小编在爬虫的时候肯定会遇到被封杀的情况,昨天爬了一个网站,刚开始是可以了,在settings的设置DEFAULT_REQUEST_HEADERS伪装自己是chrome浏览器,刚开始是可以的 ...
Python 爬虫的代理 IP 设置方法汇总
本文转载自:Python 爬虫的代理 IP 设置方法汇总 https://www.makcyun.top/web_scraping_withpython15.html 需要学习的地方:如何在爬虫中使用 ...
Loadrunner代理录制设置
使用LR代理录制原理启用LR代理服务器监听设置好的端口号是否有请求信息发送给服务器,有请求时,代理服务器接收带请求,并转发给对应的系统服务器,LR从而获取到请求的信息与数据,生成脚本. 使用代理的前 ...
Scrapy 代理IP
Scrapy 代理IP 一.Scarpy使用代理IP 1.在setting.py 配置代理服务器IP 2.在middlermares.py 配置 downloadmiddlermare(下载中间件) ...
论述Android通过HttpURLConnection与HttpClient联网代理网关设置
Android联网主要使用HttpURLConneciton和HttpClient进行联网,在手机联网的时候,我们优先选择wifi网络,其次在选择移动网络,这里所述移动网络主要指cmwap. 大家都知 ...
puppeteer设置代理并检查代理是否设置成功
1. 设置代理: 这一步超级简单,但我掉到了坑里并扑腾了小一天的时间,那就是:箭头指向处一定一定不要加空格!!! 2. 检查代理是否设置成功: 在打开的浏览器里,打开百度,输入ip,如果查出来的结果跟 ...
openfire在内网的情况下文件传输代理的设置
openfire在内网的情况下文件传输代理的设置 http://blog.csdn.net/v6543210/article/details/22506565
windows 代理无法设置上不了网的解决
--- title:windows 代理无法设置的解决 date: 2018-09-12 14:07:04 tags: windows 上网 --- ## 问题描述 Internet 属性 -> ...
vue-cli搭建项目及代理路由设置
vue-cli 是vue.js 项目脚手架,使用 vue-cli 可以快速创建 vue 项目,GitHub地址是:https://github.com/vuejs/vue-cli 一. 安装 node ...

随机推荐

hdu1160dp
https://vjudge.net/contest/68966#problem/J #include<map> #include<set> #include<list& ...
在 ubuntu 下优雅的使用 Sublime Text 3 写 Python
此文章非技术文,就是一些对于 Sublime 俺之前经常用的方法(快捷键 )和工具有一些工具俺也用过,但是效果不太好,可以说跟shi 一样,可能每个人的用处不一样,咱就不提了,免得招来口舌之争 ...
玩转spring boot——ajax跨域
前言 java语言在多数时,会作为一个后端语言,为前端的php,node.js等提供API接口.前端通过ajax请求去调用java的API服务.今天以node.js为例,介绍两种跨域方式:Cross ...
NodeJS+Express+MongoDB 简单实现数据录入及回显展示【适合新人刚接触学习】
近期在看NodeJS相关不得不说NodeJS+Express 进行网站开发是很不错,对于喜欢玩JS的来说真是很好的一种Web开发组合在接触NodeJS时受平时Java或者C#中API接口等开发的思 ...
LeetCode 题解（一）：Two Sum
LeetCode : two sum 第一次写博客,算是熟悉这些编辑环境吧,本来是打算在csdn上用markdown写的,结果改了博客介绍就被关闭了,晕死...好了,话不多说,今天打算拿LeetCod ...
Spring装配bean--01组件扫描和自动装配
Spring容器负责创建应用程序中的bean并通过DI来协调这些对象之间的关系 Spring提供了三种主要的装配机制: 在XML中进行显式配置在Java中进行显式配置隐式的bean发现机制和自动装 ...
Python之collections序列迭代器下标式循环冒泡算法等
练习题元素分类有如下值集合[11,22,33,44,55,66,77,88,99]将所有大于66的数作为一个列表放在字典的key为k1的value小于等于66的为k2的value {'k1':[7 ...
VR全景是继互联网后的第二王朝吗？
VR虚拟现实.VR全景广泛用于游戏中,带上VR眼镜,有身临其境般的感觉.于是近些年围绕着 "下一代计算平台",国内外兴起一股虚拟现实热,在这样的形势下,VR眼镜在国内打的十分火热. ...
Opencv在linux下安装
Opencv in Linux These steps have been tested for Ubuntu 10.04 but should work with other distros as ...
Dorado7与@ManyToMany的矛盾分析
在Dorado7开发时,通过UpdateAction提交数据,默认只会提交DataSet中DirtyTree,这样如果子对象数据未发生修改时是不会提交的,后台拿到的子对象为空.如果两对象之间,通过JP ...

scrapy代理的设置

scrapy代理的设置

话不多说直接撸代码

主要的原理：

直接撸代码，接招吧

实现的原理

补充

scrapy代理的设置的更多相关文章

随机推荐

热门专题