网络爬虫之scrapy框架设置代理

前戏

os.environ()简介

os.environ()可以获取到当前进程的环境变量，注意，是当前进程。

如果我们在一个程序中设置了环境变量，另一个程序是无法获取设置的那个变量的。

环境变量是以一个字典的形式存在的，可以用字典的方法来取值或者设置值。

os.environ() key字段详解

windows：

os.environ['HOMEPATH']:当前用户主目录。

os.environ['TEMP']:临时目录路径。

os.environ[PATHEXT']:可执行文件。

os.environ['SYSTEMROOT']:系统主目录。

os.environ['LOGONSERVER']:机器名。

os.environ['PROMPT']:设置提示符。

linux：

os.environ['USER']:当前使用用户。

os.environ['LC_COLLATE']:路径扩展的结果排序时的字母顺序。

os.environ['SHELL']:使用shell的类型。

os.environ['LAN']:使用的语言。

os.environ['SSH_AUTH_SOCK']:ssh的执行路径。

内置的方式

原理

scrapy框架内部已经实现了设置代理的方法，它的原理是从环境变量中取出设置的代理，然后再使用，

所以我们只需要在程序执行前将代理以键值对的方式设置到环境变量中即可。

代码

第一种方式：直接添加键值对的方式

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		import os

		os.environ['HTTPS_PROXY'] = "http://username:password@192.168.11.11:9999/"

		os.environ['HTTP_PROXY'] = '19.11.2.32',

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse)

第二种方式：设置meta参数的方式

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse,meta={'proxy':'"http://username:password@192.168.11.11:9999/"'})

自定义方式

原理

我们可以根据内部实现的添加代理的类（中间件）的实现方法，来对它进行升级，比如内部的方式一次只能使用一个代理，

我们可以弄一个列表，装很多代理地址，然后随机选取一个代理，这样可以防止请求过多被封ip

代码

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse,meta={'proxy':'"http://username:password@192.168.11.11:9999/"'})

			import base64

			import random

			from six.moves.urllib.parse import unquote

			try:

				from urllib2 import _parse_proxy

			except ImportError:

				from urllib.request import _parse_proxy

			from six.moves.urllib.parse import urlunparse

			from scrapy.utils.python import to_bytes

			class XXProxyMiddleware(object):

				def _basic_auth_header(self, username, password):

					user_pass = to_bytes(

						'%s:%s' % (unquote(username), unquote(password)),

						encoding='latin-1')

					return base64.b64encode(user_pass).strip()

				def process_request(self, request, spider):

					PROXIES = [

						"http://username:password@192.168.11.11:9999/",

						"http://username:password@192.168.11.12:9999/",

						"http://username:password@192.168.11.13:9999/",

						"http://username:password@192.168.11.14:9999/",

						"http://username:password@192.168.11.15:9999/",

						"http://username:password@192.168.11.16:9999/",

					]

					url = random.choice(PROXIES)

					orig_type = ""

					proxy_type, user, password, hostport = _parse_proxy(url)

					proxy_url = urlunparse((proxy_type or orig_type, hostport, '', '', '', ''))

					if user:

						creds = self._basic_auth_header(user, password)

					else:

						creds = None

					request.meta['proxy'] = proxy_url

					if creds:

						request.headers['Proxy-Authorization'] = b'Basic ' + creds

写完类之后需要在settings文件里配置一下：

DOWNLOADER_MIDDLEWARES = {

   'spider.xxx.XXXProxyMiddleware': 543,

}

网络爬虫之scrapy框架设置代理的更多相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
网络爬虫值scrapy框架基础
简介 Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. 其可以应用在数据挖掘,信息处理或存储历史 ...
scrapy框架设置代理ip，headers头和cookies
[设置代理ip] 根据最新的scrapy官方文档,scrapy爬虫框架的代理配置有以下两种方法: 一.使用中间件DownloaderMiddleware进行配置使用Scrapy默认方法scrapy s ...
scrapy框架设置代理
网易音乐在单ip请求下经常会遇到网页返回码503的情况经查询,503为单个ip请求流量超限,猜测是网易音乐的一种反扒方式因原音乐下载程序采用scrapy框架,所以需要在scrapy中通过代理的方式去解 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
网络爬虫之scrapy框架(CrawlSpider)
一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能之外,还派生了其自己独有的更强大的特性和功能.其中最显著的功能就是"LinkExtractor ...
网络爬虫之scrapy框架详解
twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 它是基于事件循环的异步非阻塞网络框架,可以实现爬虫的并发. twisted是 ...
爬虫之 scrapy框架
浏览目录介绍安装项目结构及爬虫应用简介常用命令行工具 Spiders爬虫 Selectors选择器 Item Pipeline 项目管道 Downloader Middleware下载中间件 ...

随机推荐

一款基于jQuery的图片左右滑动焦点图
今天给大家分享一款基于jQuery的焦点图插件,这款jQuery焦点图插件的特点是可以多张图片左右滑动切换,可以点击切换按钮进行图片滑动,同时也支持图片自动切换.另外,这款jQuery焦点图是宽屏的, ...
oracle获取SID
windows 下查看注册表开始输入regedit 查看HKEY_LOCAL_MACHINE\SOFTWARE\ORACLE\KEY_OraDb11g_home1\ORACLE_SID就是 lin ...
ajax——优化0126（增删改查：添加查看详情，返回结果类型为JSON型，在窗口显示）
效果: 鼠标点击查看详情时数据库: 0126.php <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN&qu ...
大数据(13) - Spark的安装部署与简单使用
一 .Spark概述官网:http://spark.apache.org 1. 什么是spark Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校 ...
Lifecycle for overriding binding, validation, etc，易于同其它View框架（Tiles等）无缝集成，采用IOC便于测试。
Lifecycle for overriding binding, validation, etc,易于同其它View框架(Tiles等)无缝集成,采用IOC便于测试. 它是一个典型的教科书式的mvc ...
List接口的实现类与ArrayList相似，区别是Vector是重量级的组件，使用使消耗的资源比较多
List接口的实现类(Vector)(与ArrayList相似,区别是Vector是重量级的组件,使用使消耗的资源比较多.) 结论:在考虑并发的情况下用Vector(保证线程的安全). 在不考虑并发的 ...
【剑指offer】翻转单词顺序
转载请注明出处:http://blog.csdn.net/ns_code/article/details/27372033 题目描写叙述: JOBDU近期来了一个新员工Fish,每天早晨总是会拿着一本 ...
clone命令
git clone <repository> <directory> git clone https://nulab.backlog.jp/git/BLG/tutorial.g ...
pl/sql developer导出数据到excel的方法
http://yedward.net/?id=92 问题说明:使用pl/sql developer导出数据到excel表格中是非常有必要的,一般的可能直接在导出的时候选择csv格式即可,因为该格式可以 ...
如何通过Keil将程序正确的下载进flash中
前面介绍了一些创建工程和调试的基本步骤,在这里准备介绍一下如何正确的将Keil程序在仿真调试中下载到flash.这里再次涉及到了debug的窗口. 工具/原料 Keil uVision 4/5 ...