网络爬虫之scrapy框架设置代理

前戏

os.environ()简介

os.environ()可以获取到当前进程的环境变量，注意，是当前进程。

如果我们在一个程序中设置了环境变量，另一个程序是无法获取设置的那个变量的。

环境变量是以一个字典的形式存在的，可以用字典的方法来取值或者设置值。

os.environ() key字段详解

windows：

os.environ['HOMEPATH']:当前用户主目录。

os.environ['TEMP']:临时目录路径。

os.environ[PATHEXT']:可执行文件。

os.environ['SYSTEMROOT']:系统主目录。

os.environ['LOGONSERVER']:机器名。

os.environ['PROMPT']:设置提示符。

linux：

os.environ['USER']:当前使用用户。

os.environ['LC_COLLATE']:路径扩展的结果排序时的字母顺序。

os.environ['SHELL']:使用shell的类型。

os.environ['LAN']:使用的语言。

os.environ['SSH_AUTH_SOCK']:ssh的执行路径。

内置的方式

原理

scrapy框架内部已经实现了设置代理的方法，它的原理是从环境变量中取出设置的代理，然后再使用，

所以我们只需要在程序执行前将代理以键值对的方式设置到环境变量中即可。

代码

第一种方式：直接添加键值对的方式

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		import os

		os.environ['HTTPS_PROXY'] = "http://username:password@192.168.11.11:9999/"

		os.environ['HTTP_PROXY'] = '19.11.2.32',

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse)

第二种方式：设置meta参数的方式

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse,meta={'proxy':'"http://username:password@192.168.11.11:9999/"'})

自定义方式

原理

我们可以根据内部实现的添加代理的类（中间件）的实现方法，来对它进行升级，比如内部的方式一次只能使用一个代理，

我们可以弄一个列表，装很多代理地址，然后随机选取一个代理，这样可以防止请求过多被封ip

代码

class ChoutiSpider(scrapy.Spider):

	name = 'chouti'

	allowed_domains = ['chouti.com']

	start_urls = ['https://dig.chouti.com/']

	cookie_dict = {}

	def start_requests(self):

		for url in self.start_urls:

			yield Request(url=url,callback=self.parse,meta={'proxy':'"http://username:password@192.168.11.11:9999/"'})

			import base64

			import random

			from six.moves.urllib.parse import unquote

			try:

				from urllib2 import _parse_proxy

			except ImportError:

				from urllib.request import _parse_proxy

			from six.moves.urllib.parse import urlunparse

			from scrapy.utils.python import to_bytes

			class XXProxyMiddleware(object):

				def _basic_auth_header(self, username, password):

					user_pass = to_bytes(

						'%s:%s' % (unquote(username), unquote(password)),

						encoding='latin-1')

					return base64.b64encode(user_pass).strip()

				def process_request(self, request, spider):

					PROXIES = [

						"http://username:password@192.168.11.11:9999/",

						"http://username:password@192.168.11.12:9999/",

						"http://username:password@192.168.11.13:9999/",

						"http://username:password@192.168.11.14:9999/",

						"http://username:password@192.168.11.15:9999/",

						"http://username:password@192.168.11.16:9999/",

					]

					url = random.choice(PROXIES)

					orig_type = ""

					proxy_type, user, password, hostport = _parse_proxy(url)

					proxy_url = urlunparse((proxy_type or orig_type, hostport, '', '', '', ''))

					if user:

						creds = self._basic_auth_header(user, password)

					else:

						creds = None

					request.meta['proxy'] = proxy_url

					if creds:

						request.headers['Proxy-Authorization'] = b'Basic ' + creds

写完类之后需要在settings文件里配置一下：

DOWNLOADER_MIDDLEWARES = {

   'spider.xxx.XXXProxyMiddleware': 543,

}

网络爬虫之scrapy框架设置代理的更多相关文章

Python网络爬虫之Scrapy框架（CrawlSpider）
目录 Python网络爬虫之Scrapy框架(CrawlSpider) CrawlSpider使用爬取糗事百科糗图板块的所有页码数据 Python网络爬虫之Scrapy框架(CrawlSpider) ...
网络爬虫值scrapy框架基础
简介 Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv.json等文件中. 首先我们安装Scrapy. 其可以应用在数据挖掘,信息处理或存储历史 ...
scrapy框架设置代理ip，headers头和cookies
[设置代理ip] 根据最新的scrapy官方文档,scrapy爬虫框架的代理配置有以下两种方法: 一.使用中间件DownloaderMiddleware进行配置使用Scrapy默认方法scrapy s ...
scrapy框架设置代理
网易音乐在单ip请求下经常会遇到网页返回码503的情况经查询,503为单个ip请求流量超限,猜测是网易音乐的一种反扒方式因原音乐下载程序采用scrapy框架,所以需要在scrapy中通过代理的方式去解 ...
16.Python网络爬虫之Scrapy框架（CrawlSpider）
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...
16，Python网络爬虫之Scrapy框架（CrawlSpider）
今日概要 CrawlSpider简介 CrawlSpider使用基于CrawlSpider爬虫文件的创建链接提取器规则解析器引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话, ...
网络爬虫之scrapy框架(CrawlSpider)
一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能之外,还派生了其自己独有的更强大的特性和功能.其中最显著的功能就是"LinkExtractor ...
网络爬虫之scrapy框架详解
twisted介绍 Twisted是用Python实现的基于事件驱动的网络引擎框架,scrapy正是依赖于twisted, 它是基于事件循环的异步非阻塞网络框架,可以实现爬虫的并发. twisted是 ...
爬虫之 scrapy框架
浏览目录介绍安装项目结构及爬虫应用简介常用命令行工具 Spiders爬虫 Selectors选择器 Item Pipeline 项目管道 Downloader Middleware下载中间件 ...

随机推荐

mysql数据库批量操作
批量KILL会话: 1.首先,根据条件将查询到要kill的进程写入文件:如:desc information_schema.processlist; SELECT concat('KILL ',id, ...
Storm手写WordCount
建立一个maven项目,在pom.xml中进行如下配置: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:x ...
修改多渠道打包的App名
archiveNameFormat = '${flavorName}-${projectName}-${versionName}-${versionCode}'
关于Cocos2d-x中自定义的调用注意事项
1.在实例类Student.h中定义一个自己的方法 public: int getSno(); 2.在实例类Student.cpp中实现这个方法 int Student::getSno(){ retu ...
第二百七十二节，Tornado框架-iframe标签框架伪造ajax
Tornado框架-iframe标签框架伪造ajax html <!DOCTYPE html> <html> <head lang="en"> ...
经典SQL面试题(转)
http://www.cnblogs.com/kcher90/archive/2013/03/13/2957932.html 有三个表,如果学生缺考,那么在成绩表中就不存在这个学生的这门课程成绩的记录 ...
Java去除所有非中文字符串
"fdsfjasd阿斯顿飞机阿斯蒂芬,,,,,,,,....".replaceAll("[^\u4E00-\u9FA5]", "");
sizeof 数组与指针
在学习指针的时候,得到指针的定义和数组的定义一样,但是这时候就很好奇,指针只是一个地址,那数组和指针一样的话,sizeof时怎么得知其长度呢. 于是百度了下面的回复: 千万不要把数组名看成指针,尽管有 ...
CENTOS --5分钟搞定Nginx安装的教程
1. 安装gcc(centos 7之后一般已自带,可以在第6步失败后再安装) yum install gcc gcc-c++ 2. 安装pcre yum install -y pcre pcre-de ...
给Jquery easyui 的datagrid 每行添加操作链接
背景我们都知道Jquery的Easy-UI的datagrid能够加入而且自己定义Toolbar,这样我们选择一行然后选择toolbar的对应button就能够对这行的数据进行操作.但实际项目里我们可 ...