关于scarpy的一些说明

一 scrapy添加代理

　　1 内置代理：os.environ。

　　　　固定格式，不推荐

os.environ['http_proxy'] = "http://root:woshiniba@192.168.11.11:9999/"

os.environ['https_proxy'] = "http://192.168.11.11:9999/"

　　2 自定义代理：通过中间件实现

                import six

                import random

                import base64

                from scrapy.contrib.downloadermiddleware.httpproxy import HttpProxyMiddleware

                def to_bytes(text, encoding=None, errors='strict'):

                    if isinstance(text, bytes):

                        return text

                    if not isinstance(text, six.string_types):

                        raise TypeError('to_bytes must receive a unicode, str or bytes '

                                        'object, got %s' % type(text).__name__)

                    if encoding is None:

                        encoding = 'utf-8'

                    return text.encode(encoding, errors)

                class ProxyMiddleware(object):

                    def process_request(self, request, spider):

                        PROXIES = [

                            {'ip_port': '111.11.228.75:80', 'user_pass': ''},

                            {'ip_port': '120.198.243.22:80', 'user_pass': ''},

                            {'ip_port': '111.8.60.9:8123', 'user_pass': ''},

                            {'ip_port': '101.71.27.120:80', 'user_pass': ''},

                            {'ip_port': '122.96.59.104:80', 'user_pass': ''},

                            {'ip_port': '122.224.249.122:8088', 'user_pass': ''},

                        ]

                        proxy = random.choice(PROXIES)

                        if proxy['user_pass'] is not None:

                            request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])

                            encoded_user_pass = base64.encodestring(to_bytes(proxy['user_pass']))

                            request.headers['Proxy-Authorization'] = to_bytes('Basic ' + encoded_user_pass)

                        else:

                            request.meta['proxy'] = to_bytes("http://%s" % proxy['ip_port'])

                DOWNLOADER_MIDDLEWARES = {

                   'sp1.proxy.ProxyMiddleware': ,

                }

关于scarpy的一些说明的更多相关文章

【scarpy】笔记三：实战一
一.前提我们开始爬虫前,基本按照以下步骤来做: 1.爬虫步骤:新建项目,明确爬虫目标,制作爬虫,存储爬虫内容二.实战(已豆瓣为例子) 2.1 创建项目 1.打开pycharm -> 点开te ...
爬虫之Scarpy.Request
一 .Request 1.request Scarpy中的HTTP请求对象 1.1.Requse的构造 #我们ctrl+左键可以看到Scarpy.Request的代码 class Request(ob ...
Scarpy框架安装教程
在一切之前,建议升级pip,如果版本太低,安装会失败升级pip命令: python -m pip install --upgrade pip 如果上面的命令不能用,用下面这个 easy_instal ...
Python Scarpy安装包
由于网络的原因,Scraoy无法安装 Cannot fetch index base URL https://pypi.python.org/simple/ 1. scrapy 安装所需要的包可以从 ...
Scarpy 起始url 自定义代理自定义去重规则
- start_urls - 内部原理 """ scrapy引擎来爬虫中去起始的URL: 1. 调用start_requests并获取返回值 2. v = iter(返回 ...
Scarpy+selenium 结合使用
首先要先在spider对象实例化时,同时实例化一个浏览器对象 # -*- coding: utf-8 -*- import scrapy from selenium import webdriver ...
Scarpy框架持久化存储
一.介绍持久化存储操作分为两类:磁盘文件和数据库. 而磁盘文件存储方式又分为:基于终端指令和基于管道二.基于终端指令的持久化存储 Scrapy是通过 scrapy 命令行工具进行控制的. 这里我们 ...
scarpy设置日志打印级别和存储位置
在settings.py中配置日志级别设置 LOG_LEVEL = 'ERROR' # 当LOG_LEVEL设置为ERROR时,在进行日志打印时,只是打印ERROR级别的日志日志存储设置 LOG_ ...
scarpy crawl 爬取微信小程序文章（将数据通过异步的方式保存的数据库中）
import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider ...

随机推荐

-安装与配置 FTP 服务器
我们经常会使用 FTP,把本地电脑上的文件上传到服务器上,或者把服务器上的文件下载到自己的电脑里面.FTP 有服务端和客户端,FTP 的服务端提供了这种传输文件的服务,FTP 的客户端提供了传输文件的 ...
Eclipse+Tomcat搭建jsp服务器
首先,安装java sdk 环境,这里就不多说了,附上java sdk的下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk ...
示例vue 的keep-alive缓存功能的实现
本篇文章主要介绍了vue 的keep-alive缓存功能的实现,写的十分的全面细致,具有一定的参考价值,对此有需要的朋友可以参考学习下.如有不足之处,欢迎批评指正. Vue 实现组件信息的缓存当我们 ...
python导出开发环境
1.导出开发环境的依赖包本地开发完后,再把代码给别人之前,需要 pip freeze > pip123.txt 2.其他环境安装依赖包 pip install -r pip123.txt 其他 ...
HDU - 1864 最大报销额（背包）
题意: 现有一笔经费可以报销一定额度的发票.允许报销的发票类型包括买图书(A类).文具(B类).差旅(C类),要求每张发票的总额不得超过1000元,每张发票上,单项物品的价值不得超过600元.现请你编 ...
链表中倒数第k个结点【微软面试100题第十三题】
题目要求: 输入一个链表,输出该链表中倒数第k个结点.链表的倒数第0个结点为链表的尾指针. 参考资料:剑指offer第15题题目分析: 1.两个指针,第一个先走k步,然后两个指针同时走,直到第一个走 ...
Selenium WebDriver- 操作JavaScript的Alert弹窗
弹层和弹框是有区别的,弹框是那种完全没样式的框子:弹层是可以直接看到html的,有样式 #encoding=utf-8 import unittest import time from seleniu ...
day01_03.人人都会编程
PHP if语句打招呼编程 <?php$gender = "man"; if($gender == "man"){ echo "you are ...
day03_02 Python版本的选择
总结:python2.x是遗产(过时),python3.x是现在和未来的语言 In summary : Python 2.x is legacy, Python 3.x is the present ...
[git 学习篇] git checkout 撤销修改
git status 查看当前创库情况 liuzhipeng@exdroid43:~/pad/pad-test$ git status 位于分支 master 您的分支与上游分支 'origin/ma ...

关于scarpy的一些说明

关于scarpy的一些说明的更多相关文章

随机推荐

热门专题