随机IP代理插件Scrapy-Proxies

安装：

pip install scrapy_proxies

github: https://github.com/aivarsk/scrapy-proxies

scrapy爬虫配置文件settings.py：

# Retry many times since proxies often fail

RETRY_TIMES = 10

# Retry on most error codes since proxies fail for different reasons

RETRY_HTTP_CODES = [500, 503, 504, 400, 403, 404, 408]

DOWNLOADER_MIDDLEWARES = {

    'scrapy.downloadermiddlewares.retry.RetryMiddleware': 90,

    'scrapy_proxies.RandomProxy': 100,

    'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,

}

# Proxy list containing entries like

# http://host1:port

# http://username:password@host2:port

# http://host3:port

# 这是存放代理IP列表的位置

PROXY_LIST = '/path/to/proxy/list.txt'

#代理模式

# 0 = Every requests have different proxy

# 1 = Take only one proxy from the list and assign it to every requests

# 2 = Put a custom proxy to use in the settings

PROXY_MODE = 0

#如果使用模式2，将下面解除注释：

#CUSTOM_PROXY = "http://host1:port"

使用方法：

将之前用Python爬到的代理IP列表存储到PROXY_LIST可以找到的位置；

几种PROXY_MODE里，可能0是最常用的；如果有哪个IP是特别稳定的话，应该使用2。

随机IP代理插件Scrapy-Proxies的更多相关文章

下载中间件--随机IP代理以及随机User_Agent
下载中间件随机IP代理以及随机User_Agent 1.在settings.py中设置开启代理功能 # 设置下载中间件 DOWNLOADER_MIDDLEWARES = { # 随机的 User-Ag ...
Scrapy学习篇（十二）之设置随机IP代理（IPProxy）
当我们需要大量的爬取网站信息时,除了切换User-Agent之外,另外一个重要的方式就是设置IP代理,以防止我们的爬虫被拒绝,下面我们就来演示scrapy如何设置随机IPProxy. 设置随机IPPr ...
scrapy_随机ip代理池
什么是ip代理? 我们电脑访问网站,其实是访问远程的服务器,通过ip地址识别是那个机器访问了服务器,服务器就知道数据该返回给哪台机器,我们生活中所用的网络是局域网,ip是运营商随机分配的,是一种直接访 ...
随机IP代理
第一个例子就设置了一个代理IP,也是不靠谱的,最好的方式就是多设置几个,如第二个例子,通过http://www.youdaili.net/Daili/你可以找到很多代理IP, 抓取国内网站时尽量选取中 ...
python3爬虫系列19之反爬随机 User-Agent 和 ip代理池的使用
站长资讯平台:python3爬虫系列19之随机User-Agent 和ip代理池的使用我们前面几篇讲了爬虫增速多进程,进程池的用法之类的,爬虫速度加快呢,也会带来一些坏事. 1. 前言比如随着我们爬虫 ...
第三百四十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP
第三百四十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—通过自定义中间件全局随机更换代理IP 设置代理ip只需要,自定义一个中间件,重写process_request方法, request ...
scrapy实战9动态设置ip代理从数据库中随机获取一个可用的ip：
在目录下创建tools(python package) 在tools中创建crawl_xici_ip.py文件写入代码如下: #coding=utf-8 import requests from sc ...
Scrapy加Redis加IP代理池实现音乐爬虫
音乐爬虫关注公众号"轻松学编程"了解更多. 目的:爬取歌名,歌手,歌词,歌曲url. 一.创建爬虫项目创建一个文件夹,进入文件夹,打开cmd窗口,输入: scrapy star ...
python爬虫实战（三）--------搜狗微信文章（IP代理池和用户代理池设定----scrapy）
在学习scrapy爬虫框架中,肯定会涉及到IP代理池和User-Agent池的设定,规避网站的反爬. 这两天在看一个关于搜狗微信文章爬取的视频,里面有讲到ip代理池和用户代理池,在此结合自身的所了解的 ...

随机推荐

【LeetCode】733. Flood Fill 解题报告（Python）
作者: 负雪明烛 id: fuxuemingzhu 个人博客: http://fuxuemingzhu.cn/ 目录题目描述题目大意解题方法方法一:DFS 方法二:BFS 日期题目地址:ht ...
BST的中序后继
二叉搜索树中的顺序后继:从BST中找到指定节点的下一个节点. 比如1的下一个是2,2的下一个是3,4的下一个是5. 思路: 方法1:递归执行中序遍历,获取list,得到p的下一个.时间O(N),空间O ...
codeforce-600C. Make Palindrome(贪心)
http://codeforces.com/problemset/problem/600/C: 题意:给你一个小写字母组成的英文串,将它转换为回文串,要求,改变的字母的个数最小,移动字母不算改变字母. ...
Manthan, Codefest 16 D. Fibonacci-ish
D. Fibonacci-ish time limit per test 3 seconds memory limit per test 512 megabytes input standard in ...
[炼丹术]使用Pytorch搭建模型的步骤及教程
使用Pytorch搭建模型的步骤及教程我们知道,模型有一个特定的生命周期,了解这个为数据集建模和理解 PyTorch API 提供了指导方向.我们可以根据生命周期的每一个步骤进行设计和优化,同时更加 ...
【微信小程序云开发】1分钟学会实现上传、下载、预览、删除图片，并且以九宫格展示图片
大家好,我叫小秃僧这篇文章是讲解云开发如何上传.下载.预览.删除图片,并且以九宫格展示图片的功能 @ 目录 1. 实现效果 2.JavaScript代码 3.wxml代码 4.wxss代码 1. 实 ...
编写Java程序，使用JDialog构造登录窗体
返回本章节返回作业目录需求说明: 实现思路: 定义用户信息实体类User. 创建LoginDemoStart主类,初始化UI. 从UI获取用户信息并保存到User实体. 实现代码:
Oracle对表空间、用户、用户权限的操作
一.对表空间的操作 1.创建表空间(create tablespace) -- 'hpdb_tablespace' 指定表空间名称 -- 'e:\hpdb.dbf' 指定表空间数据文件名称 -- si ...
.net core使用rabbitmq消息队列 (二)
之前有写过.net core集成使用rabbitmq的博文,见.net core使用rabbitmq消息队列,但是里面的使用很简单,而且还有几个bug,想改下,但是后来想了想,还是算了,之前使用的是. ...
Azure Terraform（九）GitHub Actions 实现 Infra 资源的自动化部署
思路浅析使用 Terraform Code 部署 Azure 基础设施资源是特别受欢迎的,我曾经有写文章分享过利用 Azure DevOps 自动部署 Terraform Code 所描述的 Azu ...

随机IP代理插件Scrapy-Proxies

随机IP代理插件Scrapy-Proxies的更多相关文章

随机推荐

热门专题