在Scrapy中使用IP池或用户代理（python3）

一、创建Scrapy工程

 scrapy startproject 工程名

二、进入工程目录，根据爬虫模板生成爬虫文件

 scrapy genspider -l # 查看可用模板

 scrapy genspider -t 模板名 爬虫文件名 允许的域名

三、定义爬取关注的数据（items.py文件）

四、编写爬虫文件

五、设置IP池或用户代理
（1）设置IP池
步骤1：在settings.py文件中添加代理服务器的IP信息，如：

 # 设置IP池

 IPPOOL = [

 　　{"ipaddr": "221.230.72.165:80"},

 　　{"ipaddr": "175.154.50.162:8118"},

 　　{"ipaddr": "111.155.116.212:8123"}

 ]

步骤2：创建下载中间文件middlewares.py（与settings.py同一个目录），如：

#创建方法，cmd命令行，如项目为modetest，

E:\workspace\PyCharm\codeSpace\modetest\modetest>echo #middlewares.py

 # -*- coding: utf- -*-

 # 导入随机模块

 import random

 # 导入settings文件中的IPPOOL

 from .settings import IPPOOL

 # 导入官方文档对应的HttpProxyMiddleware

 from scrapy.contrib.downloadermiddleware.httpproxy import HttpProxyMiddleware

 class IPPOOlS(HttpProxyMiddleware):

 　　# 初始化

 　　def __init__(self, ip=''):

 　　self.ip = ip

 　　# 请求处理

 　　def process_request(self, request, spider):

 　　# 先随机选择一个IP

 　　thisip = random.choice(IPPOOL)

 　　print("当前使用IP是："+ thisip["ipaddr"])

 　　request.meta["proxy"] = "http://"+thisip["ipaddr"]

步骤3：在settings.py中配置下载中间件

 # 配置下载中间件的连接信息

 DOWNLOADER_MIDDLEWARES = {

 　　'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':,

 　　'modetest.middlewares.IPPOOlS' :

 }

（2）设置用户代理
步骤1：在settings.py文件中添加用户代理池的信息（配置几个浏览器'User-Agent'），如：

 # 设置用户代理池

 UPPOOL = [

 　　"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393"

 ]

步骤2：创建下载中间文件uamid.py（与settings.py同一个目录），如：

#创建方法，cmd命令行，如项目为modetest，

E:\workspace\PyCharm\codeSpace\modetest\modetest>echo #uamind.py

 # -*- coding: utf- -*-#

 # 导入随机模块

 import random

 # 导入settings文件中的UPPOOL

 from .settings import UPPOOL

 # 导入官方文档对应的HttpProxyMiddleware

 from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware

 class Uamid(UserAgentMiddleware):

 　　# 初始化 注意一定要user_agent，不然容易报错

 　　def __init__(self, user_agent=''):

 　　self.user_agent = user_agent

 　　# 请求处理

 　　def process_request(self, request, spider):

 　　　　# 先随机选择一个用户代理

 　　　　thisua = random.choice(UPPOOL)

 　　　　print("当前使用User-Agent是："+thisua)

 　　　　request.headers.setdefault('User-Agent',thisua)

步骤3：在settings.py中配置下载中间件

 # 配置下载中间件的连接信息

 DOWNLOADER_MIDDLEWARES = {

 　　'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': ,

4　　 'modetest.uamid.Uamid':

 }

总而言之，有时候避免不了配置这类信息，所以直接在settings中都一起配置了如下，直接粘贴到settings.py文件的最后面

 #========================================

 # 设置IP池和用户代理

 #  禁止本地Cookie

 COOKIES_ENABLED = False

 # 设置IP池

 IPPOOL = [

     {"ipaddr": "221.230.72.165:80"},

     {"ipaddr": "175.154.50.162:8118"},

     {"ipaddr": "111.155.116.212:8123"}

 ]

 # 设置用户代理池

 UPPOOL = [

     "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393"

 ]

 # 配置下载中间件的连接信息

 DOWNLOADER_MIDDLEWARES = {

     #'scrapy.contrib.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,

     #'modetest.middlewares.IPPOOlS' : 125,

     'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware': 2,

     'modetest.uamid.Uamid': 1

 }

 #============================================

在Scrapy中使用IP池或用户代理（python3）的更多相关文章

在Scrapy中使用IP池或用户代理更新版（python3）
middlewares.py # -*- coding: utf-8 -*- # 导入随机模块 import random # 导入有关IP池有关的模块 from scrapy.downloaderm ...
scrapy中使用 IP 代理
在 scrapy 中使用 ip 代理需要借助中间件的功能首先在settings 中设置好中间件,中间件优先级数字越小越先被执行 , } 然后编写中间件,拦截请求设置代理 class ProxyMid ...
封装IP池和用户代理相应的类（python3）
一.middlewares.py源代码: # -*- coding: utf-8 -*- # 导入随机模块 import random # 导入有关IP池有关的模块 from scrapy.contr ...
Scrapy中的UA池，代理池，以及selenium的应用
UA池代理池 selenium在Scrapy中的应用 UA池 - 下载中间件: - 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件. - 作用 ...
如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池
1 使用 scrapy 做采集实在是爽,但是遇到网站反爬措施做的比较好的就让人头大了.除了硬着头皮上以外,还可以使用爬虫利器 selenium,selenium 因其良好的模拟能力成为爬虫爱(cai) ...
python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL
一.先在MySQL中创建test数据库,和相应的site数据表二.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三.进入 ...
scrapy 使用代理ip
1.在settings文件中添加ip池 IPPOOL=['xxx.xx.xx.xx','xxx.xx.xxx.xx'] 2.在middleware文件中添加自己的代理ip类(首先需要导入ipPOOL, ...
python框架Scrapy中crawlSpider的使用
一.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo3 二.进入工程目录,根据爬虫模板生成爬虫文件 #scrapy genspi ...
建立爬虫代理IP池
单线程构建爬虫代理IP池 #!/usr/bin/python3.5 # -*- coding:utf-8 -*- import time import tempfile from lxml impor ...

随机推荐

android 基于分包方案的修复
# 本demo实现原理来自 https://github.com/dodola/HotFix https://zhuanlan.zhihu.com/p/20308548 # Anti类功能,及其原理 ...
lnmp1.4环境FTP服务器的安装和使用
首先还是用Xshell连接到VPS界面,进入lnmp解压后的目录,命令如下: cd lnmp1.4 然后安装FTP服务器,命令如下: ./pureftpd.sh 看到提示Press any ...
asp.net,cookie,写cookie,取cookie（转载）
Cookie是一段文本信息,在客户端存储 Cookie 是 ASP.NET 的会话状态将请求与会话关联的方法之一.Cookie 也可以直接用于在请求之间保持数据,但数据随后将存储在客户端并随每个请求一 ...
Newton's method Drawback and advantage
Newton Raphson Method: Advantages and Drawbacks: v=QwyjgmqbR9s" target="_blank"& ...
Atitit.检测文本文件的编码自动获取文件的中文编码
Atitit.检测文本文件的编码自动获取文件的中文编码 1 不能使用load来检测编码..1 2 使用convert来检测编码1 3 程序检测文本编码2 3.1 根据utf bom头2 3.2 检测 ...
ActiveMQ从源代码构建
众多开源项目.我们一般都是直接拿过来用之而后快. 只是我们也应该知道这些项目是怎样从源代码构建而来的. 既然代码是写出来的,就不能避免有BUG存在,话说没有完美的软件,也没有无漏洞的程序. 事实上从源 ...
C#元祖Tuple的事例
数组合并了同样类型的对象.而元祖合并了不同类型的对象.元祖起源于函数编程语言(F#) NET Framework定义了8个泛型Tuple(自NET4.0)和一个静态的Tuple类,他们作用元祖的工厂, ...
什么是ETag
ETag 是 Entity Tag 的缩写,中文译过来就是实体标签的意思.在HTTP1.1协议中其实就是请求HEAD中的一个属性而已. HTTP/1.1 200 OK Date: Mon, 23 Ma ...
QT .pro文件 LIBS用法详解
在程序中需要使用到团队其它成员开发的静态库和动态库,起初是知道使用LIBS变量在在.pro文件中指定需要包含的库,但是实际使用的时候却遇到很大麻烦,但其实确实是因为自己看官方文档不太用心造成的. 下面 ...
iOS swift HandyJSON组合Alamofire发起网络请求并转换成模型
在swift开发中,发起网络请求大部分开发者应该都是使用Alamofire发起的网络请求,至于请求完成后JSON解析这一块有很多解决方案,我们今天这里使用HandyJSON来解析请求返回的数据并转化成 ...

在Scrapy中使用IP池或用户代理（python3）

在Scrapy中使用IP池或用户代理（python3）的更多相关文章

随机推荐

热门专题