在Scrapy中使用IP池或用户代理更新版（python3）

middlewares.py

 # -*- coding: utf-8 -*-

 # 导入随机模块

 import random

 # 导入有关IP池有关的模块

 from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware

 # 导入有关用户代理有关的模块

 from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

 # IP池

 class HTTPPROXY(HttpProxyMiddleware):

     # 初始化 注意一定是 ip=''

     def __init__(self, ip=''):

         self.ip = ip

     def process_request(self, request, spider):

         item = random.choice(IPPOOL)

         try:

             print("当前的IP是："+item["ipaddr"])

             request.meta["proxy"] = "http://"+item["ipaddr"]

         except Exception as e:

             print(e)

             pass

 # 设置IP池

 IPPOOL = [

     {"ipaddr": "182.117.102.10:8118"},

     {"ipaddr": "121.31.102.215:8123"},

     {"ipaddr": "1222.94.128.49:8118"}

 ]

 # 用户代理

 class USERAGENT(UserAgentMiddleware):

     #初始化 注意一定是 user_agent=''

     def __init__(self, user_agent=''):

         self.user_agent = user_agent

     def process_request(self, request, spider):

         item = random.choice(UPPOOL)

         try:

             print("当前的User-Agent是："+item)

             request.headers.setdefault('User-Agent', item)

         except Exception as e:

             print(e)

             pass

 # 设置用户代理池

 UPPOOL = [

     "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:52.0) Gecko/20100101 Firefox/52.0", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.79 Safari/537.36 Edge/14.14393"

 ]

settngs.py中添加一下代码（注意根据项目名修改指向，如这里的工程名是“的demo3”）

 DOWNLOADER_MIDDLEWARES = {

     # 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware':123,

     # 'demo3.middlewares.HTTPPROXY' : 125,

     'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 2,

     'demo3.middlewares.USERAGENT': 1

 }

在Scrapy中使用IP池或用户代理更新版（python3）的更多相关文章

在Scrapy中使用IP池或用户代理（python3）
一.创建Scrapy工程 scrapy startproject 工程名二.进入工程目录,根据爬虫模板生成爬虫文件 scrapy genspider -l # 查看可用模板 scrapy gensp ...
scrapy中使用 IP 代理
在 scrapy 中使用 ip 代理需要借助中间件的功能首先在settings 中设置好中间件,中间件优先级数字越小越先被执行 , } 然后编写中间件,拦截请求设置代理 class ProxyMid ...
封装IP池和用户代理相应的类（python3）
一.middlewares.py源代码: # -*- coding: utf-8 -*- # 导入随机模块 import random # 导入有关IP池有关的模块 from scrapy.contr ...
Scrapy中的UA池，代理池，以及selenium的应用
UA池代理池 selenium在Scrapy中的应用 UA池 - 下载中间件: - 下载中间件(Downloader Middlewares) 位于scrapy引擎和下载器之间的一层组件. - 作用 ...
如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池
1 使用 scrapy 做采集实在是爽,但是遇到网站反爬措施做的比较好的就让人头大了.除了硬着头皮上以外,还可以使用爬虫利器 selenium,selenium 因其良好的模拟能力成为爬虫爱(cai) ...
python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL
一.先在MySQL中创建test数据库,和相应的site数据表二.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三.进入 ...
scrapy 使用代理ip
1.在settings文件中添加ip池 IPPOOL=['xxx.xx.xx.xx','xxx.xx.xxx.xx'] 2.在middleware文件中添加自己的代理ip类(首先需要导入ipPOOL, ...
python框架Scrapy中crawlSpider的使用
一.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo3 二.进入工程目录,根据爬虫模板生成爬虫文件 #scrapy genspi ...
爬虫爬取代理IP池及代理IP的验证
最近项目内容需要引入代理IP去爬取内容. 为了项目持续运行,需要不断构造.维护.验证代理IP. 为了绕过服务端对IP 和频率的限制,为了阻止服务端获取真正的主机IP. 一.服务器如何获取客户端IP ...

随机推荐

Actors编程模型
Actors模型(Actor model)首先是由Carl Hewitt在1973定义, 由Erlang OTP (Open Telecom Platform) 推广,其消息传递更加符合面向对象的原 ...
状压dp Mondriaan's Dream poj2411
超经典的一道题目,实现这题的方法也有非常多种 1.利用DFS建立矩阵,然后通过高速矩阵幂得到答案(运用于min(m,n)比較小.可是max(m,n)很大的情况) 2.利用dp状压解决第一种在我的还有 ...
检查SSD磁盘是否开启了TRIM指令
fsutil behavior QUERY DisableDeleteNotify 如果查询结果是“DisableDeleteNotify = 0”,代表SSD已经支持并启用Trim指令:如果提示为“ ...
PHPExcel 对xls表格的文件读取
//先去http://phpexcel.codeplex.com/releases/view/119187 下载文件包最后解压Classes到当前目录header("Content-type ...
编译JDK1.7
1. 背景想要一探JDK内部的实现机制,最便捷的路径之一就是自己编译一套JDK. 2. 获取JDK源码从http://openjdk.java.net/下载源码,如 openjdk-6-src-b ...
linux 从百度网盘下载文件的方法
linux 从百度网盘下载文件的方法发表于2015 年月日由shenwang 方法1.wget wget是在Linux下开发的开放源代码的软件,作者是Hrvoje Niksic,后来被移植到包括 ...
使用 xlue 实现简单 listbox 控件
基于 XLUE 实现的 listbox 控件 1. 提供增删查接口,将 obj 作为子控件添加到列表: 2. 提供 Attach/Detach 方法,可以将子控件的事件转发出来: 3. 支持滚动条: ...
Ubuntu 14.04 下FTP服务器的搭建
FTP服务器的搭建,我要实现的需求是: 不允许匿名访问,因为我的机器不想让谁都能登录上来,随便获取文件, 需要锁定一个目录,因为在家里,我需要给媳妇下载一些电影韩剧之类的东西,媳妇会来我机器下载,但 ...
root-me web server 20-30 writeup
Remote File Inclusion-远程文件包含 Get the PHP source code. ctrl+u 进行RFI攻击需要同时具备三个条件(被攻击机器): allow_url_fop ...
shell30题之第一题
1.1.1 Shell面试题1:批量生成随机字符文件名案例使用for循环在/oldboy目录下批量创建10个html文件,其中每个文件需要包含10个随机小写字母加固定字符串oldboy,名称示例如下 ...

在Scrapy中使用IP池或用户代理更新版（python3）

在Scrapy中使用IP池或用户代理更新版（python3）的更多相关文章

随机推荐

热门专题