scrapy中间件中使用selenium切换ip

scrapy抓取一些需要js加载页面时一般要么是通过接口直接获取数据,要么是js加载,但是我通过selenium也可以获取动态页面

但是有个问题,容易给反爬,因为在scrapy中间件mid中使用selenium的ip不会跟着你在中间件中切换的ip变化,还是使用本机的ip在访问网站,

这里通过确定网页url进行过滤,什么网页使用selenium,什么使用scrapy自带的抓取,

为selenium单独设置一个获取ip的办法,当然也可以使用全局变量

from selenium import webdriver

from scrapy.http.response.html import HtmlResponse

from selenium.webdriver.chrome.options import Options

import json

import requests

class ip_mid(object):

    def __init__(self):

        self.ip = ''

        self.url = 'http://proxy.1again.cc:35050/api/v1/proxy/?type=2'

        self.ip_num = 0

    def process_request(self,request,spider):

        # if re.findall(r'根据需求的url过滤,简单的页面', request.url):

        print('正在使用ip')

        if self.ip_num ==0 or self.ip_num >=10:

            res = json.loads(requests.get(url=self.url).content.decode())

            if res:

                ip = res['data']['proxy']

                print(ip,'-'*20)

                self.ip = ip

                print(self.ip)

                self.ip_num = 1

        if self.ip:

            request.meta['proxy'] = 'http://' + self.ip

            self.ip_num += 1

            print('ip地址>>>{} --- 使用次数{}'.format(self.ip, self.ip_num))

        else:

            self.ip_num += 3

            print('使用的是本机ip......')

'''

两个获取ip的设置,对ip池的访问返回是个问题,

如果加上一个判定什么网页使用selenium + 获取ip,什么网页使用正常的获取ip正常的访问

比如 if re.findall(r'根据需求的url过滤,必须使用selenium加载的js动态页面',request.url)

'''

class YanzhenIp_selenium_DownloaderMiddleware(object):

    def __init__(self):

        self.chrome_options = Options()

        self.chrome_options.add_argument('--headless')

        self.chrome_options.add_argument('--disable-gpu')

        # self.driver = webdriver.Chrome(chrome_options=chrome_options)

        self.chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])

        self.ip = ''

        self.url = 'http://proxy.1again.cc:35050/api/v1/proxy/?type=2'

        self.ip_num = 0

    def process_request(self, request, spider):

        # if re.findall(r'根据需求的url过滤,必须使用selenium加载的js动态页面', request.url):

        print('获取ip............')　　　　# 为selenium获取ip

        if self.ip_num == 0 or self.ip_num >= 3:

            res = json.loads(requests.get(url=self.url).content.decode())

            if res:

                ip = res['data']['proxy']

                self.ip = ip

                self.ip_num = 1

        print('调用selenium中.............')

        self.chrome_options.add_argument("--proxy-server=http://{}".format(self.ip))　　　　# 加载ip

        print('插入ip{},并使用{}'.format(self.ip,self.ip_num), '-' * 20)

        self.driver = webdriver.Chrome(chrome_options=self.chrome_options)

        self.driver.get(request.url)

        html = self.driver.page_source

        url = self.driver.current_url

        response =  HtmlResponse(url=url,body=html,encoding='utf-8',request=request)

        return response

    def close_spider(self,spider):

        self.driver.close()

        print('关闭selenium')

ua也可以这样搞

随手一写,有待优化

ga改进版本,有待优化

class YanzhenIp_selenium_DownloaderMiddleware(object):

    def __init__(self):

        self.chrome_options = Options()

        self.chrome_options.add_argument('--headless')

        self.chrome_options.add_argument('--disable-gpu')

        # self.driver = webdriver.Chrome(chrome_options=chrome_options)

        self.chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])

        self.ip = ''

        self.url = 'http://proxy.1again.cc:35050/api/v1/proxy/?type=2'

        self.ip_num = 0

    def process_request(self, request, spider):

        # if re.findall('js加载页面的url',request.url):

        if self.ip_num == 0 or self.ip_num >= 10:

            res = json.loads(requests.get(url=self.url).content.decode())

            if res:

                ip = res['data']['proxy']

                self.ip = ip

                self.ip_num = 1

        if re.findall('js加载页面的url', request.url):

            # TODO if self.ip ?? 做个判断有咩有ip 没有的时候怎么办

            print('调用selenium中.............')

            self.chrome_options.add_argument("--proxy-server=http://{}".format(self.ip))

            print('插入ip{},并使用{}'.format(self.ip,self.ip_num), '-' * 20)

            self.driver = webdriver.Chrome(chrome_options=self.chrome_options)

            self.driver.get(request.url)

            html = self.driver.page_source

            url = self.driver.current_url

            response =  HtmlResponse(url=url,body=html,encoding='utf-8',request=request)

            return response

        else:       # 抓取简单的页面,scrapy可以胜任

            if self.ip:

                request.meta['proxy'] = 'http://' + self.ip

                self.ip_num += 1

                print('ip地址>>>{} --- 使用次数{}'.format(self.ip, self.ip_num))

            else:

                self.ip_num += 3

                print('使用的是本机ip......')

    def close_spider(self,spider):

        self.driver.close()

        print('关闭selenium')

scrapy中间件中使用selenium切换ip的更多相关文章

scrapy中间件中发送邮件
背景介绍:之前写过通过通过scrapy的扩展发送邮件,在爬虫关闭的时候发送邮件.那个时候有个问题就是MailSender对象需要return出去.这次需要在中间件中发送邮件,但是中间件中不能随便使用r ...
Scrapy中间件user-agent和ip代理使用
一.定义实现随机User-Agent的下载中间件 1.在middlewares.py中完善代码 import random from Tencent.settings import USER_AGEN ...
在Scrapy中使用selenium
在scrapy中使用selenium 在scrapy中需要获取动态加载的数据的时候,可以在下载中间件中使用selenium 编码步骤: 在爬虫文件中导入webdrvier类在爬虫文件的爬虫类的构造方 ...
scrapy——中间件UserAgent代理
pip install fake-useragent 使用说明:from fake_useragent import UserAgent# 实例化一个UserAgent对象ua = UserAgent ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...
scrapy中的selenium
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池
1 使用 scrapy 做采集实在是爽,但是遇到网站反爬措施做的比较好的就让人头大了.除了硬着头皮上以外,还可以使用爬虫利器 selenium,selenium 因其良好的模拟能力成为爬虫爱(cai) ...

随机推荐

非参数检验|Sign test|Wilcoxon signed rank test|Wilcoxon rank sum test|Bootstrapping
非参数检验条件没有参数,因此就没有分布,利用数据等级之间的差距,依次赋值之后再用参数方法测试.将连续型变量转化为离散型变量,即顺序变量.与参数检验相比,正态分布较弱(p值有可能不显著,浪费信息,比如最 ...
Offer垂青于有准备的人——微软亚洲研究院实习生们的就业分享
编者按:一年一度的"求职大战"又拉开了序幕,如何在求职中掌握主动,更好地展现自己,最后抓住Offer?且听微软亚洲研究院三位实习生慢慢道来,Offer总会垂青于有准备的人. 廖振, ...
手机遥控Office，变身演讲达人
编者按:在商业演讲中,需要在PPT/Word/Excel文件中切换以达到最佳演讲效果-Office Remote可帮助Windows Phone变身Office的智能遥控.以蓝牙控制电脑,触屏操作多种 ...
MyBatis延迟加载及缓存
延迟加载 lazyLoadingEnabled 定义: MyBatis中的延迟加载也成为懒加载,就是在进行关联查询的时候按照设置延迟加载规则推迟对关联对象的select检索.延迟加载可以有效的减少数据 ...
Invalid action class configuration that references an unknown class解决方案
Sturts2整合后时出现诡异的异常: java.lang.RuntimeException: Invalid action class configuration that references a ...
redis下载安装及php配置redis
下载及安装redis 1.首先去github网站上下载https://github.com/dmajkic/redis/downloads: 2.根据实际情况,将64bit的内容cp到自定义盘符目录, ...
<JZOJ5938>分离计划
emm骚操作 #include<cstdio> #include<iostream> #include<cstring> #include<algorithm ...
Choway Blog
choway 2018-12-11 09:23:46 JavaJVM Java 虚拟机(JVM)在执行 Java 程序时会把它管理的内存划分为多个不同的数据区域.这些区域各有用途,以及创建和销毁的时间 ...
手工创建 efi,msr 分区 · Virgil Chan
昨天在帮同学装 win10 的时候,不小心(不知道那是什么东西)把原系统的 efi 和 msr 盘删了,用 WinNTsetup 安装时 EFI PART 总显示红叉,安装后也进不去系统,想想应该是找 ...
设计模式详解及PHP实现：代理模式
[目录] 代理模式(Proxy pattern) 代理模式是一种结构型模式,它可以为其他对象提供一种代理以控制对这个对象的访问. 主要角色抽象主题角色(Subject):它的作用是统一接口.此角色定 ...

scrapy中间件中使用selenium切换ip

scrapy中间件中使用selenium切换ip的更多相关文章

随机推荐

热门专题