Scrapy中集成selenium

面对众多动态网站比如说淘宝等，一般情况下用selenium最好

那么如何集成selenium到scrapy中呢？

因为每一次request的请求都要经过中间件，所以写在中间件中最为合适

from selenium import webdriver

from scrapy.http import HtmlResponse

class JSPageMiddleware(object):

    def process_request(self, request, spider):

        if spider.name == "xinlang":  # 这只是一个示例表示爬虫为新浪，当然可以自定义比如正则表达式对于某一种网址来进行过滤

            browser = webdriver.Chrome()

            browser.get(request.url)

            import time

            time.sleep(3)

            print("访问：{0}".format(request.url))  # 如何在这里发送完成之后就不发送给scrapy下载器了呢？

            return HtmlResponse(url=browser.current_url, body=browser.page_source, encoding="utf-8",request=request)

            # 一旦遇到HTMLResponse，scrapy就不会向download发送了，而是直接返回给spider了,上面所有值都是必须的

注意别忘了将中间件写入到settings中！

是不是可以优化的空间了呢？

每一次请求都要打开一次Chrome，这个就很烦了，因为速度比较慢

from selenium import webdriver

from scrapy.http import HtmlResponse

class JSPageMiddleware(object):

    def __init__(self):

        self.browser = webdriver.Chrome

        super().__init__()

    def process_request(self, request, spider):

        if spider.name == "xinlang":  # 这只是一个示例表示爬虫为新浪，当然可以自定义比如正则表达式对于某一种网址来进行过滤

            self.browser.get(request.url)

            import time

            time.sleep(3)

            print("访问：{0}".format(request.url))  # 如何在这里发送完成之后就不发送给scrapy下载器了呢？

            return HtmlResponse(url=self.browser.current_url, body=self.browser.page_source, encoding="utf-8", request=request)

            # 一旦遇到HTMLResponse，scrapy就不会向download发送了，而是直接返回给spider了,上面所有值都是必须的

这样只需要打开一次Chrome了，但是，注意下，这样的话scrapy就不会关闭了，那怎么办？

我们把它放到spider中

那这样的话，中间件中改为

from scrapy.http import HtmlResponse

class JSPageMiddleware(object):

    def process_request(self, request, spider):

        if spider.name == "xinlang":

            spider.browser.get(request.url)  # 利用spider来进行调用

            import time

            time.sleep(3)

            print("访问：{0}".format(request.url))  # 如何在这里发送完成之后就不发送给scrapy下载器了呢？

            return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding="utf-8", request=request)

但是这样还是有问题，我咋知道什么时间关闭？

from selenium import webdriver

from scrapy.xlib.pydispatch import dispatcher  # scrapy的分发器

from scrapy import signals

class LagouSpider(CrawlSpider):

    name = 'lagou'

    allowed_domains = ['www.lagou.com']

    start_urls = ['https://www.lagou.com/']

    rules = (

        Rule(LinkExtractor(allow=('www.lagou.com/jobs/',)), callback='parse_job'),

    )

    def __init__(self):

        self.browser = webdriver.Chrome

        super().__init__()

        dispatcher.connect(self.spider_closed, signals.spider_closed)  # 没有括号的

    def spider_closed(self):

        print("spider closed")

        self.browser.quit()

是不是和django的用法非常一致？

但是异步处理的时候，则么办，现在是一个同步的请求！

那么重写download

git 搜索scrapy download一搜便知

Scrapy中集成selenium的更多相关文章

在Scrapy中使用selenium
在scrapy中使用selenium 在scrapy中需要获取动态加载的数据的时候,可以在下载中间件中使用selenium 编码步骤: 在爬虫文件中导入webdrvier类在爬虫文件的爬虫类的构造方 ...
scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池
1 使用 scrapy 做采集实在是爽,但是遇到网站反爬措施做的比较好的就让人头大了.除了硬着头皮上以外,还可以使用爬虫利器 selenium,selenium 因其良好的模拟能力成为爬虫爱(cai) ...
scrapy中的selenium
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
爬虫之scrapy框架应用selenium
一.利用selenium 爬取网易军事新闻使用流程: ''' 在scrapy中使用selenium的编码流程: 1.在spider的构造方法中创建一个浏览器对象(作为当前spider的一个属性) ...
第三百五十一节，Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中
第三百五十一节,Python分布式爬虫打造搜索引擎Scrapy精讲—将selenium操作谷歌浏览器集成到scrapy中 1.爬虫文件 dispatcher.connect()信号分发器,第一个参数信 ...
scrapy架构与目录介绍、scrapy解析数据、配置相关、全站爬取cnblogs数据、存储数据、爬虫中间件、加代理、加header、集成selenium
今日内容概要 scrapy架构和目录介绍 scrapy解析数据 setting中相关配置全站爬取cnblgos文章存储数据爬虫中间件和下载中间件加代理,加header,集成selenium 内 ...
selenium在scrapy中的使用、UA池、IP池的构建
selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed ...
15.scrapy中selenium的应用
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...

随机推荐

搭建 Jest+ Enzyme 测试环境
1.为什么要使用单元测试工具? 因为代码之间的相互调用关系,又希望测试过程单元相互独立,又能正常运行,这就需要我们对被测函数的依赖函数和环境进行mock,在测试数据输入.测试执行和测试结果检查方面存在 ...
CentOS7.5 GlusterFS 分布式文件系统集群环境搭建
环境准备: 系统版本:CentOS Linux release 7.5.1804 (Core) glusterfs:3.6.9 userspace-rcu-master: 硬件资源: 10.200.2 ...
"Last_IO_Error: Fatal error: The slave I/O thread stops because master and slave have equal MySQL server UUIDs
最近在部署MySQL主从复制架构的时候,碰到了"Last_IO_Error: Fatal error: The slave I/O thread stops because master a ...
记一次解决cmd中执行java提示"找不到或无法加载主类"的问题
今天遇到一个问题:在cmd命令行中,用javac编译java文件可以成功,但是用java执行却提示“找不到或无法加载主类”.现将该问题的原因以及解决办法记录一下. 先理解一下系统变量path和clas ...
WebApi的好处和MVC的区别
1.WebApiwebapi有自己的路由. webservice和wcf的协议都是soap协议,数据的序列化和反序列化都是soap的格式.而webapi是Json的数据传递 webapi的优点有哪些? ...
Android 开发获取设备信息与App信息
设备信息设备ID(DeviceId) 获取办法 android.telephony.TelephonyManager tm = (android.telephony.TelephonyManager ...
7种清除浮动（感觉br最好用然而我用的还是overflow）
1.clear清除浮动(添加空div法) 在浮动元素下方添加空div,并给该元素写css样式: {clear:both;height:0;overflow:hidden;} 2.方法:给浮动元素父级设 ...
宝塔面板配置阿里云SSL证书流程
阿里云SSL证书申请过程就不在这里说了 1 先下载阿里云成功申请的SSL证书解压后有3个文件 2 找到宝塔面板的站点设置找到SSL设置 3 找到其他证书用文本打开.key文件复制里面 ...
Git 记不住命令
Git 记不住命令每次用每次查真棒 git log --stat --author=someone # git查询某个人修改记录 git log filename # fileName相关的com ...
SpringBoot学习笔记1
1.什么是SpringBoot 用一些固定的方式来构建生产级别的spring应用.spring boot推崇约定大于配置的方式便于你能够快速的启动并运行程序. 2.为什么要学spring boot j ...

Scrapy中集成selenium

Scrapy中集成selenium的更多相关文章

随机推荐

热门专题