将selenium集成到scrapy框架中

一首先想到的是将selenium 写在下载中间件的process_request中。如以下代码。

　　middleware.py

from selenium import webdriver

from scrapy.http import HtmlResponse

class TestMiddleware(object):

    def __init__(self):

        self.driver = webdriver.Chrome()

        super().__init__()

    def process_request(self, request, spider):

        self.driver.get('xxx')

        return HtmlResponse(url=self.driver.current_url,body=self.driver.page_source,encoding='utf-8')

　　但这有一个问题是，打开的selenium并不能关闭

二可以考虑将driver放在spider中。

　　好处有以下几点：

　　　　1 并不是每个spider 都是需要用selenium进行下载的

　　　　2 多个spider运行，打开selenium相当于开启了多进程。

　　类似这样

　　目前官方推荐奖信号绑定到crawler中，及类方法from_crawler。

　　spider.py

class YunqiSpider(scrapy.Spider):

    name = 'yunqi'

    def __init__(self):

        self.driver = webdriver.Chrome()

        super().__init__()

        dispatcher.connect(self.close_spider,signal=signals.spider_closed)

　　middleware.py

from scrapy.http import HtmlResponse

class TestMiddleware(object):

    def process_request(self, request, spider):

        return HtmlResponse(url=spider.driver.current_url,body=spider.driver.page_source,encoding='utf-8')

将selenium集成到scrapy框架中的更多相关文章

Cordova与现有框架的结合，Cordova插件使用教程，Cordova自定义插件，框架集成Cordova，将Cordova集成到现有框架中
一.框架集成cordova 将cordova集成到现有框架中一般cordova工程是通过CMD命令来创建一个工程并添加Android.ios等平台,这样的创建方式可以完整的下载开发过程中所需要的的插 ...
Scrapy框架中的CrawlSpider
小思考:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二: ...
Scrapy框架中选择器的用法【转】
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...
scrapy框架中Download Middleware用法
scrapy框架中Download Middleware用法 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给sp ...
scrapy框架中Item Pipeline用法
scrapy框架中item pipeline用法当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的pyt ...
scrapy框架中Spiders用法
scrapy框架中Spiders用法 Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以 ...
scrapy框架中选择器的用法
scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...
Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法
Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以初始的URL初始化Request,并设 ...
Scrapy框架中的xpath选择
不同于我们普通爬虫获取xpath,scrapy获得xpath对象获取他的值语法一.xpath对象获取值 xpath对象..extract() 二.Scrapy框架独有的xpath取值方式利用hre ...

随机推荐

Problem Y: 哪一天，哪一秒？
Problem Y: 哪一天,哪一秒? Time Limit: 1 Sec Memory Limit: 128 MBSubmit: 337 Solved: 196[Submit][Status][ ...
Python 求两个文本文件以行为单位的交集并集差集
Python 求两个文本文件以行为单位的交集并集差集,来代码: s1 = set(open('a.txt','r').readlines()) s2 = set(open('b.txt','r') ...
Vmware 安装CentOS7时连不上网问题的解决
在VmWare 上安装Centos7时,装好vmware后还是连不上网,通过查找资料原来是因为有线网卡没有激活,默认centos和redhat7都是不启用有线网卡的,要么手动开启,要么安装时直接启用! ...
perl -p -i -w -e
.txt kllk nciuwbufcbew``````//.]];s[[..; klklkl x,dsncdk,;l,ex xw,eocxmcmck .txt .txt kkkkkkkkkkkkkk ...
linux - 权限解析
当你在linux下用命令ll 或者ls -la的时候会看到这些字眼,这些字眼表示为不同用户组的权限:r:read就是读权限 --数字4表示w:write就是写权限 --数字2表示 x:excute就是 ...
Swift开发中 JSON对象/JSON字符串/Data的互转
本文将介绍Swift开发中常用的转换(JSON对象/JSON字符串/Data之间的互相转换) #pragma mark - JSON(对象)----->JSON字符串 1.原生方法 //JSON ...
iOS应用架构谈part4-本地持久化方案及动态部署
前言嗯,你们要的大招.跟着这篇文章一起也发布了CTPersistance和CTJSBridge这两个库,希望大家在实际使用的时候如果遇到问题,就给我提issue或者PR或者评论区.每一个issue和 ...
在Keras中导入测试数据的方法
https://blog.csdn.net/ethantequila/article/details/80322425?utm_source=blogxgwz2
Kafka 基础实战：消费者和生产者实例
学习地址: http://www.jikexueyuan.com/course/2036.html
LeetCode（283）Move Zeroes
题目 Given an array nums, write a function to move all 0's to the end of it while maintaining the rela ...

将selenium集成到scrapy框架中

将selenium集成到scrapy框架中的更多相关文章

随机推荐

热门专题