将selenium集成到scrapy框架中

一首先想到的是将selenium 写在下载中间件的process_request中。如以下代码。

　　middleware.py

from selenium import webdriver

from scrapy.http import HtmlResponse

class TestMiddleware(object):

    def __init__(self):

        self.driver = webdriver.Chrome()

        super().__init__()

    def process_request(self, request, spider):

        self.driver.get('xxx')

        return HtmlResponse(url=self.driver.current_url,body=self.driver.page_source,encoding='utf-8')

　　但这有一个问题是，打开的selenium并不能关闭

二可以考虑将driver放在spider中。

　　好处有以下几点：

　　　　1 并不是每个spider 都是需要用selenium进行下载的

　　　　2 多个spider运行，打开selenium相当于开启了多进程。

　　类似这样

　　目前官方推荐奖信号绑定到crawler中，及类方法from_crawler。

　　spider.py

class YunqiSpider(scrapy.Spider):

    name = 'yunqi'

    def __init__(self):

        self.driver = webdriver.Chrome()

        super().__init__()

        dispatcher.connect(self.close_spider,signal=signals.spider_closed)

　　middleware.py

from scrapy.http import HtmlResponse

class TestMiddleware(object):

    def process_request(self, request, spider):

        return HtmlResponse(url=spider.driver.current_url,body=spider.driver.page_source,encoding='utf-8')

将selenium集成到scrapy框架中的更多相关文章

Cordova与现有框架的结合，Cordova插件使用教程，Cordova自定义插件，框架集成Cordova，将Cordova集成到现有框架中
一.框架集成cordova 将cordova集成到现有框架中一般cordova工程是通过CMD命令来创建一个工程并添加Android.ios等平台,这样的创建方式可以完整的下载开发过程中所需要的的插 ...
Scrapy框架中的CrawlSpider
小思考:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二: ...
Scrapy框架中选择器的用法【转】
Python爬虫从入门到放弃(十四)之 Scrapy框架中选择器的用法请给作者点赞 --> 原文链接 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpa ...
scrapy框架中Download Middleware用法
scrapy框架中Download Middleware用法 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给sp ...
scrapy框架中Item Pipeline用法
scrapy框架中item pipeline用法当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的pyt ...
scrapy框架中Spiders用法
scrapy框架中Spiders用法 Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以 ...
scrapy框架中选择器的用法
scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...
Python爬虫从入门到放弃（十五）之 Scrapy框架中Spiders用法
Spider类定义了如何爬去某个网站,包括爬取的动作以及如何从网页内容中提取结构化的数据,总的来说spider就是定义爬取的动作以及分析某个网页工作流程分析以初始的URL初始化Request,并设 ...
Scrapy框架中的xpath选择
不同于我们普通爬虫获取xpath,scrapy获得xpath对象获取他的值语法一.xpath对象获取值 xpath对象..extract() 二.Scrapy框架独有的xpath取值方式利用hre ...

随机推荐

字符串的驻留（String Interning）
http://www.cnblogs.com/artech/archive/2007/03/04/663728.html 关于字符串的驻留的机制,对于那些了解它的人肯定会认为很简单,但是我相信会有很大 ...
mysq--索引模块
问题:为什么要使用索引? --->快速查询数据,但是仅仅这么回答,就是不专业的!!! 应该要分为数据量少的时候,不适用索引,走全表扫描的话,查询速率也是很快的数据量大的话,使用索引,查询速率 ...
Nginx正向代理代理http和https服务
Nginx正向代理代理http和https服务 1. 背景需求通过Nginx正向代理,去访问外网.可实现局域网不能访问外网的能力,以及防止在上网行为上,留下访问痕迹. 2. 安装配置 2.1安装 w ...
ssh整合思想 Spring与Hibernate和Struts2的action整合调用action添加数据库使用HibernateTemplate的save(entity)方法 update delete get 等方法crud操作
UserAction类代码: package com.swift.action; import com.opensymphony.xwork2.ActionSupport; import com.sw ...
Java第7次作业：造人类（用private封装，用static关键字自己造重载输出方法）什么是面向对象程序设计？什么是类和对象？什么是无参有参构造方法？什么是封装？
什么是面向对象程序设计? 我们称为OOP(Object Oriented Programming) 就是非结构化的程序设计要使用类和对象的方法来进行编程什么是类,什么是对象类就是封装了属性和 ...
cocos2dx观察者模式EventListenerCustom的使用（代替NotificationCenter）
在cocos2dx 3.x版本已经被弃用,改用EventDispatcher代替. 观察者模式是MVC模式的一种,一个model可以对应很多个观察者view,当model收到事件通知时,对应的view ...
React入门教程(二)
前言距离上次我写 React 入门教程已经快2个月了,年头年尾总是比较忙哈,在React 入门教程(一)我大概介绍了 React 的使用和一些注意事项,这次让我们来继续学习 React 一. Rea ...
c内置数据类型
参考 C与指针第三章类型类型标识符字节表示数值范围备注整型 [signed] int 2* -32768~32767 -2^15 ~ (2^15 -1) 无符号整型 unsigned [ ...
C++ 学习笔记（三）string 类
在C语言中如果想要使用字符串那么有两种方法: 1.定义char型数组:char[10]; 然后将每个字符填充到对应的位置. 优点:这种方式将字符串放在内存所以每个位置都可以修改. 缺点:赋值比较麻烦, ...
java中的jdbc操作
package demo; import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedSta ...

将selenium集成到scrapy框架中

将selenium集成到scrapy框架中的更多相关文章

随机推荐

热门专题