在Scrapy中使用selenium

在scrapy中使用selenium

在scrapy中需要获取动态加载的数据的时候，可以在下载中间件中使用selenium

编码步骤：

在爬虫文件中导入webdrvier类
在爬虫文件的爬虫类的构造方法中进行浏览器实例化的操作
在爬虫类close方法中进行浏览器关闭的操作
在下载中间件的peocess_response方法中编写执行浏览器自动化的操作



from scrapy.http import HtmlResponse

class WangyiproDownloaderMiddleware(object):

    def process_request(self, request, spider):

        return None

    # 可以拦截到响应对象(下载器传递给spider的响应对象）

    def process_response(self, request, response, spider):

        '''

        :param request:当前响应对象对应的请求对象

        :param response:拦截到的响应对象

        :param spider:爬虫文件中对应的爬虫类的实例

        :return:

        '''

        # print(request.url+'这是下载中间件')

        # 响应对象中存储页面数据的篡改

        url_list = [

            'http://news.163.com/world/',

            'http://news.163.com/domestic/',

            'http://news.163.com/air/',

            'http://war.163.com/'

        ]

        if request.url in url_list:

            spider.bro.get(url=request.url)

            # page_text页面数据就是包含了动态加载出来的新闻数据对应的页面数据

            page_text = spider.bro.page_source

            # 返回篡改后的响应对象

            return HtmlResponse(url=spider.bro.current_url,body=page_text,encoding='utf-8')

        else:

            return response

在Scrapy中使用selenium的更多相关文章

scrapy中使用selenium来爬取页面
scrapy中使用selenium来爬取页面 from selenium import webdriver from scrapy.http.response.html import HtmlResp ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...
scrapy中的selenium
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
如何优雅的在scrapy中使用selenium —— 在scrapy中实现浏览器池
1 使用 scrapy 做采集实在是爽,但是遇到网站反爬措施做的比较好的就让人头大了.除了硬着头皮上以外,还可以使用爬虫利器 selenium,selenium 因其良好的模拟能力成为爬虫爱(cai) ...
爬虫之scrapy框架应用selenium
一.利用selenium 爬取网易军事新闻使用流程: ''' 在scrapy中使用selenium的编码流程: 1.在spider的构造方法中创建一个浏览器对象(作为当前spider的一个属性) ...
selenium在scrapy中的使用、UA池、IP池的构建
selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed ...
15.scrapy中selenium的应用
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
scrapy中selenium的应用
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...
selenium在scrapy中的应用
引入在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值.但是通过观察我们会发现 ...

随机推荐

wireshark抓包结果很多[TCP Retransmission]怎么办？
有一同事问用wireshark抓包时发现很多[TCP Retransmission],这些包极大影响了自己真正想看的http数据包,如下图. 我拿到pcapng后首先看到这些包的来源ip都是固定的两个 ...
CentOS 6.5安装squashfs-tools
在sourceforge.net网站下载源码包需要安装的依赖项有zlib-devel.xz-devel.x86_64 修改Makefile文件以支持xz压缩的squashfs文件,去掉Makefil ...
linux --- 6. 项目部署
一.负载均衡 .准备三台机器,准备3台虚拟机,或者和俩同桌交流一下 192.168.226.128 是nginx资源服务器,返回页面的 192.168.226.129 用作nginx负载均衡服务器 1 ...
selenium+java利用AutoIT实现文件上传
转自https://www.cnblogs.com/yunman/p/7112882.html?utm_source=itdadao&utm_medium=referral 1.AutoIT介 ...
shiro权限管理入门程序
最近在学shiro,觉得入门程序还是有用的,记下来防止遗忘,也可供大家参考. package cn.itcast.shiro.authentication; import org.apache.shi ...
kettle 连接 SQL Server 异常
场景重现新安装的 kettle(pdi-ce-7.0.0.0-25) 连接 SQL Server 2012 时报错如下: 解决办法到 https://sourceforge.net/project ...
loj6068. 「2017 山东一轮集训 Day4」棋盘二分图，网络流
loj6068. 「2017 山东一轮集训 Day4」棋盘链接 https://loj.ac/problem/6068 思路上来没头绪,后来套算法,套了个网络流经典二分图左边横,右边列先重新 ...
Server.Transfer VS Response.Redirect – Simplified
https://www.codeproject.com/Articles/775221/Server-Transfer-VS-Response-Redirect-Simplified Introduc ...
P4248 [AHOI2013]差异
思路 SAM 后缀自动机parent树的LCA就是两个子串的最长公共后缀现在要求LCP 所以把字符串反转一下然后每个点的贡献就是endpos的大小,dfs一遍求出贡献就可以了代码 #includ ...
laravel框架——Excel导入导出
一.composer安装PHPExcel插件 1.在框架根目录下安装依赖 composer require "maatwebsite/excel:~2.1.0" 2.打开框架在co ...

在Scrapy中使用selenium

在scrapy中使用selenium

在Scrapy中使用selenium的更多相关文章

随机推荐

热门专题