Scarpy+selenium 结合使用

首先要先在spider对象实例化时,同时实例化一个浏览器对象

# -*- coding: utf-8 -*-

import scrapy

from selenium import webdriver

"""

Scrapy 使用 selenium

    1.在spider的构造方法中实例化一个浏览器对象

    2.重写spider下的closed方法,该方法用来关闭浏览器

    3.在下载中间件的process_response方法中使用selenium,通过spider参数获取浏览器对象

    4.在中间件中使用selenium对网站进行信息抓取

    5.实例化一个HtmlResponse对象,且将page_source封装到HtmlResponse对象中

    6.返回该新的相应对象

    7.在parse函数中对新的response对象进行解析.

"""

class NewsSpider(scrapy.Spider):

    name = 'news'

    # allowed_domains = ['www.xxx.com']

    start_urls = ['http://war.163.com/']

    # 在实例化Spider对象时创建一个新的浏览器对象

    def __init__(self):

        self.bro = webdriver.Chrome(executable_path=r'F:\爬虫\chromedriver.exe')

    def parse(self, response):

        div_list = response.xpath('//div[@class="data_row news_article clearfix "]')

        for div in div_list:

            title = div.xpath('.//div[@class="news_title"]/h3/a/text()').extract_first()

            print(title)

    # 爬虫关闭后的执行的函数

    def closed(self,spider):

        print('关闭浏览器')

        self.bro.quit()

在下载中间中修改process_response方法

    def process_response(self, request, response, spider):

        # Called with the response returned from the downloader.

        # Must either;

        # - return a Response object

        # - return a Request object

        # - or raise IgnoreRequest

        # 在此处使用已经实例化好的浏览器对象.

        bro = spider.bro

        bro.get(url=request.url)

        sleep(3)

        page_text = bro.page_source

        sleep(3)

        # 返回新的response对象

        return HtmlResponse(url=bro.current_url, body=page_text, encoding='utf-8', request=request)

Scarpy+selenium 结合使用的更多相关文章

Python爬虫小白入门（四）PhatomJS+Selenium第一篇
一.前言在上一篇博文中,我们的爬虫面临着一个问题,在爬取Unsplash网站的时候,由于网站是下拉刷新,并没有分页.所以不能够通过页码获取页面的url来分别发送网络请求.我也尝试了其他方式,比如下拉 ...
Selenium的PO模式（Page Object Model）[python版]
Page Object Model 简称POM 普通的测试用例代码: .... #测试用例 def test_login_mail(self): driver = self.driver driv ...
selenium元素定位篇
Selenium webdriver是完全模拟用户在对浏览器进行操作,所有用户都是在页面进行的单击.双击.输入.滚动等操作,而webdriver也是一样,所以需要我们指定元素让webdriver进行单 ...
selenium自动化基础知识
什么是自动化测试? 自动化测试分为:功能自动化和性能自动化功能自动化即使用计算机通过编码的方式来替代手工测试,完成一些重复性比较高的测试,解放测试人员的测试压力.同时,如果系统有不份模块更改后,只要 ...
幼儿园的 selenium
from selenium import webdriver *固定开头 b=webdriver.Firefox() *打开火狐浏览器 browser. ...
使用selenium编写脚本常见问题（一）
前提:我用selenium IDE录制脚本,我用java写的脚本,如果大家想看的清楚明白推荐java/Junit4/Webdriver 我用的是java/TestNG/remote control 1 ...
关于selenium RC的脚本开发
第一.需要录制脚本,找个我也不说了.就是在firefox下下载一个selenium-IDE并且安装. 第二.在工具里找到selenium-IDE点击运行. 第三.默认是红色按钮点击状态的,接下来随便你 ...
基于python的selenium自动化测试环境安装
1. Python2安装官方网站:https://www.python.org/downloads/ (python3或新版本已经默认集成了pip包和path,安装的时候打勾就行,可以直接跳过下面第 ...
Selenium+python 配置
1. 安装python, www.python.org. 下载最新的python,应该是32位的.注意配置环境变量. 2. 安装PIP(pip是一个以Python计算机程序语言写成的软件包管理系统). ...

随机推荐

【关于selenium自动化中，Webdriver的原理以及工作流程】
原文地址:https://www.cnblogs.com/imyalost/p/7242747.html#4109245 作者:老张 1.关于Webdriver 设计模式:按照Server-Clie ...
C#获取当前程序集的完整路径
//获取当前程序集的完整路径加上EXE的名称 string binPath = Assembly.GetExecutingAssembly().Location; Console.WriteLine( ...
4.1、支持向量机（SVM）
1.二分类问题在以前的博客中,我们介绍了用于处理二分类问题的Logistic Regression算法和用于处理多分类问题的Softmax Regression算法,典型的二分类问题,如图: 对于上 ...
vue-devtools 必备开发工具
转载自:http://blog.csdn.net/sinat_17775997/article/details/70224280 最近在研究vue单页面应用,一步一步用上全家桶,开发避免不了的就是调试 ...
python四则运算2.0
github项目地址: https://github.com/kongkalong/python PSP 预估耗时(分钟) Planning .Estimate 48*60 Development . ...
ASP.NET中类的多语言编译
App_Code 文件夹中同时使用多种语言编程的方法在web.config文件里,加入如下的配置 <configuration> <system.web> <comp ...
webpack 打包之后，两行溢出没有效果
原因:发现-webkit-box-orient:vertical;并未设置成功解决:-webkit-box-orient: vertical; 加上注释包裹 .item-title { overflo ...
npm 包管理工具
能注册后看简单的功能订单加信息下单之前的判断要配合海潮的迁移数据运行自定义的脚本在 package.json 的 scripts 里添加自定义的结点 ( 比如 CSOR-serve ) &qu ...
自学springboot
参考资料 https://www.renren.io/guide/
一个数字键盘引发的血案——移动端H5输入框、光标、数字键盘全假套件实现
https://juejin.im/post/5a44c5eef265da432d2868f6 为啥要写假键盘? 还是输入框.光标全假的假键盘? 手机自带的不用非得写个假的,吃饱没事干吧? 装逼?炫技 ...

Scarpy+selenium 结合使用

Scarpy+selenium 结合使用的更多相关文章

随机推荐

热门专题