Scrapy 框架使用 selenium 爬取动态加载内容

使用 selenium 爬取动态加载内容

开启中间件

DOWNLOADER_MIDDLEWARES = {

   'wangyiPro.middlewares.WangyiproDownloaderMiddleware': 543,

}

在爬虫文件中创建浏览器对象

使用爬虫文件的 init 方法

def __init__(self):

    self.bro = webdriver.Chrome(executable_path=r'C:\Users\old-boy\Desktop\爬虫+数据\爬虫_day04\chromedriver.exe')

数据解析:

start_urls = ['http://news.163.com/domestic/']

.......

def parse(self, response):

    div_list = response.xpath('//div[@class="ndi_main"]/div')

    for div in div_list:

        title = div.xpath('./div/div[1]/h3/a/text()').extract_first()

        detail_url = div.xpath('./div/div[1]/h3/a/@href').extract_first()

        print(title,detail_url)

操作在 process_response(self,request,response,spider) 中编写浏览器自动化操作

进行点击或者页面滚动

返回新的 response 对象

rom time import sleep

from scrapy.http import HtmlResponse

class WangyiproDownloaderMiddleware(object):

    #拦截所有的响应对象

    def process_response(self, request, response, spider):

        # request.url  拦截到响应的 url 判断是否是请求的响应 对象

        # 有些页面 不需要 使用 selenium 直接返回 response

        # 参数spider表示的就是爬虫类的一个对象

        # 使用一个满足需求的新的响应对象替换原有的

        bro = spider.bro # 浏览器对象

        url = spider.start_urls[0]

        bro.get(url)

        bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

        sleep(2)

        bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

        sleep(2)

        bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')

        sleep(2)

        a_tag = bro.find_elements_by_class_name('load_more_btn')[0]

        a_tag.click()

        sleep(2)

        page_text = bro.page_source

        #实例化一个新的响应对象

        response = HtmlResponse(url=bro.current_url,body=page_text,encoding='utf-8',request=request)

        return response

关闭浏览器对象

重写 closed(self,spider):

def closed(self,spider):

    self.bro.quit()

Scrapy 框架使用 selenium 爬取动态加载内容的更多相关文章

Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
关于使用scrapy框架编写爬虫以及Ajax动态加载问题、反爬问题解决方案
Python爬虫总结总的来说,Python爬虫所做的事情分为两个部分,1:将网页的内容全部抓取下来,2:对抓取到的内容和进行解析,得到我们需要的信息. 目前公认比较好用的爬虫框架为Scrapy,而且 ...
爬虫再探实战（三）———爬取动态加载页面——selenium
自学python爬虫也快半年了,在目前看来,我面临着三个待解决的爬虫技术方面的问题:动态加载,多线程并发抓取,模拟登陆.目前正在不断学习相关知识.下面简单写一下用selenium处理动态加载页面相关的 ...
爬虫再探实战（四）———爬取动态加载页面——请求json
还是上次的那个网站,就是它.现在尝试用另一种办法——直接请求json文件,来获取要抓取的信息. 第一步,检查元素,看图如下: 过滤出JS文件,并找出包含要抓取信息的js文件,之后就是构造request ...
基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
C#使用phantomjs，爬取AJAX加载完成之后的页面
1.开发思路:入参根据apiSetting配置文件,分配静态文件存储地址,可实现不同站点的静态页生成功能.静态页生成功能使用无头浏览器生成,生成之后的字符串进行正则替换为固定地址,实现本地正常访问. ...
Win8 Metro动态加载内容框架
制作背景为了参加ImagineCup 2013 世界公民类比赛,我们设计制作了一个可动态扩展的幼教类App.这个App需要能动态加载内容,内容包括带动画可交互的电子书,动画,视频,游戏. 技术支持 ...
在ASP.NET中动态加载内容（用户控件和模板）
在ASP.NET中动态加载内容(用户控件和模板) 要点: 1．使用Page.ParseControl 2．使用base.LoadControl 第一部分:加载模板下面是一个模板“<tab ...

随机推荐

推送GitHub报错 fatal: Out of memory, malloc failed 解决办法
现象: 推送GitHub时,出现如下报错 fatal: Out of memory, malloc failed (tried to allocate XXXXXX bytes)error: fail ...
Netty实战十一之预置的ChannelHandler和编解码器
Netty为许多通用协议提供了编解码器和处理器,几乎可以开箱即用,这减少了你在那些相当繁琐的事务上本来会花费的时间与精力.我们将探讨这些工具以及它们所带来的好处,其中包括Netty对于SSL/TLS和 ...
Flex 项目属性：flex 布局示例
flex属性: flex属性是flex-grow, flex-shrink 和 flex-basis的简写,默认值为0 1 auto.后两个属性可选. 该属性有两个快捷值:auto (1 1 auto ...
es6 语法（字符串扩展）
{ console.log('a',`\u0061`); //a,a console.log('s',`\u20BB7`); //s ₻7 console.log('s',`\u{20BB7}`) / ...
Vue2+VueRouter2+webpack 构建项目实战（二）：目录以及文件结构
通过上一篇博文<Vue2+VueRouter2+webpack 构建项目实战(一):准备工作>,我们已经新建好了一个基于vue+webpack的项目.本篇文章详细介绍下项目的结构. 项目目 ...
javaScript 设计模式之中介者模式示例
飞机把注册信息放到铁塔里,发送数据到铁塔,报告其它的飞机一些信息. var feiji = function( name ){ this.name = name; } feiji.prototype. ...
【20190226】CSS-知识点记录：:nth-child，:nth-of-type
:nth-child: ele:nth-child(k):选择父元素下第k个子元素,且该子元素为ele,若不是,则选择失败,k从1开始计数 ele:nth-child(-n+5):选中前五个子元素,n ...
【Wyn Enterprise BI知识库】认识多维数据建模与分析 ZT
与业务系统类似,商业智能的基础是数据.但是,因为关注的重点不同,业务系统的数据使用方式和商业智能系统有较大差别.本文主要介绍的就是如何理解商业智能所需的多维数据模型和多维数据分析. 数据立方体多维数 ...
关于处理注册表权限无法修改的问题（无法打开主键或注册表项unknown）
CMD下(管理员) secedit /configure /cfg %windir%\inf\defltbase.inf /db defltbase.sdb /verbose 此命令可以生成报告, 任 ...
Retrieve OpenGL Context from Qt 5.5 on OSX
In the latest Qt 5.5, the QOpenGLWidget is much better and has less bugs than the QGLWidget, but it ...

Scrapy 框架 使用 selenium 爬取动态加载内容

使用 selenium 爬取动态加载内容

Scrapy 框架 使用 selenium 爬取动态加载内容的更多相关文章

随机推荐

热门专题

Scrapy 框架使用 selenium 爬取动态加载内容

Scrapy 框架使用 selenium 爬取动态加载内容的更多相关文章