Scrapy框架延迟请求之Splash的使用

Splash是什么，用来做什么

Splash, 就是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器，Splash是用Python实现的，同时使用Twisted和QT。Twisted（QT）用来让服务具有异步处理能力，以发挥webkit的并发能力。Splash的特点如下：

并行处理多个网页
得到HTML结果以及（或者）渲染成图片
关掉加载图片或使用 Adblock Plus规则使得渲染速度更快
使用JavaScript处理网页内容
使用Lua脚本
能在Splash-Jupyter Notebooks中开发Splash Lua scripts
能够获得具体的HAR格式的渲染信息

为什么Scrapy要使用到

Scrapy也有其不足之处，即Scrapy没有JS engine, 因此它无法爬取JavaScript生成的动态网页，只能爬取静态网页，而在现代的网络世界中，大部分网页都会采用JavaScript来丰富网页的功能。所以结合Splash实现等待页面动态渲染后，将页面数据进行爬取。

Splash的安装使用

这里安装Splash使用Docker形式，更加简单便捷

docker run -p 8050:8050 scrapinghub/splash

执行完出现如下提示：

J-pro:scrapy will$ docker run -p 8050:8050 scrapinghub/splash

2020-07-05 07:43:32+0000 [-] Log opened.

2020-07-05 07:43:32.605417 [-] Xvfb is started: ['Xvfb', ':190283716', '-screen', '0', '1024x768x24', '-nolisten', 'tcp']

QStandardPaths: XDG_RUNTIME_DIR not set, defaulting to '/tmp/runtime-splash'

2020-07-05 07:43:33.109852 [-] Splash version: 3.4.1

2020-07-05 07:43:33.356860 [-] Qt 5.13.1, PyQt 5.13.1, WebKit 602.1, Chromium 73.0.3683.105, sip 4.19.19, Twisted 19.7.0, Lua 5.2

2020-07-05 07:43:33.357321 [-] Python 3.6.9 (default, Nov  7 2019, 10:44:02) [GCC 8.3.0]

2020-07-05 07:43:33.357536 [-] Open files limit: 1048576

2020-07-05 07:43:33.357825 [-] Can't bump open files limit

2020-07-05 07:43:33.385921 [-] proxy profiles support is enabled, proxy profiles path: /etc/splash/proxy-profiles

2020-07-05 07:43:33.386193 [-] memory cache: enabled, private mode: enabled, js cross-domain access: disabled

2020-07-05 07:43:33.657176 [-] verbosity=1, slots=20, argument_cache_max_entries=500, max-timeout=90.0

2020-07-05 07:43:33.657856 [-] Web UI: enabled, Lua: enabled (sandbox: enabled), Webkit: enabled, Chromium: enabled

2020-07-05 07:43:33.659508 [-] Site starting on 8050

2020-07-05 07:43:33.659701 [-] Starting factory <twisted.web.server.Site object at 0x7fcc3cbb7160>

2020-07-05 07:43:33.660750 [-] Server listening on http://0.0.0.0:8050

访问：http://0.0.0.0:8050，出现如下页面则标识Splash安装成功

Python安装scrapy-splash模块

pip3 install scrapy-splash

Scrapy使用Splash

1. 创建Scrapy项目，如果还没创建则参考https://www.cnblogs.com/will-xz/p/13111048.html，进行安装

2. 找到settings.py文件，增加配置

SPLASH_URL = 'http://0.0.0.0:8050'

DOWNLOADER_MIDDLEWARES = {

'scrapy_splash.SplashCookiesMiddleware': 723,

'scrapy_splash.SplashMiddleware': 725,

'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,

}

SPIDER_MIDDLEWARES = {

'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,

}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

3. 实践Demo，创建demo_splash.py文件，代码如下：

# -*- coding: UTF-8 -*-
import scrapy
from scrapy_splash import SplashRequest

class DemoSplash(scrapy.Spider):
    """
       name:scrapy唯一定位实例的属性，必须唯一
       allowed_domains：允许爬取的域名列表，不设置表示允许爬取所有
       start_urls：起始爬取列表
       start_requests：它就是从start_urls中读取链接，然后使用make_requests_from_url生成Request，
                       这就意味我们可以在start_requests方法中根据我们自己的需求往start_urls中写入
                       我们自定义的规律的链接
       parse：回调函数，处理response并返回处理后的数据和需要跟进的url
       log：打印日志信息
       closed：关闭spider
       """
    # 设置name
    name = "demo_splash"
    allowed_domains = []
    start_urls = [
        'http://yao.xywy.com/class.htm',
    ]

    def parse(self, response):
        print("开始抓取")
        ## 爬取指定地址，设置等待秒数
        yield SplashRequest("http://yao.xywy.com/class/201-0-0-1-0-1.htm", callback=self.parse_page, args={'wait': 0.5})

    def parse_page(self, response):
        print(response.xpath('//div'))
        ## 这里可以对数据进行解析存储了

4. 执行抓取命令

scrapy crawl demo_splash

5. 完成！

Scrapy框架延迟请求之Splash的使用的更多相关文章

scrapy框架post请求发送，五大核心组件，日志等级，请求传参
一.post请求发送 - 问题:爬虫文件的代码中,我们从来没有手动的对start_urls列表中存储的起始url进行过请求的发送,但是起始url的确是进行了请求的发送,那这是如何实现的呢? - 解答: ...
scrapy框架3——请求传参
当使用scrapy爬取的数据不在同一张页面中(一次请求与数据后解析无法获得想要的全部数据),需要请求传参,在第一次解析时实例化item,将item传递,再次将请求到的数据解析后,封装在item中. 关 ...
第三百三十三节，web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
第三百三十三节,web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于star ...
十二 web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里 ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
12.scrapy框架之递归解析和post请求
今日概要递归爬取解析多页页面数据 scrapy核心组件工作流程 scrapy的post请求发送今日详情 1.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久 ...
Scrapy 框架手动发送请求 POST 请求的发送
手动发送请求 import scrapy from choutiSpider.items import ChoutispiderItem class ChoutiSpider(scrapy.Spide ...
scrapy框架之递归解析和post请求
递归爬取解析多页页面数据 scrapy核心组件工作流程 scrapy的post请求发送 1.递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取切持久化存储 - 需求分析 ...
scrapy框架发送post请求
注:scrapy框架默认发送get请求 1.想要发送post请求,那么推荐使用‘scrapy.FormRequest’方法.可以方便的制定表单数据.request = scrapy.FormReque ...

随机推荐

Java：并发笔记-01
Java:并发笔记-01 说明:这是看了 bilibili 上黑马程序员的课程 java并发编程后做的笔记 1. 进程与线程本章内容进程和线程的概念并行和并发的概念线程基本应用 1.1 ...
21.6.25 test
$NOI$ 模拟赛 $T1$ 是树+位运算+dp+优化打了 $O(n^2)$ 的暴力dp,只拿到了35分,算了一下参赛的,人均65,中位数60.也能看出一些问题,对于一些模糊的猜测应该尝 ...
linux shell 提示符
当我们打开或者登陆到一个终端的时候都会显示一长串提示符 void@void-ThinkPad-E450:~$ 提示符一般包含当前登陆的用户名 ,主机名,以及当前工作路径路径,最后都是以 $ 或者 # ...
Python SyntaxError: Missing parentheses in call to 'print'
下面的代码 print "hello world" 会出现下面的错误 SyntaxError: Missing parentheses in call to 'print' 因为写 ...
hdu 2795 Billboard（单点更新，区间查询）
题意: h*w的白板. 有n个广告牌,每个广告牌是1*wi.必须放置在白板的upmost中的leftmost. 输出n个广告牌放置在第几行.如果放不下,输出-1. 数据规格: h, w, and n ...
BQ40Z50固件怎么升级？告诉你BQ系列芯片内部结构和升级方法
一 BQ芯片初步认识包括BQ40Z50在内,BQ系列电池管理芯片看起来是一个芯片,其实芯片里面封装了两个die.一个是MCU部分负责计算和控制,其采用的是bqBMP内核的16位处理器:另外一个die ...
shell 脚本控制命令的执行顺序
&&,||,(),{},& 五个符号的运用shell脚本执行命令的时候,有时候会依赖于前一个命令是否执行成功.而&&和||就是用来判断前一个命令执行效果的. 也 ...
kafka的安装
kafka是基于java环境的,所以需要先安装java环境 centos:yum install java-11-openjdk ubuntu:apt install default-jdk 默安装默 ...
Java测试开发--sts安装Lombok（七）
1.sts安装Lombok的步骤: 下载最新的lombok.jar包,进入cmd窗口,切到Lombok下载的目录,运行命令: java -jar lombok.jar,会出现如下界面: 已经默认选好了 ...
JetBrains IntelliJ IDEA汉化
JetBrains IntelliJ IDEA汉化开启 IntelliJ IDEA,点击右下角Configure菜单,选择 Plugins.在弹出的 Plugins窗口里,切换至 Marketpla ...