[Python3网络爬虫开发实战] 1.8.3-Scrapy-Splash的安装

Shadow_Y 2024-10-31 11:26:55 原文

Scrapy-Splash是一个Scrapy中支持JavaScript渲染的工具，本节来介绍它的安装方式。

Scrapy-Splash的安装分为两部分。一个是Splash服务的安装，具体是通过Docker，安装之后，会启动一个Splash服务，我们可以通过它的接口来实现JavaScript页面的加载。另外一个是Scrapy-Splash的Python库的安装，安装之后即可在Scrapy中使用Splash服务。

1. 相关链接

GitHub：https://github.com/scrapy-plugins/scrapy-splash
PyPI：https://pypi.python.org/pypi/scrapy-splash
使用说明：https://github.com/scrapy-plugins/scrapy-splash#configuration
Splash官方文档：http://splash.readthedocs.io

2. 安装Splash

Scrapy-Splash会使用Splash的HTTP API进行页面渲染，所以我们需要安装Splash来提供渲染服务。这里通过Docker安装，在这之前请确保已经正确安装好了Docker。

安装命令如下：

1	docker run -p 8050:8050 scrapinghub/splash

安装完成之后，会有类似的输出结果：

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

2017-07-03 08:53:28+0000 [-] Log opened.

2017-07-03 08:53:28.447291 [-] Splash version: 3.0

2017-07-03 08:53:28.452698 [-] Qt 5.9.1, PyQt 5.9, WebKit 602.1, sip 4.19.3, Twisted 16.1.1, Lua 5.2

2017-07-03 08:53:28.453120 [-] Python 3.5.2 (default, Nov 17 2016, 17:05:23) [GCC 5.4.0 20160609]

2017-07-03 08:53:28.453676 [-] Open files limit: 1048576

2017-07-03 08:53:28.454258 [-] Can't bump open files limit

2017-07-03 08:53:28.571306 [-] Xvfb is started: ['Xvfb', ':1599197258', '-screen', '0', '1024x768x24', '-nolisten', 'tcp']

QStandardPaths: XDG_RUNTIME_DIR not set, defaulting to '/tmp/runtime-root'

2017-07-03 08:53:29.041973 [-] proxy profiles support is enabled, proxy profiles path: /etc/splash/proxy-profiles

2017-07-03 08:53:29.315445 [-] verbosity=1

2017-07-03 08:53:29.315629 [-] slots=50

2017-07-03 08:53:29.315712 [-] argument_cache_max_entries=500

2017-07-03 08:53:29.316564 [-] Web UI: enabled, Lua: enabled (sandbox: enabled)

2017-07-03 08:53:29.317614 [-] Site starting on 8050

2017-07-03 08:53:29.317801 [-] Starting factory <twisted.web.server.Site object at 0x7ffaa4a98cf8>

这样就证明Splash已经在8050端口上运行了。这时我们打开http://localhost:8050，即可看到Splash的主页，如图1-80所示。

图1-80 运行页面

当然，Splash也可以直接安装在远程服务器上。我们在服务器上以守护态运行Splash即可，命令如下：

1	docker run -d -p 8050:8050 scrapinghub/splash

这里多了-d参数，它代表将Docker容器以守护态运行，这样在中断远程服务器连接后，不会终止Splash服务的运行。

3. Scrapy-Splash的安装

成功安装Splash之后，接下来再来安装其Python库，命令如下：

1	pip3 install scrapy-splash

命令运行完毕后，就会成功安装好此库，后面会详细介绍它的用法。

[Python3网络爬虫开发实战] 1.8.3-Scrapy-Splash的安装的更多相关文章

崔庆才Python3网络爬虫开发实战电子版书籍分享
资料下载地址: 链接:https://pan.baidu.com/s/1WV-_XHZvYIedsC1GJ1hOtw 提取码:4o94 <崔庆才Python3网络爬虫开发实战>高清中文版P ...
《Python3 网络爬虫开发实战》开发环境配置过程中踩过的坑
<Python3 网络爬虫开发实战>学习资料:https://www.cnblogs.com/waiwai14/p/11698175.html 如何从墙内下载Android Studio: ...
《Python3 网络爬虫开发实战》学习资料
<Python3 网络爬虫开发实战> 学习资料百度网盘:https://pan.baidu.com/s/1PisddjC9e60TXlCFMgVjrQ
Python3网络爬虫开发实战PDF高清完整版免费下载|百度云盘
百度云盘:Python3网络爬虫开发实战高清完整版免费下载提取码:d03u 内容简介本书介绍了如何利用Python 3开发网络爬虫,书中首先介绍了环境配置和基础知识,然后讨论了urllib.req ...
转：【Python3网络爬虫开发实战】 requests基本用法
1. 准备工作在开始之前,请确保已经正确安装好了requests库.如果没有安装,可以参考1.2.1节安装. 2. 实例引入 urllib库中的urlopen()方法实际上是以GET方式请求网页,而 ...
《Python3网络爬虫开发实战》PDF+源代码+《精通Python爬虫框架Scrapy》中英文PDF源代码
下载:https://pan.baidu.com/s/1oejHek3Vmu0ZYvp4w9ZLsw <Python 3网络爬虫开发实战>中文PDF+源代码下载:https://pan. ...
《Python3网络爬虫开发实战》
推荐:★ ★ ★ ★ ★ 第1章开发环境配置第2章网页基础知识第3章网络爬虫基础第4章基本库的使用第5章解析库的使用第6章数据存储第7章 Ajax数据爬取第8章动态渲染页面 ...
[Python3网络爬虫开发实战] 1.8.2-Scrapy的安装
Scrapy是一个十分强大的爬虫框架,依赖的库比较多,至少需要依赖的库有Twisted 14.0.lxml 3.4和pyOpenSSL 0.14.在不同的平台环境下,它所依赖的库也各不相同,所以在安装 ...
[Python3网络爬虫开发实战] 3.1.4-分析Robots协议
利用urllib的robotparser模块,我们可以实现网站Robots协议的分析.本节中,我们来简单了解一下该模块的用法. 1. Robots协议 Robots协议也称作爬虫协议.机器人协议,它的 ...
[Python3网络爬虫开发实战] 2.3-爬虫的基本原理
我们可以把互联网比作一张大网,而爬虫(即网络爬虫)便是在网上爬行的蜘蛛.把网的节点比作一个个网页,爬虫爬到这就相当于访问了该页面,获取了其信息.可以把节点间的连线比作网页与网页之间的链接关系,这样蜘蛛 ...

随机推荐

poj 2987 Firing【最大权闭合子图+玄学计数 || BFS】
玄学计数 LYY Orz 第一次见这种神奇的计数方式,乍一看非常不靠谱但是仔细想想还卡不掉就是把在建图的时候把正权变成w*10000-1,负权变成w*10000+1,跑最大权闭合子图.后面的1作用是 ...
VS2013程序打包报 ISEXP : error -****: An error occurred streaming
原因缺少打包文件解决方案: 找到打包文件右击选择 downLoad selected item
Canny检测理解和Matlab实现
图象的边缘是指图象局部区域亮度变化显著的部分,该区域的灰度剖面一般可以看作是一个阶跃,既从一个灰度值在很小的缓冲区域内急剧变化到另一个灰度相差较大的灰度值. 1.Canny边缘检测的基本特征 (1) ...
Errors running builder 'JavaScript Validator'错误处理
MyEclipse2014编辑代码时,只要保存就会报出如下错误信息: Errors occurred during the build. Errors running builder 'JavaScr ...
Hibernate3的hbm文件错误引用dtd文件导致项目无法启动问题处理
错误信息: org.hibernate.InvalidMappingException: Could not parse mapping document from resource /***/*** ...
XDocument
XDocument学习(Winform) using System; using System.Collections.Generic; using System.ComponentModel; us ...
VS Code 设置取消打开文件目录的自动定位跟踪功能。
文件-->首选项-->设置-->在搜索栏中搜索:explorer.autoReveal; 去掉勾选即可.
技术杂记之：vi使用入门
对于Linux的初次使用者来说,进入Linux非图形界面后,不知道怎么创建文本(甚至于在图形界面,也找不到创建文本的菜单).其实,每一个Linux的发行版本,都包含了一个最简单.也是最基础的文本编辑器 ...
Thinkphp删除缓存
控制器代码 public function delcache(){ //当找到有Runtime的文件夹时,进入if if(is_dir(RUNTIME_PATH)){ delDir(RUNTIME ...
javscript 导出html中的table到excel
<script language="JavaScript" type="text/javascript"> /* * 默认转换实现函数,如果需要其他 ...