配置docker

1.更新apt索引：

$ sudo apt-get update

2.安装包允许apt通过HTTPS使用仓库：

sudo dpkg --configure -a

sudo apt-get install apt-transport-https ca-certificates curl software-properties-common

3.添加Docker官方GPG key：

curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

4.设置Docker稳定版仓库：

　sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"

5.更新apt源索引

sudo apt-get update

6.安装最新版本Docker CE（社区版）

sudo apt-get install docker-ce

7.检查版本：
docker --version

8.检查CE是否正确安装 sudo docker run hello-world

关于splash的配置

1.开启docker：
sudo service docker start

关闭docker：

sudo service docker stop

2.重启docker：

　sudo systemctl restart docker.service

3.安装splash所依赖的数据：

sudo docker pull scrapinghub/splash

可以先使用下面的命令对splash镜像拉取进行加速（代理完成后系统会提示重启docker）：

sudo curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://xxxxxx.m.daocloud.io

4.打开splash镜像

sudo docker run -p 8050:8050 scrapinghub/splash

5.下载成功后在浏览器输入：http://localhost:8050，开启对splash的监听

注意，这种方法并不是一劳永逸的，依旧会被大型网站设置反爬策略。最要命的就是网站设置验证码，而python的图像识库目前很难识破这些网站的验证码，恐怕要加入更为先进的图像识别工具

Ubuntu 使用scrapy-splash的更多相关文章

scrapy splash 之一二
scrapy splash 用来爬取动态网页,其效果和scrapy selenium phantomjs一样,都是通过渲染js得到动态网页然后实现网页解析, selenium + phantomjs ...
ubuntu安装SCrapy
依次安装 sudo apt-get install build-essential; sudo apt-get install python-dev; sudo apt-get install lib ...
scrapy+splash 爬取京东动态商品
作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3159 splash是容器安装的,从docker官网上下载windows下的 ...
Scrapy+splash报错 Connection was refused by other side
报错信息如下: Traceback (most recent call last): File "/usr/local/lib/python3.7/site-packages/scrap ...
ubuntu安装scrapy方法
sudo apt-get install python-dev [默认安装python2] sudo apt-get install python3-dev [指定安装python3最新的] ...
64位Ubuntu 安装scrapy遇到的问题
这两天准备开始学习Python爬虫,安装scrapy框架后出现 Traceback (most recent call last): File "/usr/local/bin/scrapy& ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
python splash scrapy
python splash scrapy 1. 前言 slpash是一个渲染引擎,它有自己的api,可以直接访问splash服务的http接口,但也有对应的包python-splash方便调 ...
Scrapy
Scrapy 从Python的Urllib.Urlllib2到scrapy,当然,scrapy的性能且效率是最高的,自己之前也看过一些资料,在此学习总结下. Scrapy介绍关于scrapy scr ...
scrapy 基础
安装略过创建一个项目 scrapy startproject MySpider #或者创建时存储日志scrapy startproject --logfile='../logf.log' MySpi ...

随机推荐

MySQL索引（九）
一.索引介绍 1.1 什么是索引索引就好比一本书的目录,它会让你更快的找到内容. 让获取的数据更有目的性,从而提高数据库检索数据的性能. 分为以下四种: BTREE:B+树索引(基本上都是使用此索引 ...
Python 和 R 中的一数多图
R # 一数多图 x <- 2:6 y <- 7:3 y1 <- y +2 opar <- par(no.readonly = TRUE) par(mfrow=c(2, 3)) ...
【转】Pandas学习笔记（七）plot画图
Pandas学习笔记系列: Pandas学习笔记(一)基本介绍 Pandas学习笔记(二)选择数据 Pandas学习笔记(三)修改&添加值 Pandas学习笔记(四)处理丢失值 Pandas学 ...
Removing Stones(2019年牛客多校第三场G+启发式分治)
目录题目链接题意思路代码题目链接传送门题意初始时有$n$堆石子,每堆石子的石子个数为$a_i$,然后进行游戏. 游戏规则为你可以选择任意两堆石子,然后从这两堆中移除一个石子,最 ...
telnet安装和使用教程
一.安装telnet 1.检测telnet-server的rpm包是否安装 [root@localhost ~]# rpm -qa telnet-server若无输入内容,则表示没有安装.出于安全考虑 ...
10 使用 OpenCV、Kafka 和 Spark 技术进行视频流分析
问题引起基于分布式计算框架Spark的室内防盗预警系统首先用摄像头录一段视频,存在电脑里,下载一个ffmpeg的软件对视频进行处理,处理成一张张图片,然后通过hadoop里边的一个文件系统叫做hd ...
安装PyInstaller失败
pip install PyInstaller 报错: 后运行: 指定安装源进行安装: pip3 install pyinstaller -i https://pypi.doubanio.com/si ...
SPA项目开发之登录注册
CMD安装所需要的pom依赖 npm install element-ui -S npm install axios -S npm install qs -S npm install vue-axio ...
[RN] 可播放视频的播放器版本
可播放视频的播放器版本 "react": "16.6.3", "react-native": "0.57.8", &qu ...
网络协议 13 - HTTPS 协议
之前说了 HTTP 协议的各种问题,但是它还是陪伴着互联网.陪伴着我们走过了将近二十年的风风雨雨.现在有很多新的协议尝试去取代它,来解决性能.效率等问题,但它还还能靠着“多年的情分”活的滋润.然而,近 ...

Ubuntu 使用scrapy-splash

配置docker

关于splash的配置

Ubuntu 使用scrapy-splash的更多相关文章

随机推荐

热门专题