笔记-爬虫部署及运行工具-scrapydweb

1. 简介

scrapyd是爬虫部署工具，但它的ui比较简单，使用不是很方便。

scrapydweb以scrapyd为基础，增加了ui界面和监控，使用非常方便。

2. 部署-scrapyd

使用scrapyd部署。

注意：在windows下无法部署，因为不能执行scrapyd-deploy命令。

2.1. 部署

第一步：修改scrapy.cfg为下列样式：

# Automatically created by: scrapy startproject

# For more information about the [deploy] section see:

# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]

default = sctest.settings

[deploy:sctestd]

url = http://ip:6800/

project = sctestp

第二步：进入目录，进行部署

注意一定要进入scrapy.cfg所在的目录

scrapyd-deploy sctestd -p sctestp

[root@soft sctest]# scrapyd-deploy sctestd -p sctestp

Packing version 1560213774

Deploying to project "sctestp" in http://ip:6800/addversion.json

Server response (200):

{"node_name": "soft", "status": "ok", "project": "sctestp", "version": "1560213774", "spiders": 1}

部署完成

这时在scrapyd的页面中可以看到project

http://ip:6800/listprojects.json

第三步：执行

curl http://ip:6800/schedule.json -d project=sctestp -d spider=scspider

3. scrapydweb

3.1. 安装

git clone https://github.com/my8100/scrapydweb.git

cd scrapydweb

python setup.py install

因为没有setuptools 40.6.3，安装失败。

pip install –upgrade setuptools

重新安装成功

3.2. 配置及运行

1、请先确保所有主机都已经安装和启动 Scrapyd，如果需要远程访问 Scrapyd，则需将 Scrapyd 配置文件中的 bind_address 修改为 bind_address = 0.0.0.0，然后重启 Scrapyd。

2、开发主机或任一台主机安装 ScrapydWeb： pip install scrapydweb

3、运行命令 scrapydweb -h，将在当前工作目录生成配置文件 scrapydweb_settings.py，可用于下文的自定义配置。

4、启用 HTTP 基本认证，用于scrapydweb登录：

ENABLE_AUTH = True

USERNAME = 'user_root'

PASSWORD = 'password'

5、声明scrapyd_server，支持多种格式，详见文档。

SCRAPYD_SERVERS = [

'ip:6800',

# 'username:password@localhost:6801#group',

('username', 'password', 'localhost', '6801', 'group'),

]

3.3. 运行

scrapydweb

3.4. 问题

如果scrapyd server是本机，则scrapydweb默认会直接读取scrapyd日志而不是发起请求，需要设置日志路径。

笔记-爬虫部署及运行工具-scrapydweb的更多相关文章

Kettle学习笔记（一）— 环境部署及运行
目录 Kettle学习笔记(一)-环境部署及运行 Kettle学习笔记(二)- 基本操作 kettle学习笔记(三)- 定时任务的脚本执行 Kettle学习笔记(四)- 总结 Kettle简介 Ket ...
笔记-爬虫-js代码解析
笔记-爬虫-js代码解析 1. js代码解析 1.1. 前言在爬取网站时经常会有js生成关键信息,而且js代码是混淆过的. 以瓜子二手车为例,直接请求https://www.guaz ...
小白 Python 爬虫部署 Linux
前言前面国庆节的时候写过一个简易的爬虫. <Python 简易爬虫实战> 还没看过的同学可以先看一下,这只爬虫主要用来爬取各个博客平台的阅读量等数据,一直以来都是每天晚上我自己手动在本地 ...
《Linux就该这么学》培训笔记_ch01_部署虚拟环境安装Linux系统
<Linux就该这么学>培训笔记_ch01_部署虚拟环境安装Linux系统文章最后会post上书本的笔记照片. 文章主要内容: 在虚拟机中安装红帽RHEL7系统在Linux系统中找回r ...
Centos7上一次War包的部署与运行
Centos7上一次War包的部署与运行前言由于前段时间第一次部署一个小型的项目,时间一长所以有些步骤有时候时间一长就忘了,在此做个简单的记录一.原始系统开发环境操作系统:Windows10: ...
Scrapyd 项目爬虫部署
scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API来部署爬虫项目和控制爬虫运行 scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们安装扩展 ...
Linux：Ubuntu下部署Web运行环境
Linux:Ubuntu下部署Web运行环境本次博客将会从三部分内容详述Ubuntu系统下Web运行环境的配置: 依次是:FTP服务器的搭建.MYSQL数据库的搭建.JDK的安装等. 参考文章如下: ...
笔记-爬虫-scrapy-srcapy-redis组件
笔记-爬虫-scrapy-srcapy-redis组件 1. 简介 scrapy是一个爬虫框架,但不支持分布式,scrapy-redis是为了更方便的实现scrapy分布式爬虫的组件. 可以 ...
[转载] 把Nutch爬虫部署到Hadoop集群上
http://f.dataguru.cn/thread-240156-1-1.html 软件版本:Nutch 1.7, Hadoop 1.2.1, CentOS 6.5, JDK 1.7 前面的3篇文 ...

随机推荐

【Webex】加入会议是无法正常加入！提示“下载会议组件时无法获取正确的参数。请联系技术支持以获取帮助。
来自:Cisco Webex帮助中心 https://help.webex.com/zh-cn/WBX9000023909/Error-Failed-to-get-correct-parameters ...
推荐几个c/c++语言编写的游戏源码下载网站
在游戏开发的学习或工作中,利用完好的游戏源码可以事半功倍,不仅可以逆向学习开拓思维,也可以大大减少设计周期.自己浏览了很游戏源码下载的网站,发现大多数质量都良莠不齐,且大部分需要消费才能下载,下面整理 ...
远程传输文件命令：scp
1.概述 scp(secure copy)是一个基于 SSH 协议在网络之间进行安全传输的命令,其格式为“scp [参数] 本地文件远程帐户@远程 IP 地址:远程目录”. 与第 2 章讲解的 cp ...
李超线段树（segment[HEOI2013]-洛谷T4097）
(neng了好久好久才糊弄懂得知识点...) 一.李超线段树在线动态维护一个二维平面直角坐标系, 支持插入一条线段, 询问与直线x = x0相交的所有线段中,交点y的最大/小值 (若有多条线段符合条 ...
推荐算法之---FM算法；
一,FM算法: 1,逻辑回归上面进行了交叉特征.算法复杂度优化从O(n^3)->O(k*n^2)->O(k*n). 2,本质:每个特征都有一个k维的向量,代表的是每个特征都有k个不可告人的 ...
使用docker踩过的坑
最近需要使用docker,但是win10电脑的系统不是docker windows适用版本,没法在windows上安装于是就上centos虚拟机里面装了一个docker docker pull文件的 ...
java篇之继承
this代表正在使用类的对象(的引用) java支持重载:允许在同一个类中使用相同的方法名(重载类型只区分参数列表,包括参数顺序,参数个数,参数数据类型,与方法返回类型无关) 匹配: 方法名参数列 ...
11，html5为什呢只需要写<!DOCTYPE HTML>
11,html5为什呢只需要写<!DOCTYPE HTML> html5不基于SGML,不需要对dtd(百科:翻译为文档类型定义,作用是定义xml文档的合法构建模块,成行声明于xml文档中 ...
js函数声明外面使用小括号括起来再接一个小括号的写法
js函数声明外面使用小括号括起来再接一个小括号的写法 (function(){})(); (function(){}()); !function(){}(); 总结ps:意思将函数声明变成,直接执行的 ...
hamming distance（汉明距离）
看knn算法时无意间发现这个算法,但是维基上有错误的示例和python代码...因为汉明距离并不是求相同长度字符串(或相同长度的整数)之间的字符(或数位)差异个数. 正确的详见:https://en. ...