Scrapy学习-25-Scrapyd部署spider

Scrapyd部署爬虫项目

github项目

https://github.com/scrapy/scrapyd

官方文档

http://scrapyd.readthedocs.org/

安装scrapyd

http://scrapyd.readthedocs.io/en/stable/install.html

运行

# 在虚拟环境中使用scrapd命令

# scrapyd是一个服务器监听在本地的6800端口

scrapyd

安装scrapd客户端

pip install scrapyd-client

# 用于项目打包

# python路径的Script目录下发现生成了一个scrapyd-deploy的文件

打包项目到scrapyd中

编辑scrapy.cfg

# 打开scrapyd服务

    [deploy:name]

    url = http://localhost:6800/

    project = ArticleSpider

进入爬虫项目目录

cd E:\Python Project\scrapyproject\ArticleSpider

运行scrapyd-deploy文件

# 由于没有后缀不能运行

# 解决办法：新建一个文件scrapd-deploy.bat，写入下面数据

@echo off

"E:\Python Project\venvdir\scrapyenv3\Scripts\python.exe" "E:\Python Project\venvdir\scrapyenv3\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9 

# 再次执行发现可以使用了

scrapyd-deploy -l 

# 默认自己读取scrapy.cfg内容

# 如果出现importError问题注意

# import sys

# BASE_DIR = os.path.dirname(os.path.abspath(os.path.dirname(__file__)))

# sys.path.insert(0, os.path.join(BASE_DIR, 'ArticleSpider'))

# 打包spider项目

scrapyd-deploy name -p ArticleSpider

# E:\Python Project\venvdir\scrapyenv3\Scripts\eggs\ArticleSpider\xxxx.egg

# scrapyd-deploy将项目打包成一个后缀为egg的文件，发送到scrapyd服务器

部署项目

接口认识

http://scrapyd.readthedocs.io/en/stable/api.html

部署命令

curl http://localhost:6800/schedule.json -d project=ArticleSpider -d spider=myspider

# 返回 {"status": "ok", "jobid": "6487ec79947edab326d6db28a2d86511e8247444"}

# 刷新scrapy管理页面可以发现新的项目

项目管理

参考官方文档

Scrapy学习-25-Scrapyd部署spider的更多相关文章

第三百七十二节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
第三百七十二节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目 scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:h ...
scrapy 项目通过scrapyd部署
年前的时候采用scrapy 爬取了某网站的数据,当时只是通过crawl 来运行了爬虫,现在还想通过持续的爬取数据所以需要把爬虫部署起来,查了下文档可以采用scrapyd来部署scrapy项目,scra ...
五十一 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapyd部署scrapy项目
scrapyd模块是专门用于部署scrapy项目的,可以部署和管理scrapy项目下载地址:https://github.com/scrapy/scrapyd 建议安装 pip3 install s ...
Scrapyd部署爬虫
Scrapyd部署爬虫准备工作安装scrapyd: pip install scrapyd 安装scrapyd-client : pip install scrapyd-client 安装curl ...
Python 爬虫之 Scrapy 分布式原理以及部署
Scrapy分布式原理关于Scrapy工作流程 Scrapy单机架构上图的架构其实就是一种单机架构,只在本机维护一个爬取队列,Scheduler进行调度,而要实现多态服务器共同爬取数据关键就是共享 ...
scrapy学习（完全版）
scrapy1.6中文文档 scrapy1.6中文文档 scrapy中文文档 Scrapy框架下载页面解析页面并发深度安装 scrapy学习教程如果安装了anconda,可以在anacon ...
爬虫部署 --- scrapyd部署爬虫 + Gerapy 管理界面 scrapyd+gerapy部署流程
---------scrapyd部署爬虫---------------1.编写爬虫2.部署环境pip install scrapyd pip install scrapyd-client 启动scra ...
scrapyd部署、使用Gerapy 分布式爬虫管理框架
Scrapyd部署爬虫项目 GitHub:https://github.com/scrapy/scrapyd API 文档:http://scrapyd.readthedocs.io/en/stabl ...
Scrapy学习篇（十）之下载器中间件（Downloader Middleware）
下载器中间件是介于Scrapy的request/response处理的钩子框架,是用于全局修改Scrapy request和response的一个轻量.底层的系统. 激活Downloader Midd ...

随机推荐

51nod_1459 最短路 dijkstra 特调参数
好多基础知识都没补完,只好看到.用到一个赶紧补全一个,并且保证下次需要的时候直接用,不用回来再补: 其实这个算法是在补同余最短路的时候用到的,当时突然发现理解算法导论上的原理甚至有效性证明,但是就是没 ...
OpenCV学习笔记（四） Mat的简单操作
转自:OpenCV Tutorial: core 模块. 核心功能改变图像对比度和亮度:convertTo 可以把看成源图像像素,把看成输出图像像素.这样一来,调整亮度和对比度的方法可表示为 ...
XmlSerializer 短信备份
package com.itheima.mobileguard.utils; import java.io.File; import java.io.FileNotFoundException; im ...
Spring Boot 开发系列一开发环境的一些九九
从今天开始写这个Spring Boot 开发系列,我是第二周学习JAVA的,公司号称springboot把JAVA的开发提升到填空的能力,本人是NET转JAVA的,想看看这个填空的东西到底有多强.废话 ...
解决maven项目Invalid bound statement (not found)的方法
用IDEA 做的ssm 的maven项目,登陆时出现上图问题. 原因是它读取不到DevUserMapper.xml文件和取它xml文件,后面查询在编译好的文件中,xml文件并没有引入进来,这就是导致出 ...
easyui datagrid复选框控制单选
使用easyui datagrid的时候,由于对数据表格操作太多,并且有单选和多选功能因此采用复选框.但是在单选的状态,使用CheckOnSelect和singleselect时发现,页面有明显延迟, ...
Sentry 错误监控
错误监控:https://sentry.io 支持语言或平台:
54、edittext输入类型限制为ip，inputType应该如何设置
<EditText android:id="@+id/et_setting_printer_edit_info_ip" android:layout_width=" ...
隐匿攻击－ICMP
ICMP隐蔽隧道从入门到精通概述众所周知传统socket隧道已极少,tcp.upd大量被防御系统拦截,dns.icmp.http/https等难于禁止的协议(当然还有各种xx over dns/i ...
CentOS 7 编译安装最新版git
安装wget yum install wget -y 下载最新版本的git源码,并解压 cd /usr/local/src/ wget https://mirrors.edge.kernel.org/ ...

Scrapy学习-25-Scrapyd部署spider

Scrapyd部署爬虫项目

Scrapy学习-25-Scrapyd部署spider的更多相关文章

随机推荐

热门专题