爬虫部署 --- scrapyd部署爬虫 + Gerapy 管理界面 scrapyd+gerapy部署流程

---------scrapyd部署爬虫---------------
1.编写爬虫
2.部署环境
pip install scrapyd
pip install scrapyd-client
启动scrapyd的服务：cmd:>scrapyd（必须处于开启状态）
在爬虫根目录执行：scrapyd-deploy,如果提示不是内部命令，需要修改配置文件。

3.发布工程到scrapyd
修改scrapy.cfg，去掉url前的#
进入到scrapy项目根目录，执行：scrapyd-deploy <target> -p <projectname>提示：（target:scrapy.cfg中[deploy:***]）（projectname：scrapy.cfg中project = XXX）
（#url中的#去掉）
4.启动爬虫
第一种方法：Django中view.py
class StartSpider(View):
def get(self,request):
url = 'http://localhost:6800/schedule.json'
data = {'project': 'ScrapyAbckg', 'spider': 'abckg'}
print( requests.post(url=url, data=data))
return JsonResponse({'result':'OK'})
第二种方法：（命令式启动爬虫：curl http://localhost:6800/schedule.json -d project=项目名 -d spider=爬虫名）

5.启动django
cmd：python manage.py runserver

----------------scrapyd 管理爬虫接口----------------------
1、获取状态

http://127.0.0.1:6800/daemonstatus.json

2、获取项目列表

http://127.0.0.1:6800/listprojects.json

3、获取项目下已发布的爬虫列表

http://127.0.0.1:6800/listspiders.json?project=myproject

4、获取项目下已发布的爬虫版本列表
http://127.0.0.1:6800/listversions.json?project=myproject

5、获取爬虫运行状态

http://127.0.0.1:6800/listjobs.json?project=myproject

6、启动服务器上某一爬虫（必须是已发布到服务器的爬虫)
http://localhost:6800/schedule.json
(post方式，data={"project":myproject,"spider":myspider}）

7、删除某一版本爬虫

http://127.0.0.1:6800/delversion.json
(post方式，data={"project":myproject,"version":myversion}）

8、删除某一工程，包括该工程下的各版本爬虫
(运行中爬虫无法删除)
http://127.0.0.1:6800/delproject.json
(post方式，data={"project":myproject}）

9.取消运行中的爬虫
http://127.0.0.1:6800/cancel.json
(post方式，data={"project":myproject,"job":jobid}）

--------------django+scrapy-----------------------------
1.创建django项目，并编写models.py,启动django项目

2.Django项目根目录下创建Scrapy项目
（这是scrapy-djangoitem所需要的配置）
配置Django嵌入，在Scrapy的settings.py中加入以下代码：
import os
import sys
sys.path.append(os.path.dirname(os.path.abspath('.')))
os.environ['DJANGO_SETTINGS_MODULE'] = 'django项目名.settings'
import django
django.setup()

3.编写爬虫
4.item.py中引入Django模型类（pip install scrapy-djangoitem）
from scrapy_djangoitem import DjangoItem
from 子应用 import models
class ScrapyabckgItem(DjangoItem):
# 此处必须起名为django_model,主爬虫中使用item['title']=xxx
django_model = models.AbckgModel

5.pipelines.py中调用save()
class ScrapyabckgPipeline(object):
def process_item(self, item, spider):
# 插入到数据库
item.save()
return item #将item传给下一个管道继续处理

6.启动爬虫(用命令，并非scrapyd启动)：scrapy crawl abckg
7.刷新django-admin后台

---------------Gerapy 管理界面--------------

安装：

pip install gerapy
配置环境变量：
C:\Users\Administrator\AppData\Roaming\Python\Python36\Scripts
>gerapy init 初始化工作目录
>cd gerapy
>gerapy migrate 迁移生成数据库
>gerapy runserver 启动服务
http://127.0.0.1:8000 访问界面
---------------Gerapy 管理界面使用--------------
添加client：连接远程或本机的scrapyd服务（前提是scrapyd处于开启状态）
添加Projects：将scarpy项目直接放到 /gerapy/projects，刷新页面

为什么部署呢？
部署会让项目更稳定，更高效，增大访问量

scrapyd部署和 gerapy部署的区别
相比scrapyd部署的只能查看状态，页面简陋 gerapy更人性化，页面简洁，可操作性强

总结流程：

1启动scrapyd：

　　命令：scrapyd

2启动gerapy：

　　命令：gerapy runserver

3部署爬虫scrapy 到 scrapyd，在爬虫根目录发布爬虫：

　　命令： scrapyd-deploy <target> -p 项目名称

4访问gerapy:

　　地址：127.0.0.1:8000

5在gerapy页面：

　　主机管理 --》创建 --》连接scrapyd

6在gerapy页面：

　　点击调度 -----》会展示出所有的已发布爬虫

7随意对这些爬虫进行监管，运行

ok！搞定啦！CentOs 部署爬虫在 linux 下同理，只是ip不同罢了就这！

爬虫部署 --- scrapyd部署爬虫 + Gerapy 管理界面 scrapyd+gerapy部署流程的更多相关文章

Solr7 安装部署管理界面介绍
Solr7 安装部署管理界面介绍本章重点介绍CentOS 安装部署Solr7 ,Solr的管理界面介绍,添加核心Core配置,Dataimport导入数据,Documents 在线维护索引,Que ...
scrapy抓取拉勾网职位信息（八）——使用scrapyd对爬虫进行部署
上篇我们实现了分布式爬取,本篇来说下爬虫的部署. 分析:我们上节实现的分布式爬虫,需要把爬虫打包,上传到每个远程主机,然后解压后执行爬虫程序.这样做运行爬虫也可以,只不过如果以后爬虫有修改,需要重新修 ...
Scrapyd 项目爬虫部署
scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API来部署爬虫项目和控制爬虫运行 scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们安装扩展 ...
Docker Compose 一键部署多节点爬虫程序
Docker Compose 一键部署多节点爬虫程序目录结构 [root@localhost ~]# tree compose_crawler/ compose_crawler/ ├── cento ...
Scrapyd发布爬虫的工具
Scrapyd Scrapyd是部署和运行Scrapy.spider的应用程序.它使您能够使用JSON API部署(上传)您的项目并控制其spider. Scrapyd-client Scrapyd- ...
《暗黑世界GM管理后台系统》部署+功能说明文档
http://www.9miao.com/product-10-1073.html <暗黑世界GM管理后台系统>部署+功能说明文档 <暗黑世界GM管理后台系统>部署+功能说明文 ...
2017.2.28 activiti实战--第五章--用户与组及部署管理（三）部署流程及资源读取
学习资料:<Activiti实战> 第五章用户与组及部署管理(三)部署流程及资源读取内容概览:如何利用API读取已经部署的资源,比如读取流程定义的XML文件,或流程对应的图片文件. 以 ...
Docker部署Portainer搭建轻量级可视化管理UI
1. 简介 Portainer是一个轻量级的可视化的管理UI,其本身也是运行在Docker上的单个容器,提供用户更加简单的管理和监控宿主机上的Docker资源. 2. 安装Docker Doc ...
python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...

随机推荐

charles 高级批量请求
本文参考:charles 高级批量请求这个我感觉有点鸡肋,真正的批量请求,推荐使用JMter charles 高级批量请求就是下面这种简单的设置的简单的使用还是可以的; 比如简单的测试下,向某一个 ...
WebGL学习之纹理盒
原文地址:WebGL学习之纹理盒我们之前已经学习过二维纹理 gl.TEXTURE_2D,而且还使用它实现了各种效果.但还有一种立方体纹理 gl.TEXTURE_CUBE_MAP,它包含了6个纹理代表 ...
SSRAM、SDRAM和Flash简要介绍
问题1:什么是DRAM.SRAM.SDRAM?答:名词解释如下DRAM--------动态随即存取器,需要不断的刷新,才能保存数据,而且是行列地址复用的,许多都有页模式SRAM--------静态的随 ...
Windows删除某服务
win+R然后cmd进入命令窗口 sc delete 服务名
Markdonw 详细入门教程
1. Markdown语法快速入门手册 2 Markdown概述 2.1 Markdown宗旨 2.2 Markdown兼容HTML 2.3 Markdown特殊字符自动转换 2.4 Markdown ...
wireguard使用方法
1.翻墙访问网页:https://cryptostorm.is/wireguard.cgi 并下载客户端 2. 选者第二个并打开 3.复制publickey 4.黏贴在第二行并addkey: 5.将获 ...
VC++类型转换
一.其他数据类型转换为字符串短整型(int) itoa(i,temp,10):///将i转换为字符串放入temp中,最后一个数便是十进制 itoa(i,temp,2):///按二进制方式转换长整型 ...
java poi3.10.1基本excel使用
效果: 代码: //时间 String checkTime = "yyyy/MM/dd"; //人员查询 Set preParticipantNames = new HashSet ...
os路径
import os linux下例如: 我现在在 /home/settings.py文件下 # 获取当前的绝对路径 os.path.abspath(__file__) # 获取的内容 /home/s ...
python实现文件搜索工具（简易版）
在python学习过程中有一次需要进行GUI 的绘制, 而在python中有自带的库tkinter可以用来简单的GUI编写,于是转而学习tkinter库的使用. 学以致用,现在试着编写一个简单的磁文件 ...

爬虫部署 --- scrapyd部署爬虫 + Gerapy 管理界面 scrapyd+gerapy部署流程

爬虫部署 --- scrapyd部署爬虫 + Gerapy 管理界面 scrapyd+gerapy部署流程的更多相关文章

随机推荐

热门专题