web

  • 基于scrapyd
  • 提供主机管理功能
    1. 基于scrapyd管理已安装服务的主机。
    2. 进入具体主机管理页面,会自动加载所有已知爬虫任务;
    3. 可直接可以调度、运行、查看日志。
  • 提供项目管理功能
    1. 将已知项目放到project目录下,可进行爬虫项目单台机器、多台机器部署。
    2. 提供项目代码在线编辑功能
  • 提供任务管理功能
    1. 基于项目-爬虫的管理,可以构建爬虫调度任务。
    2. 目前支持三种类型调度,date、interval、cron(基本能满足日常需求)

Installation

注:从 Gerapy 2.x 开始,其定位发生改变,不再支持 Scrapyd,转而支持 Docker、Kubernetes 的部署,另外开发还会迁移到 Scrapy 可视化配置和智能解析方面,敬请期待

pip3 install -U gerapy

Initialization

gerapy init / gerapy init GerapySpace

Database Configuration

cd gerapy
gerapy migrate

New User

gerapy initadmin
会初始化一个超级管理员账号, username: admin password: admin gerapy createsuperuser
如果不想用admin,也可以根据提示,创建一个超级用户

Startup service

gerapy runserver

如果想要在公网访问服务
gerapy runserver 0.0.0.0:8000 如果想后台启动服务可以使用
gerapy runserver 0.0.0.0:8000 > /dev/null 2>&1 &

Docker

Pull gerapy

docker pull germey/gerapy

run docker

docker run -d --name gerapy -v ~/gerapy:/app/gerapy -p 8000:8000 germey/gerapy

docker run -d -v <workspace>:/app/gerapy -p <public_port>:<container_port> germey/gerapy

link

参考:

https://docs.gerapy.com/en/latest/

https://github.com/Gerapy/Gerapy

gerapy 爬虫web调度可视化工具(基于scrapyd)的更多相关文章

  1. Hive可视化工具

    目前市面上的Hive可视化客户端工具,大都是C/S模式的,安装使用都不是太方便,目前有一款基于WEB的可视化工具TreeSoft,通过浏览器就可以访问使用了,并且可以同时管理.维护.监控MySQL,O ...

  2. 基于scrapyd爬虫发布总结

    一.版本情况 python以丰富的三方类库取得了众多程序员的认可,但也因此带来了众多的类库版本问题,本文总结的内容是基于最新的类库版本. 1.scrapy版本:1.1.0 D:\python\Spid ...

  3. 【python3】基于scrapyd + scrapydweb 的可视化部署

    一.部署组件概览 该部署方式适用于 scrapy项目.scrapy-redis的分布式爬虫项目 需要安装的组件有:     1.scrapyd  服务端 [运行打包后的爬虫代码](所有的爬虫机器都要安 ...

  4. 3个常用基于Linux系统命令行WEB网站浏览工具(w3m/Links/Lynx)

    一般我们常用的浏览器肯定是基于可视化界面的图文结合的浏览界面效果,比如FireFox.Chrome.Opera等等,但是有些时候折腾和项目 的需要,在Linux环境中需要查看某个页面的文字字符,我们需 ...

  5. Web工程师必备的43款可视化工具

    国外站点DATAVISUALIZATION.CH为大家总结出了当前热用的43款可视化工具,包括Arbor.Chroma.js.D3.js.Google Chart Tools等,绝对让你一饱眼福. 1 ...

  6. 跨平台Redis可视化工具Web Redis Manager

    一.简介 最近因为工作需要,使用了一些单机版Redis的界面化管理工具,使用过程中那惨痛的体验真的只有用过的人才能体会:为此本人和小伙伴准备动手一个Redis可视化工具,但是因为小伙伴最近工作比较忙, ...

  7. (转)3个常用基于Linux系统命令行WEB网站浏览工具(w3m/Links/Lynx)

    一般我们常用的浏览器肯定是基于可视化界面的图文结合的浏览界面效果,比如FireFox.Chrome.Opera等等,但是有些时候折腾和项目 的需要,在Linux环境中需要查看某个页面的文字字符,我们需 ...

  8. 使用 XMPP 构建一个基于 web 的通知工具——转

    Inserting of file(使用 XMPP 构建一个基于 web 的通知工具.docx) failed. Please try again. http://www.ibm.com/develo ...

  9. 基于Nodejs开发的web即时聊天工具

    由于公司需要开发web即时聊天的功能,开始时我们主要的实施方法是用jquery的ajax定时(10秒)轮询向服务器请求,由于是轮询请求,对 服务器的压力比较大.我们网站上线的时间不长,访问量不是很大, ...

随机推荐

  1. [SD心灵鸡汤]000.每月一则 - 索引

    [SD心灵鸡汤]001.每月一则 - 2015.05 [SD心灵鸡汤]002.每月一则 - 2015.06 [SD心灵鸡汤]003.每月一则 - 2015.07 [SD心灵鸡汤]004.每月一则 - ...

  2. (数据科学学习手札85)Python+Kepler.gl轻松制作酷炫路径动画

    本文示例代码.数据已上传至我的Github仓库https://github.com/CNFeffery/DataScienceStudyNotes 1 简介 Kepler.gl相信很多人都听说过,作为 ...

  3. CVE-2019-7238 poc

    from requests.packages.urllib3.exceptions import InsecureRequestWarning import urllib3 import reques ...

  4. Linux suid 提权

    SUID (Set owner User ID up on execution) 是给予文件的一个特殊类型的文件权限.在 Linux/Unix中,当一个程序运行的时候, 程序将从登录用户处继承权限.S ...

  5. .net remoting(一)

    一.远程对象 ①RemoteHello.csproj 类库项目,程序集名称 RemoteHello ,默认命名空间 Wrox.ProCSharp.Remoting: ②派生自System.Marssh ...

  6. Alpha冲刺 —— 5.3

    这个作业属于哪个课程 软件工程 这个作业要求在哪里 团队作业第五次--Alpha冲刺 这个作业的目标 Alpha冲刺 作业正文 正文 github链接 项目地址 其他参考文献 无 一.会议内容 1.展 ...

  7. Bom和Dom对象

    BOM-JavaScript是运行在浏览器中的,所以提供了一系列对象用于和浏览器窗口进行交互,这些对象主要包括window.document.location.navigator和screen等.通常 ...

  8. 使用turtle库绘制一个六角形

    from turtle import * color("black","red") begin_fill() pu() fd(-200) pd() seth(3 ...

  9. 结合 AOP 轻松处理事件发布处理日志

    结合 AOP 轻松处理事件发布处理日志 Intro 前段时间,实现了 EventBus 以及 EventQueue 基于 Event 的事件处理,但是没有做日志(EventLog)相关的部分,原本想增 ...

  10. elasticsearch中保存时间格式

    利用logstash从文档中导入数据到es中,若未事先设定数据格式,有可能存储时间并未保存为date格式而是text格式. 时间若保存为text,则在会以字符串数组格式存储在es中,是乱序,不好查询. ...