scrapyd--scrapydweb
scrapyd-实际的管理爬虫程序
scrapyd 是由scrapy 官方提供的爬虫管理工具,使用它我们可以非常方便地上传、控制爬虫并且查看运行日志。
scrapyd是c/s架构
所有的爬虫调度工作全部依靠接口实现,(https://scrapyd.readthedocs.io/en/latest/api.html)
不过有直接封装好的模块scrapydWeb,可视化的查看和管理爬虫程序
scrapyd服务器:
安装:pip install scrapyd
运行:‘scrapyd’命令即可启动服务器,访问接口地址:127.0.0.1:5000(可以自行在配置文件中更改)
scrapydweb对scrapyd运行爬虫产生的日志进行了分析整理,借助了logparser模块
scrapyd服务器配置:
更改配置文件default_scrapyd.conf(所在目录C:\python\Lib\site-packages\scrapyd)
外网访问:bind_address = 0.0.0.0
[scrapyd]
eggs_dir = eggs
logs_dir = logs # 配置日志目录
items_dir =
jobs_to_keep = 5
dbs_dir = dbs
max_proc = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 0.0.0.0
http_port = 6800
debug = off
scrapyd客户端:
安装:pip install scrapyd-client
部署scrapy 项目:
直接使用scrapyd-client提供的scrapyd-deploy工具
scrapy-client模块中有一个scrapyd-deploy文件,因为此文件只能在linux中打开,所以要自己写一个windoes的bat文件
创建scrapyd-deploy.bat文件并写入以下代码:
@echo off
"C:\Program Files\python_virtual\spider\Scripts\python.exe" "C:\Program Files\python_virtual\spider\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
修改要部署项目的根目录中的 scrapy.cfg 文件
# 设置部署名称
[deploy: spider_lianjia]# scrapyd服务器地址,如果scrapyd没有爬虫项目本地,通过这里指定scrapyd的远程地址
url = http://localhost:6800/# 项目名称
project = lianjia# 须要注意的是这里的用户密码并不表示访问该项目须要验证,而是登录服务器用的;没有可以不用写# username = enlong
# password = test
scrapyd-deploy –l 查看当前部署的爬虫项目
发布本地项目到远程scrapyd服务器
scrapyd-deploy <host> -p <project>
host是部署scrapy的服务器,project是你的项目名称
如:
scrapyd-deploy spider_lianjia –p lianjia
发布成功后

原理:
在本地执行部署命令后,会在服务器的python目录(自动放到了安装scrapyd的python环境-site-packages)下产生两个文件eggs/dbs:其中eggs是爬虫文件的打包;运行后还会有logs文件,用来存放运行日志
不会打包需要的依赖模块,需要手动在服务器上安装
linux下:
../site-packages/scrapyd/eggs/zhilian/1574780063.egg
../site-packages/scrapyd/dbs/zhilian.db
windows下:
除非在配置文件中指明egg/dbs/logs目录,否则在执行scrapyd命令的当前目录下创建这几个文件夹
部署参考:https://blog.csdn.net/baoshuowl/article/details/79656701
不需要在服务器上对egg包做操作,直接通过scrapyd提供的接口来启动管理爬虫
scrapyd默认端口6800
如启动爬虫(必须是已发布到服务器的爬虫):
http://127.0.0.1:6800/schedule.json (post方式,data={"project":myproject,"spider":myspider})
可以对接口进行封装:
import requests ip = "194.168.1.126"
project = "zhilian"
class Deploy:
# 获取状态
def status(self):
url = "http://{}:6800/daemonstatus.json".format(ip)
resp = requests.get(url)
print("爬虫状态")
print(resp.content.decode()) # 获取项目列表
def project_list(self):
url = "http://{}:6800/listprojects.json".format(ip)
resp = requests.get(url)
print("所有爬虫项目")
print(resp.content.decode()) # 获取项目下已发布的爬虫版本列表
def project_version(self):
url = "http://{}:6800/listversions.json?project={}".format(ip,project)
resp = requests.get(url)
print("某个爬虫项目的所有版本")
print(resp.content.decode()) # 获取爬虫运行状态
def spider_status(self):
url = "http://{}:6800/listjobs.json?project={}".format(ip,project)
resp = requests.get(url)
print("所有爬虫状态")
print(resp.content.decode()) # 启动服务器上某一爬虫
def start(self):
url = "http://{}:6800/schedule.json".format(ip)
data = {
"project": "zhilian",
"spider": "zhaopin"
}
resp = requests.post(url, data=data)
print("开启某个爬虫项目")
print(resp.content.decode()) def stop(self):
url = "http://{}:6800/cancel.json".format(ip)
# 每次启动都会有一个新的job的id
data = {
"project": "zhilian",
"job": "f55dbb54106411eab1e9dca6322820ac"
}
resp = requests.post(url, data=data)
print("停止某个爬虫项目")
print(resp.content.decode()) # 删除某一版本爬虫,["1574780063", "1574781404"],最新的在列表最后面
def delete(self,version):
url = "http://{}:6800/delversion.json".format(ip)
data = {
"project": "zhilian",
"version": version
}
resp = requests.post(url, data=data)
print("删除某个爬虫项目的某个版本")
print(resp.content.decode()) def run(self):
self.status()
self.project_list()
self.project_version()
# self.spider_status()
# self.delete("1574781501")
self.start()
# self.stop()
self.spider_status() if __name__ == '__main__':
dep = Deploy()
dep.run()
api参考官方:https://scrapyd.readthedocs.io/en/stable/api.html
scrapydWeb
特点:
Scrapyd 集群管理,可以配置管理多个scrapyd服务器
Scrapy 日志分析,爬虫实时进度可视化,统计信息展示
支持所有 Scrapyd API,不需要再手动的调用接口来管理和查看爬虫状态
状态监控的本质:向scrapyd请求日志,然后分析,运行scrapydweb的机器必须安装logparser模块;管理是通过调用scrapyd提供的api实现的
过程:开启/关闭爬虫,向scrapydweb发生请求,scrapydweb向scrapyd发送请求;scrapydweb不断的向scrapyd请求日志,然后用logparser解析日志,最终做展示。
scrapydweb配置:第一次运行scrapydweb命令,将在当前工作目录生成配置文件 "scrapydweb_settings.py"并使用,可用于自定义 Scrapyd 服务器列表等选项;scrapydweb依赖于配置文件,所以要在自定义的配置目录下运行scrapydweb命令
配置如下:
############################## 快速设置 开始 #################################### 配置本地访问scrapyweb的ip和端口,端口默认5000SCRAPYDWEB_BIND = '127.0.0.1' # 如果是在远程机器上,写远程地址
SCRAPYDWEB_PORT = 6000 # 是否开启访问认证限制
ENABLE_AUTH = True
USERNAME = 'root'
PASSWORD = '123456'# ------------------------------ Chinese --------------------------------------
# 请先确保所有远程服务器已经安装和启动了scrapyd
# 如需远程访问 Scrapyd,需在 Scrapyd 配置文件中设置 'bind_address = 0.0.0.0',然后重启 Scrapyd# 配置需要远程访问的scrapyd服务器地址,如果有多个服务器,添加各自的ip# 如果远程服务器需要登录,则需配置用户名/密码SCRAPYD_SERVERS = [
'127.0.0.1:6800',
# 'username:password@localhost:6801#group',
# ('username', 'password', 'localhost', '6801', 'group'),
]# ------------------------------ Chinese --------------------------------------
# 假如 ScrapydWeb 和某个 Scrapyd 运行于同一台主机,建议更新如下三个设置项。# ENABLE_LOGPARSER:The default is False, set it to True to automatically run LogParser as a subprocess at startupLOCAL_SCRAPYD_SERVER = '127.0.0.1:6800'# 配置爬虫日志目录LOCAL_SCRAPYD_LOGS_DIR = r'D:\python\code\spider_review\lianjia\logs'# 是否解析日志,需要先安装:pip install logparser,通过命令logparser启动 LogParserENABLE_LOGPARSER = True############################## Scrapyd ######################################### 解析的log文件类型SCRAPYD_LOG_EXTENSIONS = ['.log', '.log.gz', '.txt']############################## LogParser ####################################### 是否备份访问过的所留下的本地日志,这样如果远程日志被删除,本地也可以依然使用BACKUP_STATS_JSON_FILE = True# 其他的配置默认即可
logparser可以将原来杂乱的日志做整理,进行显示
参看:https://segmentfault.com/a/1190000018006652?utm_source=tag-newest
分布式爬虫部署
每个服务器上都要安装scrapyd
将本地开发的爬虫分别部署到各个服务器上
通过scrapydweb配置,监控管理每个爬虫的运行状态
最终需要开启的服务,scrapyd,scrapydweb
其他:
需要用到scrapy的item,scrapydweb的item界面才会有日志展示
scrapyd--scrapydweb的更多相关文章
- Scrapy+Scrapyd+Scrapydweb实现爬虫可视化
Scrapy+Scrapyd+Scrapydweb实现爬虫可视化 Scrapyd是一个服务,用来运行scrapy爬虫的 它允许你部署你的scrapy项目以及通过HTTP JSON的方式控制你的爬虫 官 ...
- 【python3】基于scrapyd + scrapydweb 的可视化部署
一.部署组件概览 该部署方式适用于 scrapy项目.scrapy-redis的分布式爬虫项目 需要安装的组件有: 1.scrapyd 服务端 [运行打包后的爬虫代码](所有的爬虫机器都要安 ...
- 时隔五年,Scrapyd 终于原生支持 basic auth
Issue in 2014 scrapy/scrapyd/issues/43 Pull request in 2019 scrapy/scrapyd/pull/326 试用 1. 安装: pip in ...
- scrapydWeb安装和使用
1. 安装:pip install scrapydweb 2. 启动:scrapydweb 第一次执行,当前目录会生产配置文件:scrapydweb_settings_v8.py 配置账户和密码: # ...
- 笔记-爬虫部署及运行工具-scrapydweb
笔记-爬虫部署及运行工具-scrapydweb 1. 简介 scrapyd是爬虫部署工具,但它的ui比较简单,使用不是很方便. scrapydweb以scrapyd为基础,增加了ui界面和监 ...
- scrapydweb的初步使用(管理分布式爬虫)
https://github.com/my8100/files/blob/master/scrapydweb/README_CN.md 一.安装配置 1.请先确保所有主机都已经安装和启动 Scrapy ...
- scrapy的scrapyd使用方法
一直以来,很多人疑惑scrapy提供的scrapyd该怎么用,于我也是.自己在实际项目中只是使用scrapy crawl spider,用python来写一个多进程启动,还用一个shell脚本来监控进 ...
- 如何将Scrapy 部署到Scrapyd上?
安装上传工具 1.上传工具 scrapyd-client 2.安装方法: pip install scrapyd-client 3.上传方法: python d:\Python27\Scripts\s ...
- 如何部署Scrapy 到Scrapyd上?
安装上传工具 1.上传工具 scrapyd-client 2.安装方法: pip install scrapyd-client 3.上传方法: python d:\Python27\Scripts\s ...
- Scrapyd部署爬虫
Scrapyd部署爬虫 准备工作 安装scrapyd: pip install scrapyd 安装scrapyd-client : pip install scrapyd-client 安装curl ...
随机推荐
- [C0] 引言(Introduction)
引言(Introduction) 欢迎(Welcome) 机器学习是目前信息技术中最激动人心的方向之一.在这门课中,你将学习到这门技术的前沿,并可以自己实现学习机器学习的算法. 你或许每天都在不知不觉 ...
- (day57)九、多对多创建的三种方式、Forms组件
目录 一.多对多三种创建方式 (一)全自动 (二)纯手撸(基本不用) (三)半自动(推荐使用) 二.forms组件 (一)校验数据 (1)常用内置字段及参数 (2)内置的校验器 (3)HOOK方法 ( ...
- python 编程2
一.课堂练习 描述 使用input输入若干个数,输出个数以及其中最大的数 1.普通方法实现 def max(*a): m=a[0] b=0 for x in a: if x>m: m=x b+= ...
- 打包一个python解释器
利用python的exec语句,可以很方便地动态执行python语句.如果一个python代码打包为了exe,其原先的代码就很难更改了.一个好的解决方法就是import相应的库,然后把主程序段放到一个 ...
- Luogu P5368 [PKUSC2018]真实排名
老年选手只会做SB题了(还调了好久) 很容易想到分类讨论,按第\(i\)个人有没有翻倍来算 若\(a_i\)未翻倍,显然此时将\([0,\lceil \frac{a_i}{2}\rceil)\)的数和 ...
- 深入理解Java中的Garbage Collection
前提 最近由于系统业务量比较大,从生产的GC日志(结合Pinpoint)来看,需要对部分系统进行GC调优.但是鉴于以往不是专门做这一块,但是一直都有零散的积累,这里做一个相对全面的总结.本文只针对Ho ...
- 为什么Redis 单线程却能支撑高并发?
作者:Draveness 原文:draveness.me/redis-io-multiplexing 推荐阅读 1. Java 性能优化:教你提高代码运行的效率 2. 基于token的多平台身份认证架 ...
- 【深度学习】K-L 散度,JS散度,Wasserstein距离
度量两个分布之间的差异 (一)K-L 散度 K-L 散度在信息系统中称为相对熵,可以用来量化两种概率分布 P 和 Q 之间的差异,它是非对称性的度量.在概率学和统计学上,我们经常会使用一种更简单的.近 ...
- SmtpClient发送邮件时附件名称乱码
在用户环境发现一个现象,使用System.Net.Mail.SmtpClient发送邮件,当附件名包含中文且长度较长时,最终的邮件里附件名会乱掉,写个简单的测试程序: var mail = new M ...
- SSM(七)在JavaWeb应用中使用Redis
前言 先来看一张效果图: 作用就是在每次查询接口的时候首先判断Redis中是否有缓存,有的话就读取,没有就查询数据库并保存到Redis中,下次再查询的话就会直接从缓存中读取了.Redis中的结果:之后 ...