scrapy暂停和重启，及url去重原理,telenet简单使用

biu嘟 2024-10-17 23:09:54 原文

一.scrapy暂停与重启

　　1.要暂停，就要保留一些中间信息，以便重启读取中间信息并从当前位置继续爬取，则需要一个目录存放中间信息：

　　　　scrapy crawl spider_name -s JOBDIR=dir/001——spider_name是你要爬取得spider的py文件名，JOBDIR是命令参数，即代表存放位置参数，dir是中间信息要保存的目录，001新生成的文件夹名是保存的中间信息，重启则读取该文件信息。可以将JOBDIR 设置在setting中，或写在custom_settings中，在Pycharm中都会执行，但是在Pycharm中无法发送ctrl+c，即无法将进程放入后台并暂停。

　　2.执行命令：scrapy crawl jobbole -s JOBDIR=jobs/001

　　　　2.1有可能会报以下错误，这是因为未进入到项目目录（crawl会搜索scrapy.cfg文件）：

　　　　2.2进入目录正常运行后，ctrl+c暂停进程：

　　　　　会在jobs下生成一个001文件夹生成如下图文件，request.seen是保存的已经访问了的url，spider.state是spider的状态信息，request.queue中有active.json和p0两个文件，p0是还需要继续做的request（跑完该文件就没有了）

　　3.重启（也是执行scrapy crawl jobbole -s JOBDIR=jobs/001）：

　　　　会读取相关信息并继续执行，p0文件会减小，request.seen文件会增大（读取新的request，存入url），两次ctrl+c强制关掉，若需从新爬则可以指定新的文件夹，如jobs/002.

二.scrapy去重原理

　　对于每一个url的请求，调度器都会根据请求得相关信息加密（request_fingerprint）得到一个指纹信息，并且将指纹信息和set()集合中的指纹信息进行比对，如果set()集合中已经存在这个数据，就不在将这个Request放入队列中。如果set()集合中没有存在这个加密后的数据，就将这个Request对象放入队列中，等待被调度。

三.telnet的简单使用

　　1.telnet简介：

　　　　Scrapy配有内置的telnet控制台，用于检查和控制Scrapy运行过程。telnet控制台只是在Scrapy进程中运行的常规python shell，所以你可以从中做任何事情。

　　2.windows打开telnet客户端和服务端：

　　3.telenet连接：

　　　　telnet控制台侦听TELNETCONSOLE_PORT设置中定义的TCP端口，默认为6023，如下：

　　　　　　telenet localhost 6023

　　4.telenet简单使用（相当于一个python终端）：

　　　　变量：

　　　　

　　　　　　

scrapy暂停和重启，及url去重原理,telenet简单使用的更多相关文章

scrapy 爬虫的暂停与重启
暂停爬虫项目首先在项目目录下创建一个文件夹用来存放暂停爬虫时的待处理请求url以及其他的信息.(文件夹名称:job_info) 在启动爬虫项目时候用pycharm自带的终端启动输入下面的命令: sc ...
第三百五十三节，Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启
第三百五十三节,Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启 scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的UR ...
三十二 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy的暂停与重启
scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取实现暂停与重启记录状态 1.首先cd进入到scrapy项目里 2.在scrapy项 ...
【转】larbin中的url去重算法
1.bloom filter算法传说中,larbin使用bloom filter算法来进行url去重.那我们就先来了解下bloom filter算法好了. [以下转自:http://hi.baidu ...
[原创]手把手教你写网络爬虫（7）：URL去重
手把手教你写网络爬虫(7) 作者:拓海摘要:从零开始写爬虫,初学者的速成指南! 封面: 本期我们来聊聊URL去重那些事儿.以前我们曾使用Python的字典来保存抓取过的URL,目的是将重复抓取的UR ...
爬虫URL去重
这个要看你想抓取的网页数量是哪种规模的.如果是千万以下用hash表, set, 布隆过滤器基本可以解决,如果是海量的......嗯我也没做过海量的,不过hash表之类的就别想了,内存根本不够,分割线下 ...
URL去重与文章去重的一些基本方法
一.url去重url存到数据库所有url放到set中(一亿条占用9G内存)md5之后放到set中(一亿条占用2,3G的内存)scrapy采用的就是类似方法bitmap方法(url经过hash后映射到b ...
URL 去重的 6 种方案！(附详细实现代码)
URL 去重在我们日常工作中和面试中很常遇到,比如这些: 可以看出,包括阿里,网易云.优酷.作业帮等知名互联网公司都出现过类似的面试题,而且和 URL 去重比较类似的,如 IP 黑/白名单判断等也经常 ...
[爬虫学习笔记]基于Bloom Filter的url去重模块UrlSeen
Url Seen用来做url去重.对于一个大的爬虫系统,它可能已经有百亿或者千亿的url,新来一个url如何能快速的判断url是否已经出现过非常关键.因为大的爬虫系统可能一秒钟就会下载 ...

随机推荐

006_Python 异常处理
python提供了两个非常重要的功能来处理python程序在运行中出现的异常和错误.你可以使用该功能来调试python程序. 异常处理: 本站Python教程会具体介绍. 断言(Assertions) ...
python3 生成器和生成器表达式
''' 生成器:函数中有yield就是生成器函数生成器本质是一个迭代器 yield后面的值会作为返回值返回. ''' def func(): print("apple") pri ...
Recurrent Neural Network[survey]
0.引言我们发现传统的(如前向网络等)非循环的NN都是假设样本之间无依赖关系(至少时间和顺序上是无依赖关系),而许多学习任务却都涉及到处理序列数据,如image captioning,speech ...
Java调用FFmpeg进行视频处理及Builder设计模式的应用
1.FFmpeg是什么 FFmpeg(https://www.ffmpeg.org)是一套可以用来记录.转换数字音频.视频,并能将其转化为流的开源计算机程序.它用来干吗呢?视频采集.视频格式转化.视频 ...
测试工具使用-Qunit单元测试使用过程
031302620 应课程要求写一篇单元测试工具的博客,但是暂时没用到java,所以不想使用junit(对各种类都不熟悉的也不好谈什么测试),原计划是要用phpunit,但是安装经历了三个小时,查阅各 ...
命令行创建mysql数据库指定编码方法
GBK: create database test2 DEFAULT CHARACTER SET gbk COLLATE gbk_chinese_ci; UTF8: CREATE DATABASE t ...
跨界 - Omi 发布多端统一框架 Omip 打通小程序与 Web
Omip 今天,Omi 不仅仅可以开发桌面 Web.移动 H5,还可以直接开发小程序!直接开发小程序!直接开发小程序! Github Omi 简介 Omi 框架是微信支付线研发部研发的下一代前端框架, ...
C#.NET 大型通用信息化系统集成快速开发平台 4.1 版本 - 增强服务安全、阻止非授权的用户非法调用
多一道防线,多一些安全保障,当程序发布到互联网上,再有成千上万的用户在用,总会有各种牛人出现,万一遇到破坏分子,那会有灾难性的打击. 只要跟利益有关系的,跟资金有关系,跟财务有关系,有竞争对手,软件系 ...
js判断当前浏览器页面是否切换
公司做mifi设备,ui界面很多信息需要1S钟不断异步请求更新信息,如果同时打开多个浏览器或者多个当前界面,设备1S钟会收到很多个请求,由于设备本身内存限制,会导致响应速度过慢,且会造成设备重启等. ...
九、xadmin菜单分组管理
有的时候,我们的菜单很多很杂,想要把菜单进行分组以方便管理,如下前一篇博文已经详细讲解了如何菜单自定义排序,自定义分组和排序其实写法类似: 要实现上面这个功能,分为以下几步: 1. 我们需要定义一个 ...