浅谈深度优先和广度优先(scrapy-redis)

首先先谈谈深度优先和广度优先的定义

深度优先搜索算法（英语：Depth-First-Search，DFS）是一种用于遍历或搜索树或图的算法。沿着树的深度遍历树的节点，尽可能深的搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。属于盲目搜索。

深度优先搜索

节点进行深度优先搜索的顺序

概况

类别：	搜索算法
数据结构：	图
时间复杂度：	{\displaystyle O(b^{m})}
空间复杂度：	{\displaystyle O(bm)}
最佳解：	否
完全性：	是
其他：	_{b - 分支系数} _{m - 图的最大深度}

广度优先搜索算法（英语：Breadth-First-Search，缩写为BFS），又译作宽度优先搜索，或横向优先搜索，是一种图形搜索算法。简单的说，BFS是从根节点开始，沿着树的宽度遍历树的节点。如果所有节点均被访问，则算法中止。广度优先搜索的实现一般采用open-closed表。

广度优先搜索

节点进行广度优先搜索的顺序

概况

类别：	搜索算法
数据结构：	图
时间复杂度：	{\displaystyle O(\|V\|+\|E\|)=O(b^{d})}
空间复杂度：	{\displaystyle O(\|V\|+\|E\|)=O(b^{d})}
最佳解：	是
完全性：	是

通俗的讲：

深度优先：一个一个节点往下找，不找兄弟节点,每一个深度一个节点,先进去的后出来

广度优先:横向取值，一个节点有关联其他的节点，一同被取出来,一个深度多个节点，先进去的先出来

在settings里面的配置：

from   scrapy_redis.queue import PriorityQueue,FifoQueue,LifoQueue
先进先出：广度优先

SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.FifoQueue'
后进先出：深度优先
SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.LifoQueue'
优先级队列：
SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.PriorityQueue'
优先级队列里面也有深度优先和广度优先：

requets.priority=1   广度优先

requets.priority=1   深度优先

实现原理：

from scrapy_redis import queue

prio=1

depth = response.meta['depth'] + 1

requets.priority-=depth*self.prio

每一次循环，depth加1
同一个深度可以找到很多url(兄弟节点）

如果是1的话，广度优先

广度优先：
depth 优先级
1 -1
1 -1
1 -1
2 -2

从深度为1的开始往下找，优先级也越大
重点：深度越小，优先级越小

def push(self, request):
"""Push a request"""
data = self._encode_request(request)
score = -request.priority##取反，注意

......

优先级队列：
放进队列里面：
反一下
1 1
1 1
1 1
2 2
......

print('这里优先级是',score)
print(request.meta.get('depth'))
# We don't use zadd method as the order of arguments change depending on
# whether the class is Redis or StrictRedis, and the option of using
# kwargs only accepts strings, not bytes.
self.server.execute_command('ZADD', self.key, score, data)
#按照分值来看

def pop(self, timeout=0):
"""
Pop a request
timeout not support in this queue class
"""
# use atomic range/remove using multi/exec
##开启事物
pipe = self.server.pipeline()
pipe.multi()
##取第一个值出来，拿出一个删除一个
pipe.zrange(self.key, 0, 0).zremrangebyrank(self.key, 0, 0)
results, count = pipe.execute()
if results:
return self._decode_request(results[0])

最终pop是按照这个优先级来取值的，优先级越小的越先被取出来，优先级从小多大取值
总结：就是深度越小，优先级越小，越先被取出来>>广度优先(先进先出，横向取值）

深度优先：
先进后出：一个一个节点的往下面执行

深度越大，优先级越小，越先被pop出来

深度优先类似，就不多说了

....................

浅谈深度优先和广度优先(scrapy-redis)的更多相关文章

浅谈 OpenResty，基于opebresty+redis进行实时线上限流
一．前言我们都知道Nginx有很多的特性和好处,但是在Nginx上开发成了一个难题,Nginx模块需要用C开发,而且必须符合一系列复杂的规则,最重要的用C开发模块必须要熟悉Nginx的源代码,使得开 ...
scrapy分布式浅谈+京东示例
scrapy分布式浅谈+京东示例: 学习目标: 分布式概念与使用场景浅谈去重浅谈断点续爬分布式爬虫编写流程基于scrapy_redis的分布式爬虫(阳关院务与京东图书案例) 环境准备: 下载r ...
$.ajax()方法详解 ajax之async属性【原创】详细案例解剖——浅谈Redis缓存的常用5种方式（String，Hash，List，set，SetSorted ）
$.ajax()方法详解 jquery中的ajax方法参数总是记不住,这里记录一下. 1.url: 要求为String类型的参数,(默认为当前页地址)发送请求的地址. 2.type: 要求为Str ...
Python 基于python+mysql浅谈redis缓存设计与数据库关联数据处理
基于python+mysql浅谈redis缓存设计与数据库关联数据处理 by:授客 QQ:1033553122 测试环境 redis-3.0.7 CentOS 6.5-x86_64 python 3 ...
第三百三十八节，Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理
第三百三十八节,Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理网站树形结构深度优先是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认 ...
十七 Python分布式爬虫打造搜索引擎Scrapy精讲—深度优先与广度优先原理
网站树形结构深度优先是从左到右深度进行爬取的,以深度为准则从左到右的执行(递归方式实现)Scrapy默认是深度优先的广度优先是以层级来执行的,(列队方式实现)
浅谈：Redis持久化机制（一）RDB篇
浅谈:Redis持久化机制(一)RDB篇众所周知,redis是一款性能极高,基于内存的键值对NoSql数据库,官方显示,它的读效率可达到11万次每秒,写效率能达到8万次每秒,因为它基于内存以及存 ...
浅谈：Redis持久化机制（二）AOF篇
浅谈:Redis持久化机制(二)AOF篇上一篇我们提及到了redis的默认持久化方式RDB,是一种通过存储快照数据方式持久化的机制,它在宕机后会丢失掉最后一次更新RDB文件后的数据,这也是由于它 ...
浅谈：redis的主从复制 + 哨兵模式
浅谈:redis的主从复制 + 哨兵模式主从模式在谈论redis的主从复制之前,我们先回想下mysql的主从搭建过程,第一步呢首先要在主库服务器中修改my.cnf,开启一下bin_log功能, ...

随机推荐

jsp过滤器
1.ip过滤 IpFilter: package com.cn.filter; import java.io.IOException; import javax.servlet.Filter; imp ...
PCA(主成分分析)的简单理解
PCA(Principal Components Analysis),它是一种“投影(projection)技巧”,就是把高维空间上的数据映射到低维空间.比如三维空间的一个球,往坐标轴方向投影,变成了 ...
jquery 禁止滚动条滚动，并且滚动条不消失，页面大小不闪动
一,禁止滚动,滚动条不消失,页面大小不闪动 //禁止滚动条滚动 function unScroll() { var top = $(document).scrollTop(); $(document) ...
DUMP1 企业级电商项目
系统:centos6 配置mirror阿里云 https://opsx.alibaba.com/mirror 远程管理首选:ssh 账户密码登录(ssh user@host) 或者本地私钥连接服务器 ...
[C++]Linux之虚拟文件系统[/proc]中关于CPU/内存/网络/内核等的一些概要性说明
声明:如需引用或者摘抄本博文源码或者其文章的,请在显著处注明,来源于本博文/作者,以示尊重劳动成果,助力开源精神.也欢迎大家一起探讨,交流,以共同进步- 0.0 1.Linux虚拟文件系统首先要明白 ...
Coursera, Deep Learning 4, Convolutional Neural Networks - week2
Case Study (Note: 红色表示不重要) LeNet-5 起初用来识别手写数字灰度图片 AlexNet 输入的是227x227x3 的图片,输出1000 种类的结果 VGG VGG比Ale ...
MySQL基本命令（待更新...）
数据库操作SQL语句 show databases; 表操作SQL语句数据库权限操作SQL语句参考链接 :http://www.cnblogs.com/bzys/archive/2013/01/2 ...
TMS 控件测试
//TMS 控件测试nxflpnl1: TNxFlipPanel; 控件有一个标题的panel 可以随意收展 TNxBusy; 有很均匀分布的四块区域,但是不像 TFlowPanel nxhtmlb ...
同步&异步+阻塞&非阻塞（理解）
0 - 同步&异步同步和异步关注的是消息通信机制. 0.1 - 同步由“调用者”主动等待这个“调用”结果.即是,发出一个“调用”时,在没有得到结果之前,该“调用”不返回,一旦调用返回,则得 ...
实现Comet(服务器推送)的两种方式：长轮询和http流
Comet 是一种高级的Ajax技术,实现了服务器向页面实时推送数据的技术,应用场景有体育比赛比分和股票报价等. 实现Comet有两种方式:长轮询与http流长轮询是短轮询的翻版,短轮询的方式是:页 ...

浅谈深度优先和广度优先(scrapy-redis)

浅谈深度优先和广度优先(scrapy-redis)的更多相关文章

随机推荐

热门专题