我们之前的爬虫都是在同一台机器运行的,叫做单机爬虫.scrapy的经典架构图也是描述的单机架构.那么分布式爬虫架构实际上就是:由一台主机维护所有的爬取队列,每台从机的sheduler共享该队列,协同存储与提取.分布式爬虫的多台协作的关键是共享爬取队列.队列用什么维护呢?推荐redis队列redis是非关系型数据库,用key-value形式存储,结构灵活,他不像关系型数据库必须要由一定的结构才能存储.key-value可以是多种数据,非常灵活.另外,redis是内存中的数据结构存储系统,处理速度快…