是用redis做任务队列时,要思考: 用什么数据类型来做任务队列 怎样才能防止重复爬取 上一篇文章已经决定使用list来做任务队列,但是去重问题没有得到解决.这里可以用set来解决思考二的问题,就是防止重复爬取的问题. 使用list当作未完成任务队列,存储还没有爬的url(或者是用户id,文章id等唯一标识) 使用set当作已完成任务队列,存储已经爬取的url 每次爬虫程序从list未完成任务队列获取任务的时候,都去set已完成任务队列里面验证一下,如果已完成队列里已经有了,就舍弃掉,如果没有,…