之前在寒假的时候,学习了python基础.在慕课网上看的python入门:http://www.imooc.com/learn/177 python进阶:http://www.imooc.com/learn/317 其实好多知识都是学了忘,忘了学的. 最近因为要使用爬虫爬去数据和照片,所以现在开始学习网络爬虫. 爬虫架构:URL管理器,网页下载器,网页解析器 URL管理器:管理待抓取URL集合和已抓取URL集合 防止重复抓取. URL管理器实现方法: 缓存数据库:大公司,性能高 内存:个人,小公…