scrapy中的canonicalize

转自：http://www.leyle.com/archives/canonicalize_url.html

思考一下：对url进行规范化处理是否是必须的？因为这一步处理涉及到编码转换，对于一个网页的新链发现来说是比较耗时的。

为什么需要格式化 url？

比如下面几个url：

实质上请求的内容是一样的，但是参数的顺序却是可以不一样的，所以，我们需要一个规则，让所有的 url 都按照这个规则来格式化，这样更方便我们判断 url 指向的内容是否相同，也可以对 url 进行去重处理。

在 scrapy 中，格式化 url 的函数是 scrapy.utils.url.canonicalize_url()，在 scrapy 中，按照 url 的构成方法，对 url 中的构成数据进行了重新排列，关于 url 的信息，可以参考 Uniform resource locator

所以整个函数的实现过程就是：

分割 url，提取出来 url 中各个部分；这里使用的是 urlparse.urlparse(url) 来实现；
对于 query 的内容，对他们进行分割(urlparse.parse_qsl(query, True))，同时保留空参数，然后进行排序后再重新拼接成查询字符串；urllib.urlencode(query_list);
路径处理，根据百分号编码相关规则进行编码与转义；
处理是否保留页面内的导航定位('#')，默认情况下是不保留；

经过上面的处理后，再通过 urlparse.urlunparse 反向拼接成新的 url。到此处是，整个 url 格式化过程就完成了。

scrapy中的canonicalize_url【转】的更多相关文章

Scrapy中使用Django的Model访问数据库
Scrapy中使用Django的Model进行数据库访问当已存在Django项目的时候,直接引入Django的Model来使用比较简单 # 使用以下语句添加Django项目的目录到path impo ...
scrapy中的下载器中间件
scrapy中的下载器中间件下载中间件下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和response的一个轻量.底层 ...
Scrapy中使用cookie免于验证登录和模拟登录
Scrapy中使用cookie免于验证登录和模拟登录引言 python爬虫我认为最困难的问题一个是ip代理,另外一个就是模拟登录了,更操蛋的就是模拟登录了之后还有验证码,真的是不让人省心,不过既然有 ...
scrapy 中日志的使用
我在后台调试在后台调试scrapy spider的时候,总是觉得后台命令窗口打印的东西太多了不便于观察日志,因此需要一个日志文件记录信息,这样以后会方便查找问题. 分两种方法吧. 1.简单粗暴. ...
scrapy中response.body 与 response.text区别
scrapy中response.body 与 response.text区别 body http响应正文, byte类型 text 文本形式的http正文,str类型,它是response.body经 ...
scrapy中的request
scrapy中的request 初始化参数 class scrapy.http.Request( url [ , callback, method='GET', headers, body, cook ...
[转]scrapy中的logging
logging模块是Python提供的自己的程序日志记录模块. 在大型软件使用过程中,出现的错误有时候很难进行重现,因此需要通过分析日志来确认错误位置,这也是写程序时要使用日志的最重要的原因. scr ...
论Scrapy中的数据持久化
引入 Scrapy的数据持久化,主要包括存储到数据库.文件以及内置数据存储. 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中. 终端指令存储保证爬虫文件的parse方法中有可迭代 ...
selenium在scrapy中的使用、UA池、IP池的构建
selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed ...

随机推荐

ios ASIHTTPRequest类库简介和使用说明
官方网站: http://allseeing-i.com/ASIHTTPRequest/ .可以从上面下载到最新源码,以及获取到相关的资料. 使用iOS SDK中的HTTP网络请求API,相当的复杂, ...
PMP 笔记
项目: 为创造独特的产品.服务或结果而进行的临时性工作. 项目特征: 独特性:Unique.临时性:Temporary.渐进明细. 渐进明细:预算越来越精细.比如三峡工程中,预算从10亿级的误差到1亿 ...
vue.js实现初了解（一）
1. vue 2.0是用Flow做静态类型检查, 3.0对TypeScript的支持更好了: 2. vue.js是基于Rollup(更轻量,适合js库的构建)构建的,它的构建相关配置都在scripts ...
聊一聊goroutine stack
通过阅读这篇文章对内存的处理以及栈的扩容有了新的认识,我们在生产环境中也遇到了内存使用量超大的情况,现在怀疑也可能是由于栈扩容导致的很好的一片文章: 推送在外卖订餐中扮演着重要的角色,为商家实时接单 ...
vs 开发常用快捷键
alt+shift+enter 编辑区最大化ctrl+] 括号匹配 ctrl+j 强迫智能感知ctrl+shift+空格强迫智能感知(参数) ctrl+k+d ...
Python开发【项目】：生产环境下实时统计网站访问日志信息
日志实时分析系统生产环境下有需求:要每搁五分钟统计下这段时间内的网站访问量.UV.独立IP等信息,用直观的数据表格表现出来环境描述: 网站为Nginx服务,系统每日凌晨会对日志进行分割,拷贝到其他 ...
第1章 1.6计算机网络概述--OSI参考模型
ISO七层模式:国际标准组织对互联网通信规则进行的定义. 7.应用层:所有能产生网络流量的程序,如:QQ. 6.表示层:传输前对数据进行进行处理,是一种数据处理的规则,如:加密.压缩.传输二进制(图片 ...
format的用法：python
https://www.cnblogs.com/wongbingming/p/6848701.html 它通过{}和:来代替%.通过位置 In [1]: '{0},{1}'.format('kzc', ...
Mirror--自增键在镜像中的影响
测试环境: OS: Windows Server 2008 R2 Enterprise SQL: SQL Server 2012 Enterprise 测试场景: 有SERVER A上数据库 DB10 ...
（2.9）Mysql之SQL基础——索引的查看与删除
(2.9)Mysql之SQL基础——索引的查看与删除关键词:mysql索引查看,mysql索引删除 1.索引查询(以下包括主键,唯一,普通,复合,全文,但不包括外键) (1)按库查询 select ...

scrapy中的canonicalize_url【转】

scrapy中的canonicalize_url【转】的更多相关文章

随机推荐

热门专题