scrapy中的canonicalize

转自：http://www.leyle.com/archives/canonicalize_url.html

思考一下：对url进行规范化处理是否是必须的？因为这一步处理涉及到编码转换，对于一个网页的新链发现来说是比较耗时的。

为什么需要格式化 url？

比如下面几个url：

实质上请求的内容是一样的，但是参数的顺序却是可以不一样的，所以，我们需要一个规则，让所有的 url 都按照这个规则来格式化，这样更方便我们判断 url 指向的内容是否相同，也可以对 url 进行去重处理。

在 scrapy 中，格式化 url 的函数是 scrapy.utils.url.canonicalize_url()，在 scrapy 中，按照 url 的构成方法，对 url 中的构成数据进行了重新排列，关于 url 的信息，可以参考 Uniform resource locator

所以整个函数的实现过程就是：

分割 url，提取出来 url 中各个部分；这里使用的是 urlparse.urlparse(url) 来实现；
对于 query 的内容，对他们进行分割(urlparse.parse_qsl(query, True))，同时保留空参数，然后进行排序后再重新拼接成查询字符串；urllib.urlencode(query_list);
路径处理，根据百分号编码相关规则进行编码与转义；
处理是否保留页面内的导航定位('#')，默认情况下是不保留；

经过上面的处理后，再通过 urlparse.urlunparse 反向拼接成新的 url。到此处是，整个 url 格式化过程就完成了。

scrapy中的canonicalize_url【转】的更多相关文章

Scrapy中使用Django的Model访问数据库
Scrapy中使用Django的Model进行数据库访问当已存在Django项目的时候,直接引入Django的Model来使用比较简单 # 使用以下语句添加Django项目的目录到path impo ...
scrapy中的下载器中间件
scrapy中的下载器中间件下载中间件下载器中间件是介于Scrapy的request/response处理的钩子框架. 是用于全局修改Scrapy request和response的一个轻量.底层 ...
Scrapy中使用cookie免于验证登录和模拟登录
Scrapy中使用cookie免于验证登录和模拟登录引言 python爬虫我认为最困难的问题一个是ip代理,另外一个就是模拟登录了,更操蛋的就是模拟登录了之后还有验证码,真的是不让人省心,不过既然有 ...
scrapy 中日志的使用
我在后台调试在后台调试scrapy spider的时候,总是觉得后台命令窗口打印的东西太多了不便于观察日志,因此需要一个日志文件记录信息,这样以后会方便查找问题. 分两种方法吧. 1.简单粗暴. ...
scrapy中response.body 与 response.text区别
scrapy中response.body 与 response.text区别 body http响应正文, byte类型 text 文本形式的http正文,str类型,它是response.body经 ...
scrapy中的request
scrapy中的request 初始化参数 class scrapy.http.Request( url [ , callback, method='GET', headers, body, cook ...
[转]scrapy中的logging
logging模块是Python提供的自己的程序日志记录模块. 在大型软件使用过程中,出现的错误有时候很难进行重现,因此需要通过分析日志来确认错误位置,这也是写程序时要使用日志的最重要的原因. scr ...
论Scrapy中的数据持久化
引入 Scrapy的数据持久化,主要包括存储到数据库.文件以及内置数据存储. 那我们今天就来讲讲如何把Scrapy中的数据存储到数据库和文件当中. 终端指令存储保证爬虫文件的parse方法中有可迭代 ...
selenium在scrapy中的使用、UA池、IP池的构建
selenium在scrapy中的使用流程重写爬虫文件的构造方法__init__,在该方法中使用selenium实例化一个浏览器对象(因为浏览器对象只需要被实例化一次). 重写爬虫文件的closed ...

随机推荐

【黑金ZYNQ7000系列原创视频教程】01.熟悉vivado——纯逻辑led实验
黑金论坛地址: http://www.heijin.org/forum.php?mod=viewthread&tid=36627&extra=page%3D1 爱奇艺地址: http: ...
salt-ssh的批量脚本及使用方法
author: headsen chen date : 2018-08-02 20:06:06 1,salt-ssh的安装: yum -y install epel-release yum - ...
【BZOJ2661】[BeiJing wc2012]连连看最大费用流
[BZOJ2661][BeiJing wc2012]连连看 Description 凡是考智商的题里面总会有这么一种消除游戏.不过现在面对的这关连连看可不是QQ游戏里那种考眼力的游戏.我们的规则是,给 ...
java 空间四点定位,可跟据已知的四点坐标(x,y,z)及距离计算所在位置坐标
public static void main(String args[]) { try{ float point[]=new float[3]; Location loc = new Locatio ...
Android 动态设置控件高度
TextView textView= (TextView)findViewById(R.id.textview); LinearLayout.LayoutParams linearParams =(L ...
KM算法（最优匹配）
hdu2255 奔小康赚大钱 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others) T ...
Monte Carlo methods
Monte Carlo methods https://zh.wikipedia.org/wiki/蒙地卡羅方法通常蒙地卡羅方法可以粗略地分成两类:一类是所求解的问题本身具有内在的随机性,借助计算机 ...
UA-* headers
HTTP The Definitive Guide Request headers are headers that make sense only in a request message. The ...
Andrew Ng机器学习公开课笔记 -- Logistic Regression
网易公开课,第3,4课 notes,http://cs229.stanford.edu/notes/cs229-notes1.pdf 前面讨论了线性回归问题, 符合高斯分布,使用最小二乘来作为损失函数 ...
Struts,Spring,Hibernate优缺点
Struts跟Tomcat.Turbine等诸多Apache项目一样,是开源软件,这是它的一大优点.使开发者能更深入的了解其内部实现机制. Struts开放源码框架的创建是为了使开发者在构建基于Ja ...

scrapy中的canonicalize_url【转】

scrapy中的canonicalize_url【转】的更多相关文章

随机推荐

热门专题