Scrapy CrawlSpider源码分析

crawl.py中主要包含两个类：

1. CrawlSpider

2. Rule

　　link_extractor：传LinkExtractor实例对象

　　callback：传”func_name“

　　cb_kwargs=None

　　follow=None 跟配置文件中CRAWLSPIDER_FOLLOW_LINKS做and，都为True才有效

　　process_links=None 用于预处理url

　　process_request=identity 默认调用process_request时返回process_request的参数

CrawlSpider：继承Spider类

1）入口：调用Spider类的start_requests，默认使用parse处理

2）CrawlSpider重写了Spider类的parse方法：返回调用_parse_response方法（*自定义时不能重载parse函数处理response）

3）_parse_response方法：scrapy预留了parse_start_url、process_results方法供我们自定义逻辑处理response，最后遍历process_results结果，yield（如果没重写上面的函数相当于之前什么都没执行），判断配置文件（CRAWLSPIDER_FOLLOW_LINKS=True），调用_requests_to_follow，遍历结果，yield

4）_requests_to_follow方法：调用rules中Rule的LinkExtractor的extract_links方法，抽取每一个link，并且放到集合中做了一个去重，调用_build_request创建request对象，yield Rule实例的process_request方法，传入reuqest对象作为参数（默认相当于yield Request对象）

5）_build_request方法：实例化Request（callback通过_response_downloaded获取），返回Request实例对象

6）_response_downloaded方法：拿到Rule中rule，返回_parse_response函数

7）_parse_response方法：调用rule.callback

重点：

1. 重写预留函数：parse_start_url、process_results方法

2. 自定义Rule中参数配置：process_links（预处理url）

Scrapy CrawlSpider源码分析的更多相关文章

ABP源码分析一：整体项目结构及目录
ABP是一套非常优秀的web应用程序架构,适合用来搭建集中式架构的web应用程序. 整个Abp的Infrastructure是以Abp这个package为核心模块(core)+15个模块(module ...
HashMap与TreeMap源码分析
1. 引言在红黑树--算法导论(15)中学习了红黑树的原理.本来打算自己来试着实现一下,然而在看了JDK(1.8.0)TreeMap的源码后恍然发现原来它就是利用红黑树实现的(很惭愧学了Ja ...
nginx源码分析之网络初始化
nginx作为一个高性能的HTTP服务器,网络的处理是其核心,了解网络的初始化有助于加深对nginx网络处理的了解,本文主要通过nginx的源代码来分析其网络初始化. 从配置文件中读取初始化信息与网 ...
zookeeper源码分析之五服务端(集群leader)处理请求流程
leader的实现类为LeaderZooKeeperServer,它间接继承自标准ZookeeperServer.它规定了请求到达leader时需要经历的路径: PrepRequestProcesso ...
zookeeper源码分析之四服务端(单机)处理请求流程
上文: zookeeper源码分析之一服务端启动过程中,我们介绍了zookeeper服务器的启动过程,其中单机是ZookeeperServer启动,集群使用QuorumPeer启动,那么这次我们分析 ...
zookeeper源码分析之三客户端发送请求流程
znode 可以被监控,包括这个目录节点中存储的数据的修改,子节点目录的变化等,一旦变化可以通知设置监控的客户端,这个功能是zookeeper对于应用最重要的特性,通过这个特性可以实现的功能包括配置的 ...
java使用websocket，并且获取HttpSession，源码分析
转载请在页首注明作者与出处 http://www.cnblogs.com/zhuxiaojie/p/6238826.html 一:本文使用范围此文不仅仅局限于spring boot,普通的sprin ...
ABP源码分析二：ABP中配置的注册和初始化
一般来说,ASP.NET Web应用程序的第一个执行的方法是Global.asax下定义的Start方法.执行这个方法前HttpApplication 实例必须存在,也就是说其构造函数的执行必然是完成 ...
ABP源码分析三：ABP Module
Abp是一种基于模块化设计的思想构建的.开发人员可以将自定义的功能以模块(module)的形式集成到ABP中.具体的功能都可以设计成一个单独的Module.Abp底层框架提供便捷的方法集成每个Modu ...

随机推荐

mysql新增用户并开启远程连接
之前使用mysql一直使用root来连接登录数据库,现在想使用新的用户名来连接数据库,碰到数据连接不上的情况. 把这些记录下来,以备后用 1.首先,创建用户 CREATE USER 'xiazhenx ...
Mac pip install mysql-python
首次在mac os 下,用pip install MySQL-Python时经常出现如下错误: sh: mysql_config: command not foundTraceback (most r ...
Vector的用法
vector容器是笔试时最经常用到的容器,它实际是一个类模板,它所具有一些成员函数我们必须熟练使用,这样才会加快编程速度. 首先加头文件并定义: #include<vector> vect ...
Container 组件
Container 组件 padding: const EdgeInsets.fromLTRB(10, 0, 30, 0),//内边距 margin: const EdgeInsets ...
go chan 入门代码
package main import ( "fmt" "sync" "time" ) // 生产数据 func producer(num ...
搭建Jmeter + Grafana + InfluxDB性能测试监控环境
背景 Jmeter原生的实时监控每半分钟收集一次数据,只能在Linux控制台查看日志输出,界面看起来不直观,图表报告只能等压测结束后才能生成.如下图为jmeter在Linux下运行的实时日志: 那么如 ...
前段时间碰到的一些问题（免费WiFi设置+fiddler对手机进行抓包+fiddler抓不到https的请求）
这段时间转入移动端测试,对这块比较陌生,工作开展起来比较困难,所以好多东西都只是以解决问题为第一目标,没有去细细推敲其中原理,可能会有些语无伦次之感,但还是记一下当时解决问题的大致思路,供以后参考. ...
JavaScript新手入门贪吃蛇
从小就在玩贪吃蛇,但是知道今天自己做了一遍才知道原理的具体的实现步骤. 刚进入界面时显示开始游戏(不重要,本人比较喜欢吹毛求疵) 中间黑色部分为游戏的主要展示部分主要步骤及源码: body中代码,红 ...
python 多线程共享全局变量的问题
多线程都是在同一个进程中运行的.因此在进程中的全局变量所有线程都是可共享的. 这就造成了一个问题,因为线程执行的顺序是无序的.有可能会造成数据错误. 直白理解:也就是多线程执行的时候,同时对一个全局变 ...
尝试document.getElementById()失败
document.getElementById() document.getElementsByTagName() 电脑重启,新建文件后尝试成功

Scrapy CrawlSpider源码分析

Scrapy CrawlSpider源码分析的更多相关文章

随机推荐

热门专题