crawlspider

Scrapy中CrawSpider

回头看：

之前的代码中，我们有很大一部分时间在寻找下一页的url地址或者是内容的url地址或者是内容的url地址上面，这个过程能更简单一些么？

思路：

1. 从response中提取所有的a标签对应的url地址

2. 自动的构造自己requests请求，发送给引擎

上面的功能可以做的更好：

满足某个条件的url地址，我们才发送给引擎，同时能够指定callback函数

需求：爬取csdn上面所有的博客专家及其文章

url地址：http://blog.csdn.net/experts.html

生产crawlspider的命令：

scrapy genspider -t crawl csdn 'csdn.cn'

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

class CsdnspiderSpider(CrawlSpider):  # 继承自spiders的crawspider类

    name = 'csdnspider'

    allowed_domains = ['blog.csdn.net']

    start_urls = ['http://blog.csdn.net/peoplelist.html?channelid=0&page=1']  # 第一次请求的url，如果对这个url有特殊的需求，可以定义一个parse_start_url函数专门处理所有对应的响应

    rules = (

        Rule(LinkExtractor(allow=r"http://blog.csdn.net/\w+$"), fllow=True),  # 能够找到所有作者的博客地址并且请求，$符号加上表示已\w结尾，否则会匹配上\w+'/abc/def'等内容

        Rule(LinkExtractor(allow=r"peoplelist.html?channelid=\d+&page=\d+$), follow=True),  #找到所有的翻页地址并且请求，$符合同理

        Rule(LinkExtractor(allow=r'/article/details/\d+$'), callback="parse_article", follow=True),  # 找到所有的文章的url地址，并且请求，调用parase_article函数处理response

        Rule(LinkExtractor(allow=r'/article/list/\d+$'), follow=True)

    )

注意点：

用命令创建一个crawlspider模块：scrapy genspider -t crawl <爬虫名字> <all_domain>，也可以手动创建
CrawlSpider中不能再有以parse为名字的数据提取方法，这个方法被CrawlSpider用来实现基础url提取等功能
一个Rule对象接收很多参数，首先第一个是包含url规则的LinkExtractor对象，常用的还有callback(制定满足规则的url的解析函数的字符串)和follow(response中提取的链接是否需要跟进)
不指定callback函数的请求下，如果follow为True，满足该rule的url还会继续被请求
如果多个Rule都满足某一个url，会从rules中选择第一个满足的进行操作

CrawlSpider补充（了解）

LinkExtractor更多常见参数：

allow：满足括号中“正则表达式”的URL会被提取，如果为空，则全部匹配。

deny：满足括号中“正则表达式”的URL一定不提取（优先级高于allow）

allow_domains：会被提取的链接的domains。

deny_domains：一定不会被提取链接的domains。

restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接，级xpath满足范围内的url地址会被提取

spiders.Rule常见参数：

link_extractor：是一个LinkExtractor对象，用于定义需要提取的链接。

callback：从linkExtractor中每获取链接时，参数所指定的值作为回调函数。

follow：是一个布尔（boolean）值，指定了根据该规则从response提取的链接是否需要跟进。如果callback为None，follow默认设置为True，否则默认为False。

process_links：指定该spider中哪个的函数将会被调用，从link_extractor中获取到链接列表时将会调用该函数，该方法主要用来过滤url。

process_request：指定该spider中哪个的函数将会被调用，该规则提取每个request时都会调用该函数，用来过滤request

crawlspider的更多相关文章

爬虫学习-使用CrawlSpider
使用scrapy中的CrawlSpider类来进行爬行一直用的是BaseSpider,回调函数的方式,有一个问题是title,date在一个页面,author,detail在另一个页面时,怎么把这些 ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...
爬虫框架之Scrapy（三 CrawlSpider）
如何爬取一个网站的全站数据? 可以使用Scrapy中基于Spider的递归方式进行爬取(Request模块回调parse方法) 还有一种更高效的方法,就是基于CrawlSpider的自动爬取实现简介 ...
Scrapy框架-Spider和CrawlSpider的区别
目录 1.目标 2.方法1:通过Spider爬取 3. 通过CrawlSpider爬取 1.目标 http://wz.sun0769.com/index.php/question/questionTy ...
Scrapy框架-CrawlSpider
目录 1.CrawlSpider介绍 2.CrawlSpider源代码 3. LinkExtractors:提取Response中的链接 4. Rules 5.重写Tencent爬虫 6. Spide ...
scrapy CrawlSpider解析
CrawlSpider继承自Spider, CrawlSpider主要用于有规则的url进行爬取. 先来说说它们的设计区别: SpiderSpider 类的设计原则是只爬取 start_urls 中的 ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
爬虫系列---scrapy全栈数据爬取框架(Crawlspider)
一简介 crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能. LinkExtractors链接提取器,Rule规则解析器. 二强大的链接 ...
scrapy 中crawlspider 爬虫
爬取目标网站: http://www.chinanews.com/rss/rss_2.html 获取url后进入另一个页面进行数据提取检查网页: 爬虫该页数据的逻辑: Crawlspider爬虫类: ...

随机推荐

Windows系统盘符错乱导致桌面无法加载。
问题如下 : 同事有台笔记本更换SSD硬盘,IT职员帮他将新硬盘分好区后再将系统完整Ghost过来,然后装到笔记本上.理论上直接就可以使用了!但结果开机后登陆用户桌面无法显示,屏幕黑屏什么都没有. 问 ...
django发送邮件send_mail&send_mass_mail
一.配置在setting.py中进行相关配置: EMAIL_HOST = 'smtp.sina.cn' #SMTP地址 EMAIL_PORT = 25 #SMTP端口 EMAIL_HOST_USER ...
nnet3的并行化训练
num_epochs=1 num_archives=64 args.num_jobs_initial=3 args.num_jobs_final=8 num_iters=2*num_epochs*nu ...
Celery - 一个懂得异步任务 , 定时任务 , 周期任务的芹菜
1.什么是Celery?Celery 是芹菜Celery 是基于Python实现的模块, 用于执行异步定时周期任务的其结构的组成是由 1.用户任务 app 2.管道 broker 用于存储 ...
🍓 DOM常用基础知识点汇总(入门者适用) 🍓
铛-今天又没啥事,来总结一下DOM的基础知识.(公司没活干我也很无奈
JSON 之 SuperObject(11): TSuperTableString、TSuperAvlEntry
JSON 之 SuperObject(11): TSuperTableString.TSuperAvlEntry - 万一 - 博客园http://www.cnblogs.com/del/archiv ...
转：spring boot log4j2配置（使用log4j2.yml文件）---YAML 语言教程
转:spring boot log4j2配置(使用log4j2.yml文件) - CSDN博客http://blog.csdn.net/ClementAD/article/details/514988 ...
Codeblock代码提示自动补全（包括结构体成员）
转:https://blog.csdn.net/haibin8473/article/details/79113650
【原创】大叔问题定位分享（3）Kafka集群broker进程逐个报错退出
kafka0.8.1 一问题现象生产环境kafka服务器134.135.136分别在10月11号.10月13号挂掉: 134日志 [2014-10-13 16:45:41,902] FATAL [ ...
解决 Composer-Setup.exe 安装过程中的报错
问题在 Windows 7 执行 Composer-Setup.exe 以安装 Composer 过程中上图中点击[Next]时,出现如下报错信息原因分析由上述提示信息,可推测两方面原因: 1 ...

crawlspider

Scrapy中CrawSpider

CrawlSpider补充（了解）

crawlspider的更多相关文章

随机推荐

热门专题