Scrapy笔记：CrawSpider中rules中的使用

scrapy.spiders.crawl.CrawlSpider类的使用

　　这个类比较适用于对网站爬取批量网页，相比于Spider类，CrawlSpider主要使用规则(rules)来提取链接

　　rules = (

　　　　Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+/')), callback="parse_item1"),

　　　　Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/.+')), callback="parse_item2"),

　　　　)

　　如果接触过django，那么可以发现这个规则与django的路由系统十分相似，CrawlSpider的rules属性是直接从response对象的文本中提取url，然后自动创建新的请求。与Spider不同的是，CrawlSpider已经重写了parse函数，因此我们可以看到，scrapy的官网文档的例子中并没有重写parse。

这一切是scrapy自动实现的，具体过程是：

　　scrapy crawl spidername开始运行，程序自动使用start_urls构造Request并发送请求，然后调用parse函数对其进行解析，在这个解析过程中使用rules中的规则从html（或xml）文本中提取匹配的链接，通过这个链接再次生成Request，如此不断循环，直到返回的文本中再也没有匹配的链接，或调度器中的Request对象用尽，程序才停止。

　　rules中的规则如果callback没有指定，则使用默认的parse函数进行解析，如果指定了，那么使用自定义的解析函数。

　　如果起始的url解析方式有所不同，那么可以重写CrawlSpider中的另一个函数parse_start_url(self, response)用来解析第一个url返回的Response，但这不是必须的。

　　Rule对象的follow参数的作用是：指定了根据该规则从response提取的链接是否需要跟进。

参考： http://scrapy-chs.readthedocs.io/zh_CN/stable/topics/spiders.html#crawling-rules

 #!/usr/bin/python

 # -*- coding: utf-8 -*-

 import scrapy

 from tutorial01.items import MovieItem

 from scrapy.spiders.crawl import Rule, CrawlSpider

 from scrapy.linkextractors import LinkExtractor

 class DoubanmoviesSpider(CrawlSpider):

     name = "doubanmovies"

     allowed_domains = ["douban.com"]

     start_urls = ['https://movie.douban.com/tag/']

 #     http_user='username' #http协议的基本认证功能 ；http_user和http_pass

 #     http_pass='password'

     rules = ( #自动从response中根据正则表达式提取url，再根据这个url再次发起请求，并用callback解析返回的结果

         Rule(LinkExtractor(allow=(r'https://movie.douban.com/subject/\d+/')), callback="parse_item"),

         #Rule(LinkExtractor(allow=(r'https://movie.douban.com/tag/\[wW]+'))), # 从网页中提取http链接

     )

     def parse_item(self, response):

         movie = MovieItem()

         movie['name'] = response.xpath('//*[@id="content"]/h1/span[1]/text()').extract()[0]

         movie['director'] = '/'.join(response.xpath('//a[@rel="v:directedBy"]/text()').extract())

         movie['writer'] = '/'.join(response.xpath('//*[@id="info"]/span[2]/span[2]/a/text()').extract())

         movie['url'] = response.url

         movie['score'] = response.xpath('//*[@class="ll rating_num"]/text()').extract()[0]

         movie['collections'] = response.xpath('//span[@property="v:votes"]/text()').extract()[0] #评价人数

         movie['pub_date'] = response.xpath('//span[@property="v:initialReleaseDate"]/text()').extract()[0]

         movie['actor'] = '/'.join(response.css('span.actor span.attrs').xpath('.//a[@href]/text()').extract())

         movie['classification'] = '/'.join(response.xpath('//span[@property="v:genre"]/text()').extract())

         print('movie:%s  |url:%s'%(movie['name'],movie['url']))

         return movie

     def parse_start_url(self, response):

         urls = response.xpath('//div[@class="article"]//a/@href').extract()

         for url in urls:

             if 'https' not in url: # 去除多余的链接

                 url = response.urljoin(url) # 补全

                 print(url)

                 print('*'*30)

                 yield scrapy.Request(url)

Scrapy笔记：CrawSpider中rules中的使用的更多相关文章

第三百六十七节，Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
第三百六十七节,Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中前面我们讲到的elasticsearch( ...
四十六 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)scrapy写入数据到elasticsearch中
前面我们讲到的elasticsearch(搜索引擎)操作,如:增.删.改.查等操作都是用的elasticsearch的语言命令,就像sql命令一样,当然elasticsearch官方也提供了一个pyt ...
Yii CModel中rules验证获取错误信息
在model中定义 public function rules(){ return array( array('Name,Email','required'), array('Email','uniq ...
YII开发技巧分享——模型（models）中rules自定义验证规则
YII的models中的rules部分是一些表单的验证规则,对于表单验证十分有用,在相应的视图(views)里面添加了表单,在表单被提交之前程序都会自动先来这里面的规则里验证,只有通过对其有效的限制规 ...
python笔记之提取网页中的超链接
python笔记之提取网页中的超链接对于提取网页中的超链接,先把网页内容读取出来,然后用beautifulsoup来解析是比较方便的.但是我发现一个问题,如果直接提取a标签的href,就会包含jav ...
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---找出网页中所有的href
阅读OReilly.Web.Scraping.with.Python.2015.6笔记---找出网页中所有的href 1.查找以<a>开头的所有文本,然后判断href是否在<a> ...
element-ui的rules中正则表达式
<template> <el-form :model="unuseForm" label-position="top" :rules=&quo ...
scrapy笔记集合
细读http://scrapy-chs.readthedocs.io/zh_CN/latest/index.html 目录 Scrapy介绍安装基本命令项目结构以及爬虫应用介绍简单使用示例选 ...
Scrapy笔记03- Spider详解
Scrapy笔记03- Spider详解 Spider是爬虫框架的核心,爬取流程如下: 先初始化请求URL列表,并指定下载后处理response的回调函数.初次请求URL通过start_urls指定, ...

随机推荐

jquery 省市区联动插件
使用方式: <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF ...
HUD：2896-病毒侵袭
传送门:http://acm.hdu.edu.cn/showproblem.php?pid=2896 病毒侵袭 Time Limit: 2000/1000 MS (Java/Others) Memor ...
P3387 【模板】缩点
题目背景缩点+DP 题目描述给定一个n个点m条边有向图,每个点有一个权值,求一条路径,使路径经过的点权值之和最大.你只需要求出这个权值和. 允许多次经过一条边或者一个点,但是,重复经过的点,权值只 ...
SJTU 1077 加分二叉树
http://acm.sjtu.edu.cn/OnlineJudge/problem/1077 题意: 设一个n个节点的二叉树tree的中序遍历为(l,2,3,…,n),其中数字1,2,3…,n为节点 ...
git上传自己的代码
感谢这个哥们的博客,不过里面有些错误. http://www.cnblogs.com/ruofengzhishang/p/3842587.html 下面是我自己的实践成功的: 这篇文章写得是windo ...
python django 路由系统
URL配置基本格式: from django.conf.urls import url urlpatterns = [ url(正则表达式, views ...
ObjectOutputStream和ObjectInputStream的简单使用
使用ObjectOutputStream往文本写内容时,首先在文本里面标记开始,然后是内容,最后加上结束标示.如果想再次往文本里面添加内容的话,就要加在开始标示之后和结束标示之前,不然会读取不到写入的 ...
leetcode 【 Sort List 】 python 实现
题目: Sort a linked list in O(n log n) time using constant space complexity. 代码:oj 测试通过 Runtime: 372 m ...
Python Unicode与中文处理
转自:http://blog.csdn.net/dao123mao/article/details/5396497 python中的unicode是让人很困惑.比较难以理解的问题,本文力求彻底解决这些 ...
java基础-容器
已经写了一段时间JAVA代码了,但仔细想来,却发现对JAVA的很多方面还是一片迷茫. 利用周末补一下基础知识吧. 大致列一下这个周末需要学习的内容 1 容器 (本节内容) 2 线程 3 流目录 1 ...

Scrapy笔记：CrawSpider中rules中的使用

scrapy.spiders.crawl.CrawlSpider类的使用

Scrapy笔记：CrawSpider中rules中的使用的更多相关文章

随机推荐

热门专题