一 简介

  crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能。

  LinkExtractors链接提取器,Rule规则解析器。

二 强大的链接提取器和规则解析器

1 LinkExtractor 链接提取器

    LinkExtractor(

         allow=r'Items/',# 满足括号中“正则表达式”的值会被提取,如果为空,则全部匹配。

         deny=xxx,  # 满足正则表达式的则不会被提取。

         restrict_xpaths=xxx, # 满足xpath表达式的值会被提取

         restrict_css=xxx, # 满足css表达式的值会被提取

         deny_domains=xxx, # 不会被提取的链接的domains。 

    )
作用:提取response中符合规则的链接

2 Rule:规则解析器

Rule(linkExtractor(allow=r'Items/'),callback='parse_item',follow=True)
-参数介绍
  参数1:制定链接提取器
  参数2:制定规则解析器解析数据的规则(回调函数)
  参数3:是否允许链接提取器继续作用到已经提取到的链接网页上提取新的链接,
     默认是True,即继续提取。

3 rules=()

制定不同的规则的解析器。一个Rule,一种提取规则。

三 CrawlSpider整体流程

  1. 爬取文件首先根据起始url,获取改url的网页内容;
  2. 链接提取器会根据指定提取规则将步骤1中网页内容中的链接进行提取;
  3. 规则解析器回根据指定解析规则将链接中的网页内容根据制定规则进行解析;
  4. 将解析数据封装到item中,然后提交给管道进行持久化存储。

四 实战抽屉全站爬取

  • 1 创建项目
scrapy start project ChouTi
  • 2 创建爬虫文件
cd Chouti

scrapy genspider -t crawl choti chouti.com
  • 3 爬虫文件 chouti.py
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ChouTi.items import ChoutiItem
#LinkExtractor:链接提取器
#Rule:规则解析器 class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['xxx.com']
start_urls = ['https://dig.chouti.com/r/scoff/hot/1'] link=LinkExtractor(allow=r'/r/scoff/hot/\d+')
rules = (
Rule(link, callback='parse_item', follow=True),
) def parse_item(self, response):
# print(response)
div_list=response.xpath('//div[@id="content-list"]/div')
for div in div_list:
content=div.xpath('.//div[@class="news-content"]/div[1]/a[1]/text()').extract_first().strip()
author=div.xpath('.//div[@class="part2"]/a[4]//text()').extract_first()
author="".join(author)
item=ChoutiItem()
item['author']=author
item['content']=content
yield item
注意:

多链接解析器书写方式;

class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['xxx.com']
start_urls = ['https://dig.chouti.com/r/scoff/hot/1'] link=LinkExtractor(allow=r'/r/scoff/hot/\d+')
link2=LinkExtractor(allow='^/text/$') #增加特定页面提取规则
rules = (
Rule(link, callback='parse_item', follow=True),
Rule(link2, callback='parse_item', follow=True),#允许添加多个规则
)

4 items.py

import scrapy

class ChoutiItem(scrapy.Item):
# define the fields for your item here like:
content = scrapy.Field()
author = scrapy.Field()

5 pipelines.py

import pymongo

class ChoutiPipeline(object):
conn=None def open_spider(self,spider):
self.conn=pymongo.MongoClient(host='127.0.0.1',port=27017)
def process_item(self, item, spider):
# print(item)
self.conn.spider.chouti.insert(item.__dict__)
return item

6 settings.py

USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.119 Safari/537.36'

ROBOTSTXT_OBEY = False

ITEM_PIPELINES = {
'ChouTi.pipelines.ChoutiPipeline': 300,
}

爬虫系列---scrapy全栈数据爬取框架(Crawlspider)的更多相关文章

  1. 基于CrawlSpider全栈数据爬取

    CrawlSpider就是爬虫类Spider的一个子类 使用流程 创建一个基于CrawlSpider的一个爬虫文件 :scrapy genspider -t crawl spider_name www ...

  2. 爬虫系列4:Requests+Xpath 爬取动态数据

    爬虫系列4:Requests+Xpath 爬取动态数据 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参 ...

  3. scrapy爬虫系列之二--翻页爬取及日志的基本用法

    功能点:如何翻页爬取信息,如何发送请求,日志的简单实用 爬取网站:腾讯社会招聘网 完整代码:https://files.cnblogs.com/files/bookwed/tencent.zip 主要 ...

  4. Java爬虫系列四:使用selenium-java爬取js异步请求的数据

    在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据,但是有时候通过这两种方式不能正常抓取到我们想要的数据,比如看如下例子. ...

  5. 爬虫系列1:Requests+Xpath 爬取豆瓣电影TOP

    爬虫1:Requests+Xpath 爬取豆瓣电影TOP [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]: ...

  6. 爬虫系列3:Requests+Xpath 爬取租房网站信息并保存本地

    数据保存本地 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 爬虫系列2:https://www ...

  7. 爬虫系列(1)-----python爬取猫眼电影top100榜

    对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...

  8. 爬虫系列2:Requests+Xpath 爬取租房网站信息

    Requests+Xpath 爬取租房网站信息 [抓取]:参考前文 爬虫系列1:https://www.cnblogs.com/yizhiamumu/p/9451093.html [分页]:参考前文 ...

  9. Python进行拉勾网数据爬取框架与思路

    爬取内容 用交互式的方式输入想查询的职位并循环输出职位简要信息,为了方便阅读,本文使用到的变量并不是以目标变量的英文来命名,而是为了方便而取的变量名,各位大牛请谅解.(因贵网站爬取一定量数据后需要登陆 ...

随机推荐

  1. Java 多线程(五)—— 线程池基础 之 FutureTask源码解析

    FutureTask是一个支持取消行为的异步任务执行器.该类实现了Future接口的方法. 如: 取消任务执行 查询任务是否执行完成 获取任务执行结果(”get“任务必须得执行完成才能获取结果,否则会 ...

  2. 深入理解Spring IOC工作原理

    为什么会出现spring,spring出现解决了什么问题? 1.分析普通多层架构存在的问题 JSP->Servlet->Service->Dao 层与层之间的依赖很强,属于耦合而且是 ...

  3. 《HelloGitHub月刊》第 04 期(秋招临近,本期加入了面试相关的项目)

    兴趣是最好的老师,而<HelloGitHub> 就是帮你找到兴趣! 因为我比较熟悉python语言,所以月刊中python语言的项目居多,个人能力有限,其他语言涉及甚少,欢迎各路人士加入, ...

  4. Jvm垃圾回收器(算法篇)

    在<Jvm垃圾回收器(基础篇)>中我们主要学习了判断对象是否存活还是死亡?两种基础的垃圾回收算法:引用计数法.可达性分析算法.以及Java引用的4种分类:强引用.软引用.弱引用.虚引用.和 ...

  5. Linux 中Ctrl + s 的作用

    在Linux下使用vim编辑程序时,常常会习惯性的按下Ctrl + s保存文件内容.殊不知,这一按不紧,整个终端再也不响应了. 事实上Ctrl + s在终端下是有特殊用途的,那就是暂停该终端,这个功能 ...

  6. jmeter 分布式压测(windows)

    单台压测机通常会遇到客户端瓶颈,受制于客户机的性能.可能由于网络带宽,CPU,内存的限制不能给到服务器足够的压力,这个时候你就需要用到分布式方案来解决客户机的瓶颈,压测的结果也会更加接近于真实情况. ...

  7. 第28章 确认(Consent) - Identity Server 4 中文文档(v1.0.0)

    在授权请求期间,如果IdentityServer需要用户同意,则浏览器将被重定向到同意页面. 同意用于允许最终用户授予客户端对资源(身份或API)的访问权限.这通常仅对第三方客户端是必需的,并且可以在 ...

  8. Orchard学习资料,适合入门上手

    名词解释: http://www.cnblogs.com/esshs/archive/2011/06/01/2067501.html   Orchard如何工作: http://www.cnblogs ...

  9. 【转载】C#工具类:人民币金额转换为中文大写

    在涉及到金融业务这一块的系统设计中,时常能够遇到的情况是需要将阿拉伯数字的人民币金额自动转换为中文的大写金额.现在互联网上也有很多网站提供此类服务,只要你输入人民币的阿拉伯数字金额,输入后自动给你转换 ...

  10. 数据结构(java版)学习笔记(序章)

    程序=数据结构+算法 序章做一个简单的思维导图,方便理解数据结构这门课的大纲,接下来我们将是按照线性表,栈,队列,串,树和图的顺序依次往下学.