Scrapy中的crawlspider

crawlspider

能自动的获取url并提交请求

命令:scrapy genspider -t crawl spidername 'example.cn'

所导入的模块

# -*- coding: utf-8 -*-

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

继承CrawlSpider

LInkEctractor(allow=r'Items/') : 通过正则表达式提取url链接
url不完整时crawlspider会自动补充
callback='parse_item':回调函数(可不写)
follow=True: 是否继续从响应内容里提取url链接
可添加多个Rule

class PspiderSpider(CrawlSpider):

    name = 'spidername'

    allowed_domains = ['']

    start_urls = ['']

    rules = (

        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),

    )

还可以自定义函数对数据进行处理
不能定义parse函数
也可以yiled传递数据
可以通过正则表达式提取内容
可以xpath提取内容

    def parse_item(self, response):

        item = {}

        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()

        #item['name'] = response.xpath('//div[@id="name"]').get()

        # import re

        #item['description'] = re.findall('', response.body.decode())[0]

        return item

补充内容:
- LinkExtractor更多常见参数:
  - allow:满足括号中“正则表达式”的URL会被提取，如果为空，则全部匹配。
  - deny:满足括号中“正则表达式”的URL-定不提取(优先级高于allow)。
  - allow_ domains:会被提取的链接的domains.
  - deny_ domains:-定不会被提取链接的domains.
  - restrict_ xpaths: 使用xpath表达式，和allow共同作用过滤链接，xpath满足范围内的url地址会被提取
- spiders . Rule常见参数:
  - link_ extractor: 是一个Link Extractor对象，用于定义需要提取的链接。
  - callback:从link extractor中每获取到链接时，参数所指定的值作为回调函数
  - follow:是一个布尔(boolean)值,指定了根据该规则从response提取的链接是否需要跟进。如果callback为None, fllw 默认设置为True，否则默认为False。
  - process_ links:指定该spider中哪个的函数将会被调用, link_ extractor中获取到链接列表时将会调用该函数，该方法主要用来过滤url。
  - process_ request: 指定该spider中哪个的函数将会被调用，该规则提取到每个request时都会调用该函数，用来过滤request.

Scrapy中的crawlspider的更多相关文章

Scrapy框架中的CrawlSpider
小思考:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二: ...
python框架Scrapy中crawlSpider的使用——爬取内容写进MySQL
一.先在MySQL中创建test数据库,和相应的site数据表二.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo4 三.进入 ...
爬虫07 /scrapy图片爬取、中间件、selenium在scrapy中的应用、CrawlSpider、分布式、增量式
爬虫07 /scrapy图片爬取.中间件.selenium在scrapy中的应用.CrawlSpider.分布式.增量式目录爬虫07 /scrapy图片爬取.中间件.selenium在scrapy ...
scrapy 中crawlspider 爬虫
爬取目标网站: http://www.chinanews.com/rss/rss_2.html 获取url后进入另一个页面进行数据提取检查网页: 爬虫该页数据的逻辑: Crawlspider爬虫类: ...
python框架Scrapy中crawlSpider的使用
一.创建Scrapy工程 #scrapy startproject 工程名 scrapy startproject demo3 二.进入工程目录,根据爬虫模板生成爬虫文件 #scrapy genspi ...
python爬虫入门（八）Scrapy框架之CrawlSpider类
CrawlSpider类通过下面的命令可以快速创建 CrawlSpider模板的代码: scrapy genspider -t crawl tencent tencent.com CrawSpid ...
爬虫框架之Scrapy（三 CrawlSpider）
如何爬取一个网站的全站数据? 可以使用Scrapy中基于Spider的递归方式进行爬取(Request模块回调parse方法) 还有一种更高效的方法,就是基于CrawlSpider的自动爬取实现简介 ...
Scrapy框架之CrawlSpider
提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法二:基 ...
Scrapy中集成selenium
面对众多动态网站比如说淘宝等,一般情况下用selenium最好那么如何集成selenium到scrapy中呢? 因为每一次request的请求都要经过中间件,所以写在中间件中最为合适 from se ...

随机推荐

What is MongoDB and For What?
1.MongoDB是什么? MongoDB是一款为web应用程序和互联网基础设施设计的数据库管理系统.没错MongoDB就是数据库,是NoSQL类型的数据库 2.为什么要用MongoDB? (1)Mo ...
[codevs2597]团伙<并查集>
题目描述 Description 1920年的芝加哥,出现了一群强盗.如果两个强盗遇上了,那么他们要么是朋友,要么是敌人.而且有一点是肯定的,就是: 我朋友的朋友是我的朋友: 我敌人的敌人也是我的朋友 ...
IO 流
------------恢复内容开始------------ 一.流的简介输入流:把硬盘中的数据读取到内存中输出流:把内存中的数据读取到硬盘中 1字符=2字节 1字节=8位 1.2顶级父类二. ...
监控实战Prometheus+Grafana
这期的分享是监控实战,其实不想写这篇的,因为网上相关的文章也挺多的,但是出于光说不练都是假把式,而且也想告诉你:当帅气的普罗米修斯(Prometheus)遇到高颜值的格拉法纳(Grafana)究竟会擦 ...
编写SpringBoot 中的AOP
编写SpringBoot 中的AOP 在程序开发的过程中会使用到AOP的思想,面向切面进行开发,比如登录的验证,记录日志等等-频繁需要操作的步骤,在遇到这种情况时就要使用Spring 的AOP了 Sp ...
认识STM32芯片
STM32中的ST指的是意法半导体,M是Microelectronics的缩写,32表示32位,即意法半导体公司开发的32位微控制器 ST官网:https://www.st.com/content/s ...
Three.js制作一个基本的飞行3D场景【源代码】
原文链接:https://tympanus.net/codrops/2016/04/26/the-aviator-animating-basic-3d-scene-threejs/ 源代码下载链接:h ...
1043 Is It a Binary Search Tree (25分)(树的插入)
A Binary Search Tree (BST) is recursively defined as a binary tree which has the following propertie ...
Java 使用InputStream笔记
当我们要从网络下载资源时,使用类似如下方法来获取InputStream实例: URLConnection connection = new URL("http://www.XXXX.XXX& ...
ensp,acl访问控制列表
ACL分类: 基本ACL 编号范围: 2000-2999 参数:源ip地址高级ACL 编号范围: 3000-3999 参数:源ip地址,目的ip地址,源端口,目的端口等二层ACL ...

Scrapy中的crawlspider

crawlspider

Scrapy中的crawlspider的更多相关文章

随机推荐

热门专题