scrapy框架（二）

一、scrapy 选择器

概述：

Scrapy提供基于lxml库的解析机制，它们被称为选择器。

因为，它们“选择”由XPath或CSS表达式指定的HTML文档的某部分。

Scarpy选择器的API非常小，且非常简单。

Scrapy选择器是通过scrapy.Selector类，通过传递文本或者TextResonse对象构造的实例。

选择器Selector对象使用

 选择器提供2个方法来提取标签
 
 xpath()     # 基于xpath的语法规则
 css()       # 基于css选择器的语法规则
 快捷方式
 selector = response.xpath('')
 selector = response.css('')
 它们返回的是选择器对象的列表
 提取文本：
 selector.extract()      返回文本列表
 selector.extract_first() 返回第一个selector的文本，没有返回None;可以设置default
 
 有时候我们获取标签需要多次调用选择方法（.xpath()或.css()）
 response.css('img').xpath('@src')
 
 Selector还有一个.re()方法使用正则表达式提取数据的方法。它返回字符串。
 它一般使用在xpath()，css()方法之后，用来过滤文本数据。
 re_first()用来返回第一个匹配的字符串。
 例如：
 response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
 contains()  模糊匹配

二、scrapy shell 调试工具

简介：用来调试Scrapy 项目代码的命令行工具。

启动 shell

 启动Scrapy shell的命令语法格式如下：
 scrapy shell [option] [url|file]
 
 注意：分析本地文件是一定要带上路径，scrapy shell默认当作url

shell 的使用

 Scrapy shell 本质上就是个普通的python shell
 只不过提供了一些需要使用的对象，快捷方法便于我们调试。
 
 快捷方法：
 shelp()
 fetch(url[,redirect=True])
 fetch(request)
 view(response)
 scrapy 对象：
 crawler
 spider
 request
 response
 settings

三、scrapy.Spider

Spider类的属性、方法	描述
name属性	spider的名称
start_urls属性	蜘蛛开始爬取的url列表
customer_settings属性	自定义设置
start_requests()方法	开始前请求
parse(self, response)	默认回调函数
from_crawler	创建spider的类方法

scrapy框架（二）的更多相关文章

爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
Python项目--Scrapy框架(二)
本文主要是利用scrapy框架爬取果壳问答中热门问答, 精彩问答的相关信息环境 win8, python3.7, pycharm 正文 1. 创建scrapy项目文件在cmd命令行中任意目录下执行 ...
Python爬虫从入门到放弃（十二）之 Scrapy框架的架构和原理
这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的在python3上运行Scrapy使用了Twisted作为框架,Twisted有些特殊的地方是它是 ...
Python3爬虫（十八） Scrapy框架（二）
对Scrapy框架(一)的补充 Infi-chu: http://www.cnblogs.com/Infi-chu/ Scrapy优点: 提供了内置的 HTTP 缓存 ,以加速本地开发 . ...
十二 web爬虫讲解2—Scrapy框架爬虫—Scrapy模拟浏览器登录—获取Scrapy框架Cookies
模拟浏览器登录 start_requests()方法,可以返回一个请求给爬虫的起始网站,这个返回的请求相当于start_urls,start_requests()返回的请求会替代start_urls里 ...
使用scrapy框架爬取图片网全站图片(二十多万张)，并打包成exe可执行文件
目标网站:https://www.mn52.com/ 本文代码已上传至git和百度网盘,链接分享在文末网站概览目标,使用scrapy框架抓取全部图片并分类保存到本地. 1.创建scrapy项目 s ...
（六--二）scrapy框架之持久化操作
scrapy框架之持久化操作基于终端指令的持久化存储基于管道的持久化存储 1 基于终端指令的持久化存储保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过 ...
Scrapy框架使用—quotesbot 项目（学习记录一）
一.Scrapy框架的安装及相关理论知识的学习可以参考:http://www.yiibai.com/scrapy/scrapy_environment.html 二.重点记录我学习使用scrapy框架 ...
安装scrapy框架的常见问题及其解决方法
下面小编讲一下自己在windows10安装及配置Scrapy中遇到的一些坑及其解决的方法,现在总结如下,希望对大家有所帮助. 常见问题一:pip版本需要升级如果你的pip版本比较老,可能在安装的过程 ...

随机推荐

PostGIS 报错为org.postgresql.util.PSQLException:错误: Operation on mixed SRID geometries
说明: 在用Openlayers与Geoserver进行开发,做在线编辑功能时,出现一个问题:每当我新增了一根要素后,再次用wfs的方式进行点击查询时,会报错mixed SRID. 通过研究发现在数据 ...
数据类型-Java基础一-初学者笔记
初学者笔记 1.Java中的两种类型在java源代码中,每个变量都必须声明一种类型(type). 有两种类型:primitive type和reference type.引用类型引用对象(ref ...
Java流程控制之（二）循环
目录 while循环 do..while循环 for循环 while循环和for循环基本概念--直接上代码! while循环 int i = 0; while(i<10) { System.ou ...
基于HTTP协议的WAF绕过
一,畸形包绕过 1.先关闭burpsuite长度更新,为get请求,先使用bp的method转换为POST请求 2.get请求中空格使用%20代替,Connection改为keep-alive 二,分 ...
Python文件和数据格式化（教程）
文件是一个存储在副主存储器的数据序列,可包含任何数据内容. 概念上,文件是数据的集合和抽象,类似的,函数是程序的集合和抽象. 用文件形式组织和表达数据更有效也更加灵活. 文件包括两种形式,文本文件和二 ...
day 22 面向对象的基础
面向对象: 1.简述编写和执行类中的方法的流程 class Foo: #类的编写 def func(): print("我爱你") obj = Foo() #类的调用和执行 obj ...
JDK动态代理和CGLIB字节码增强
一.JDK动态代理 Java 在 java.lang.reflect 包中有自己的代理支持,该类(Proxy.java)用于动态生成代理类,只需传入目标接口.目标接口的类加载器以及 Invocatio ...
Ubuntu 一键伪装成Win 10，Kali Linux 2019 kali-undercover软件嫁接；
今天,下午刷手机的时候,突然看到kali出了一个非常新颖的主题:该主题可以使得kali系统伪装成windows 10而变得低调起来:就像下面这样: 具体新闻链接:https://www.freebuf ...
java学习引言
Java学习之路:不走弯路,就是捷径 0．引言软件开发之路是充满荆棘与挑战之路,也是充满希望之路.Java学习也是如此,没有捷径可走.梦想像<天龙八部>中虚竹一样被无崖子醍醐灌顶而轻松获 ...
重启testjenkins的步骤
在linux下编译caffe的过程中,发生错误,导致linux系统蹦了,没办法,重启linux系统. 之前安装在docker下的jenkins也停掉了. 先启动jenkins的步骤如下: 1.先启动d ...

scrapy框架（二）

scrapy框架（二）

一、scrapy 选择器

概述：

二、scrapy shell 调试工具

启动 shell

shell 的使用

三、scrapy.Spider

scrapy框架（二）的更多相关文章

随机推荐

热门专题