scrapy框架Selector提取数据

从页面中提取数据的核心技术是HTTP文本解析，在python中常用的模块处理：

　　BeautifulSoup 非常流行的解析库，API简单，但解析的速度慢。

　　lxml 是一套使用c语言编写的xml解析库，解析速度快，API相对比较复杂。

Scrapy中的Selector类是基于lxml库建立的，并且简化了API接口。在使用的过程中先使用xpath或者css选择器选中页面中要提取的数据，然后进行提取。

提取数据

调用Selector或者SelectList对象的以下几种方法可将选中的内容进行提取

　　extract() 返回选中内容的Unicode字符串。

　　extract_first() SelectorList专有，返回其中第一个Selector对象调用extract方法。通常SelectorList中只含有一个Selector对象的时候选择调用该方法。

　　re() 使用正则表达式来提取选中内容中的某部分。

　　　　举个例子

　　　　　　selector.xpath('.//b/text()') .extract #[‘价格：99.00元’，‘价格：88.00元’，‘价格：88.00元’]

　　　　　　selector.xpath('.//b/text()').re('\d+\.\d+') #[ '99.00','88.00','88.00']

　　re_first() 返回SelectorList对象中的第一个Selector对象调用re方法。

　　　　　　selector.xpath('.//b/text()').re_first('\d+\.\d+') # '99.00'

实际的开发过程中，几乎不需要手动创建Selector对象，，Response对象以自身参数自动创建Selector对象

　　　　　　　response.xpath('.//h1/text').extract() # [ 'song','shi','chao']

　　　　　　　response.css('li::text').extract() # [ 'song','shi','chao']

xpath选择器

　　xpath即xml路径语言，用来确定xml文档中某个部分的语言，xml文档（html属于xml）是一系列节点构成的树。

基础语法

/ 选中文档的根描述一个从根开始的绝对路径 ./表示从当前节点选取（比如提取了一部分，还需要从提取出来里面进行提取就会使用，如果不加 . 会从整个文档中开始提取）

. 选中当前节点用来描述相对路径

.. 选中当前节点的父节点用来描述相对路径

ELEMENT 选中子节点中所有的ELEMENT元素节点

//ELEMENT 选中子孙节点中所有的ELEMENT元素节点

* 选中所有元素子节点

text() 选中所有文本子节点

@ATTR 选中名为ATTR的属性节点

@* 选中所有的属性节点

[谓语] 谓语用来查找某个特定的节点或者包含某个特定值的节点

举例

　　response.xpath('/html/body/div') #选取body下的所有div

　　response.xpath('//a') #选中文档所有a

　　response.xpath('/html/body//div') #选中body下的所有节点中的div，无论在什么位置

　　response.xpath('//a/text()') #选取所有a的文本

　　response.xpath('/html/div/*') #选取div的所有元素子节点

　　response.xpath('//div/*/img') #选取div孙节点的所有img

　　response.xpath('//img/@src') #选取所有img的src属性

　　response.xpath('//a[1]/img/@*') #选取第一个a下img的所有属性

　　response.xpath('//a[2]') #所有a中的第2个

　　response.xpath('//a[last()]') #所有a中的最后一个 ('/a[last()-1]')#倒第二个（'//a[position()<=3]'）#使用position函数选中前三个（'//div[@id]'）#选中所有含有id属性的div （'//div[@id="song"]'）#选中所有id属性为song的div

　　response.xpath('//p[contains(@class,'song')]') #选择class属性中含有‘song’的p元素

　　response.xpath('//div/a | //div/p') 或者，页面中可能是a可能是p

css选择器

　　css即层叠样式表，选择器不如xpath强大，原理就是选择的时候翻译成xpath表达式在调用xpath方法。

* 选择所有节点

#container 选择id为container的节点

.container 选择class包含container的节点

li a 选择所有 li 下的所有 a 节点

ul + p 选择所有ul后面的第一个p元素

#container > ul 选择id为container的第一个ul节点

a[class] 选取所有有class属性的a元素

a[href="http://b.com"] 含有href="http://b.com"的a元素

a[href*='job'] 包含job的a元素

a[href^='https'] 开头是https的a元素

a[href$='cn'] 结尾是cn的a元素

response.css('div a::text').extract() 所有div下所有a的文本

response.css('div a::attr(href)').extract() href的值

response.css('div>a:nth-child(1)') 选中每个div的第一个a > 会设定只在子节点中找，不会到孙节点中

response.css('div:not(#container)') 选取所有id不是container的div

response.css('div:first-child>a:last-child') 第一个div中最后一个a

scrapy框架Selector提取数据的更多相关文章

Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
Scrapy 框架 CrawlSpider 全站数据爬取
CrawlSpider 全站数据爬取创建 crawlSpider 爬虫文件 scrapy genspider -t crawl chouti www.xxx.com import scrapy fr ...
提升Scrapy框架爬取数据效率的五种方式
1.增加并发线程开启数量 settings配置文件中,修改CONCURRENT_REQUESTS = 100,默认为32,可适当增加: 2.降低日志级别运行scrapy时会产生大量日志占用CPU,为 ...
爬虫必知必会（6）_提升scrapy框架爬取数据的效率之配置篇
如何提升scrapy爬取数据的效率:只需要将如下五个步骤配置在配置文件中即可增加并发:默认scrapy开启的并发线程为32个,可以适当进行增加.在settings配置文件中修改CONCURRENT_ ...
Scrapy框架之基于RedisSpider实现的分布式爬虫
需求:爬取的是基于文字的网易新闻数据(国内.国际.军事.航空). 基于Scrapy框架代码实现数据爬取后,再将当前项目修改为基于RedisSpider的分布式爬虫形式. 一.基于Scrapy框架数据爬 ...
scrapy 中用selector来提取数据的用法
一. 基本概念 1. Selector是一个可独立使用的模块,我们可以用Selector类来构建一个选择器对象,然后调用它的相关方法如xpaht(), css()等来提取数据,如下 from sc ...
爬虫(十五)：Scrapy框架(二) Selector、Spider、Downloader Middleware
1. Scrapy框架 1.1 Selector的用法我们之前介绍了利用Beautiful Soup.正则表达式来提取网页数据,这确实非常方便.而Scrapy还提供了自己的数据提取方法,即Selec ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
scrapy框架基于CrawlSpider的全站数据爬取
引入提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法). 方法 ...

随机推荐

SQL 自定义四舍五入
--============================================== -- 自定义的四舍五入(四舍五入后的所有尾数遇进则进) -- by 小天使 2015-11-12 -- ...
Xamarin Essentials教程地理定位Geolocation
Xamarin Essentials教程地理定位Geolocation 通过地理定位功能,应用程序可以获取用户的当前地理位置,如经纬度值.利用地理位置,可以在地图上定位,也可以转化物理位置,划分用 ...
Xamarin Essentials教程语音播报TextToSpeech
Xamarin Essentials教程语音播报TextToSpeech 语音播报是一种将文本信息转化为音频信息的技术.使用该技术,开发者可以让用户不用盯着屏幕,就可以获取到信息.例如,支付宝为商 ...
BZOJ.4559.[JLOI2016]成绩比较(DP/容斥拉格朗日插值)
BZOJ 洛谷为什么已经9点了...我写了多久... 求方案数,考虑DP... $f[i][j]$表示到第$i$门课,还有$j$人会被碾压的方案数. 那么\[f[i][j]=\sum_{ ...
php 操作json的各种格式
php中操作json的函数加密:json_encode() ,也就是把数据转成json格式 * 数组转换成json格式时,索引数组得出的结果是不带映射关系,所以都是[]:关联数组是映射,所以最外围是 ...
nodejs 支付宝app支付
[链接]单笔转账到支付宝账户产品介绍更新时间:https://docs.open.alipay.com/309 const crypto = require('crypto') const momen ...
Java WebSocket 线程安全的保证
Java WebSocket线程安全基于3点: 1 在新的客户端连接时,WebSocket容器会创建一个新的端点实例,对应的会话实例表示从唯一的客户端到该端点实例的唯一连接. 2 每个WebSocke ...
Ruby用百度搜索爬虫
Ruby用百度搜索爬虫博主ruby学得断断续续,打算写一个有点用的小程序娱乐一下,打算用ruby通过百度通道爬取网络信息. 第三方库准备 mechanize:比较方便地处理网络请求,类似于Pytho ...
MySQL数据库引擎MyISAM和InnoDB的区别介绍
MySQL数据库有多种存储引擎:比如:MyISAM.InnoDB.MERGE.MEMORY(HEAP).BDB(BerkeleyDB).EXAMPLE.FEDERATED.ARCHIVE.CSV.BL ...
Vue（十八）Element UI
Elment UI 1. 简介 Element UI是饿了么团队提供的一套基于Vue2.0的组件库,可以快速搭建网站,提高开发效率 ElementUI PC端 MintUI 移动端 [官网](http ...

scrapy框架Selector提取数据

scrapy框架Selector提取数据的更多相关文章

随机推荐

热门专题