scrapy之Selectors

练习url：https://doc.scrapy.org/en/latest/_static/selectors-sample1.html

一获取文本值

　　xpath

In []: response.selector.xpath('//title/text()').extract_first(default='')

Out[]: 'Example website'

　　css

In []: response.selector.css('title::text').extract_first(default='')

Out[]: 'Example website'

　　注：可以省略写成:response.xpath()

二获取属性值

　　xpath

In []: response.selector.xpath('//base/@href').extract_first()

Out[]: 'http://example.com/'

　　css　

In []: response.selector.css('base::attr(href)').extract_first()

Out[]: 'http://example.com/'

　　注: 可以省略写成：response.css

三 xpath,css嵌套使用

　　因为css，xpath返回的是 SelectorList 实例，所有可以嵌套便捷的使用。

　　ps：获取属性，xpath，@已经实现，并不需要 /text()

In []: response.selector.css('img').xpath('@src').extract()

Out[]:

['image1_thumb.jpg',

 'image2_thumb.jpg',

 'image3_thumb.jpg',

 'image4_thumb.jpg',

 'image5_thumb.jpg']

四 .re()

　　.re()

　　.re_first()

　　ps :返回的是unicode构成的列表，所以，不能嵌套使用 .re()

In []: response.selector.css('div > p:nth-of-type(2)::text').extract()

Out[]: ['333xxx']

In []: response.selector.css('div > p:nth-of-type(2)::text').extract_first()

Out[]: '333xxx'

In []: response.selector.css('div > p:nth-of-type(2)::text').re_first('\w+')

Out[]: '333xxx'

In []: response.selector.css('div > p:nth-of-type(2)::text').re_first('[A-Za-z]+')

Out[]: 'xxx'

In []: response.selector.css('div > p:nth-of-type(2)::text').re('[A-Za-z]+')

Out[]: ['xxx']

五关于Xpath的相对路径查找的注意

　　查找div标签下p标签

<html lang="zh-CN">

<head>

</head>

<body>

    <p></p>

    <div>

        <p></p>

        <p></p>

    </div>

</body>

</html>

　　错误做法：

In []: divs = response.selector.xpath('//div')

In []: for p in divs.xpath('//p'):

   ...:     print(p.extract())

   ...:

<p></p>

<p></p>

<p></p>

　　正确做法 1：

In []: divs = response.selector.css('div')

In []: for p in divs.xpath('.//p'):

   ...:     print(p.extract())

   ...:

   ...:

<p></p>

<p></p>

　　正确做法 2：

In []: divs = response.selector.css('div')

In []: for p in divs.xpath('p'):

   ...:     print(p.extract())

   ...:

   ...:

   ...:

<p></p>

<p></p>

scrapy之Selectors的更多相关文章

python爬虫scrapy的Selectors参考文档
http://doc.scrapy.org/en/1.0/topics/selectors.html#topics-selectors-htmlcode
Scrapy里Selectors 四种基础的方法
在Scrapy里面,Selectors 有四种基础的方法xpath():返回一系列的selectors,每一个select表示一个xpath参数表达式选择的节点css():返回一系列的selector ...
scrapy的selectors
from scrapy import Selector >>> doc = """ ... <div> ... <ul> ...
【Scrapy】Selectors
Constructing selectors For convenience,response objects exposes a selector on .selector attribute,it ...
Scrapy Selectors 选择器
0. 1.参考 <用Python写网络爬虫>——2.2 三种网页抓取方法 re / lxml / BeautifulSoup 需要注意的是,lxml在内部实现中,实际上是将CSS选择器转 ...
Scrapy进阶知识点总结（二）——选择器Selectors
1. Selectors选择器在抓取网页时,您需要执行的最常见任务是从HTML源提取数据.有几个库可用于实现此目的,例如: BeautifulSoup是Python程序员中非常流行的Web抓取库,它 ...
Scrapy框架——介绍、安装、命令行创建，启动、项目目录结构介绍、Spiders文件夹详解（包括去重规则）、Selectors解析页面、Items、pipelines（自定义pipeline）、下载中间件（Downloader Middleware）、爬虫中间件、信号
一介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速.简单.可扩展的方式从网站中提取所需的数据.但目前Scrapy的用途十分广泛,可 ...
scrapy框架之Selectors选择器
Selectors(选择器) 当您抓取网页时,您需要执行的最常见任务是从HTML源中提取数据.有几个库可以实现这一点: BeautifulSoup是Python程序员中非常流行的网络抓取库,它基于HT ...
Scrapy 爬虫使用指南完全教程
scrapy note command 全局命令: startproject :在 project_name 文件夹下创建一个名为 project_name 的Scrapy项目. scrapy sta ...

随机推荐

C++内联函数、宏定义和普通函数的区别
C++内联函数.宏定义和普通函数的区别? 宏定义:在预处理阶段进行简单的文本替换,不会进行参数类型检查: 内联函数:在编译器的时候进行代码插入,编译器会在每次调用内联函数的地方直接将内联函数的内容展开 ...
Oracle 函数使用记录
持续更新…… 参考:https://www.cnblogs.com/bbliutao/archive/2017/11/08/7804263.html 1. ADD_MONTHS 语法: ADD_MON ...
【转】BP神经网络
学习是神经网络一种最重要也最令人注目的特点.在神经网络的发展进程中,学习算法的研究有着十分重要的地位.目前,人们所提出的神经网络模型都是和学习算法相应的.所以,有时人们并不去祈求对模型和算法进行严格 ...
【Python高级工程师之路】入门+进阶+实战+爬虫+数据分析整套教程
点击了解更多Python课程>>> 全网最新最全python高级工程师全套视频教程学完月薪平均2万什么是Python? Python是一门面向对象的编程语言,它相对于其他语言,更加 ...
Python9-进程-day36
import osfrom multiprocessing import Processimport timedef func(args,args2): print(args,args2) time. ...
Gym - 100781A Adjoin the Networks （树的直径）
题意: n个点,m条边,m <= n <= 100000,边的长度都为1. 点从 0 ~ n-1 编号.开始时图是不连通的,并且没有环. 通过加入一些边后,可以使图连通.要求加入的边不能多 ...
The 2018 ACM-ICPC Chinese Collegiate Programming Contest Maximum Element In A Stack
//利用二维数组模拟 #include <iostream> #include <cstdio> #include <cstring> #include <s ...
kettle-批量同步表数据
一.实验目标利用kettle实现从mysql数据库中的dbf库批量同步表到dbm库(全量同步) 二.实验环境 dbf 库中表f1.f2.f3 .f1中1条数据,f2中100条数据,f3中2条数据 ...
CDH4 journalnode方式手工安装手册之二
一. Hadoop配置修改修改core-site.xml文件 <configuration> <property> ...
VS2017生成.net core项目报错：The current .NET SDK does not support targeting .NET Core 2.1. Either
今天在生成一个项目的时候,生成报错,错误如下:The current .NET SDK does not support targeting .NET Core 2.1. Either target ...

scrapy之Selectors

scrapy之Selectors的更多相关文章

随机推荐

热门专题