Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法

请给作者点赞 --> 原文链接

Scrapy提取数据有自己的一套机制，被称作选择器（selectors）,通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分
Xpath是专门在XML文件中选择节点的语言，也可以用在HTML上。
CSS是一门将HTML文档样式化语言，选择器由它定义，并与特定的HTML元素的样式相关联。

XPath选择器

常用的路径表达式，这里列举了一些常用的，XPath的功能非常强大，内含超过100个的内建函数。
下面为常用的方法

nodeName    选取此节点的所有节点

/           从根节点选取

//          从匹配选择的当前节点选择文档中的节点，不考虑它们的位置

.           选择当前节点

..          选取当前节点的父节点

@           选取属性

*           匹配任何元素节点

@*          匹配任何属性节点

Node()      匹配任何类型的节点

CSS选择器

CSS层叠样式表，语法由两个主要部分组成：选择器，一条或多条声明
Selector {declaration1;declaration2;……}

下面为常用的使用方法

.class              .color              选择class=”color”的所有元素

#id                 #info               选择id=”info”的所有元素

*                   *                   选择所有元素

element             p                   选择所有的p元素

element,element     div,p               选择所有div元素和所有p元素

element element     div p               选择div标签内部的所有p元素

[attribute]         [target]            选择带有targe属性的所有元素

[arrtibute=value]   [target=_blank]     选择target=”_blank”的所有元素

选择器的使用例子

上面我们列举了两种选择器的常用方法，下面通过scrapy帮助文档提供的一个地址来做演示
地址：http://doc.scrapy.org/en/latest/_static/selectors-sample1.html
这个地址的网页源码为：

    <html>

     <head>

      <base href='http://example.com/' />

      <title>Example website</title>

     </head>

     <body>

      <div id='images'>

       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

      </div>

     </body>

    </html>

我们通过scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html来演示两种选择器的功能

获取title

这里的extract_first()就可以获取title标签的文本内容,因为我们第一个通过xpath返回的结果是一个列表，所以我们通过extract()之后返回的也是一个列表，而extract_first()可以直接返回第一个值，extract_first()有一个参数default,例如：extract_first(default="")表示如果匹配不到返回一个空

<html>

    <head>

      <base href='http://example.com/' />

      <title>Example website</title>

    </head>

    <body>

      <div id='images'>

       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

      </div>

    </body>

</html>

源网页

In [1]: response.xpath('//title/text()')

Out[1]: [<Selector xpath='//title/text()' data='Example website'>]

In [2]: response.xpath('//title/text()').extract_first()

Out[2]: 'Example website'

In [6]: response.xpath('//title/text()').extract()

Out[6]: ['Example website']

同样的我们也可以通过css选择器获取，例子如下：

<html>

    <head>

      <base href='http://example.com/' />

      <title>Example website</title>

    </head>

    <body>

      <div id='images'>

       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

      </div>

    </body>

</html>

源网页

In [7]: response.css('title::text')

Out[7]: [<Selector xpath='descendant-or-self::title/text()' data='Example website'>]

In [8]: response.css('title::text').extract_first()

Out[8]: 'Example website'

查找图片信息
这里通过xpath和css结合使用获取图片的src地址：

<html>

    <head>

      <base href='http://example.com/' />

      <title>Example website</title>

    </head>

    <body>

      <div id='images'>

       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

      </div>

    </body>

</html>

源网页

In [13]: response.xpath('//div[@id="images"]').css('img')

Out[13]:

[<Selector xpath='descendant-or-self::img' data='<img src="data:image1_thumb.jpg">'>,

 <Selector xpath='descendant-or-self::img' data='<img src="data:image2_thumb.jpg">'>,

 <Selector xpath='descendant-or-self::img' data='<img src="data:image3_thumb.jpg">'>,

 <Selector xpath='descendant-or-self::img' data='<img src="data:image4_thumb.jpg">'>,

 <Selector xpath='descendant-or-self::img' data='<img src="data:image5_thumb.jpg">'>]

In [14]: response.xpath('//div[@id="images"]').css('img::attr(src)').extract()

Out[14]:

['image1_thumb.jpg',

 'image2_thumb.jpg',

 'image3_thumb.jpg',

 'image4_thumb.jpg',

 'image5_thumb.jpg']

查找a标签信息
这里分别通过xapth和css选择器获取a标签的href内容，以及文本信息，css获取属性信息是通过attr,xpath是通过@属性名

<html>

    <head>

      <base href='http://example.com/' />

      <title>Example website</title>

    </head>

    <body>

      <div id='images'>

       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

      </div>

    </body>

</html>

源网页

In [15]: response.xpath('//a/@href')

Out[15]:

[<Selector xpath='//a/@href' data='image1.html'>,

 <Selector xpath='//a/@href' data='image2.html'>,

 <Selector xpath='//a/@href' data='image3.html'>,

 <Selector xpath='//a/@href' data='image4.html'>,

 <Selector xpath='//a/@href' data='image5.html'>]

In [16]: response.xpath('//a/@href').extract()

Out[16]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [17]: response.css('a::attr(href)')

Out[17]:

[<Selector xpath='descendant-or-self::a/@href' data='image1.html'>,

 <Selector xpath='descendant-or-self::a/@href' data='image2.html'>,

 <Selector xpath='descendant-or-self::a/@href' data='image3.html'>,

 <Selector xpath='descendant-or-self::a/@href' data='image4.html'>,

 <Selector xpath='descendant-or-self::a/@href' data='image5.html'>]

In [18]: response.css('a::attr(href)').extract()

Out[18]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [27]: response.css('a::text').extract()

Out[27]:

['Name: My image 1 ',

 'Name: My image 2 ',

 'Name: My image 3 ',

 'Name: My image 4 ',

 'Name: My image 5 ']

In [28]: response.xpath('//a/text()').extract()

Out[28]:

['Name: My image 1 ',

 'Name: My image 2 ',

 'Name: My image 3 ',

 'Name: My image 4 ',

 'Name: My image 5 ']

In [29]:

高级用法
查找属性名称包含img的所有的超链接，通过contains实现

<html>

    <head>

      <base href='http://example.com/' />

      <title>Example website</title>

    </head>

    <body>

      <div id='images'>

       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

      </div>

    </body>

</html>

源网页

In [36]: response.xpath('//a[contains(@href,"image")]/@href').extract()

Out[36]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [37]: response.css('a[href*=image]::attr(href)').extract()

Out[37]: ['image1.html', 'image2.html', 'image3.html', 'image4.html', 'image5.html']

In [38]:

查找img的src属性

<html>

    <head>

      <base href='http://example.com/' />

      <title>Example website</title>

    </head>

    <body>

      <div id='images'>

       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

      </div>

    </body>

</html>

源网页

In [41]: response.xpath('//a[contains(@href,"image")]/img/@src').extract()

Out[41]:

['image1_thumb.jpg',

 'image2_thumb.jpg',

 'image3_thumb.jpg',

 'image4_thumb.jpg',

 'image5_thumb.jpg']

In [42]: response.css('a[href*=image] img::attr(src)').extract()

Out[42]:

['image1_thumb.jpg',

 'image2_thumb.jpg',

 'image3_thumb.jpg',

 'image4_thumb.jpg',

 'image5_thumb.jpg']

In [43]:

提取a标签的文本中name后面的内容，这里提供了正则的方法re和re_first

<html>

    <head>

      <base href='http://example.com/' />

      <title>Example website</title>

    </head>

    <body>

      <div id='images'>

       <a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>

       <a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>

       <a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>

       <a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>

       <a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>

      </div>

    </body>

</html>

源网页

In [43]: response.css('a::text').re('Name\:(.*)')

Out[43]:

[' My image 1 ',

 ' My image 2 ',

 ' My image 3 ',

 ' My image 4 ',

 ' My image 5 ']

In [44]: response.css('a::text').re_first('Name\:(.*)')

Out[44]: ' My image 1 '

Scrapy框架中选择器的用法【转】的更多相关文章

scrapy框架中选择器的用法
scrapy框架中选择器的用法 Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中 ...
Python爬虫从入门到放弃（十四）之 Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
Python之爬虫（十六） Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
scrapy框架中Download Middleware用法
scrapy框架中Download Middleware用法 Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给sp ...
scrapy框架中Item Pipeline用法
scrapy框架中item pipeline用法当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的pyt ...
4-----Scrapy框架中选择器的用法
Scrapy提取数据有自己的一套机制,被称作选择器(selectors),通过特定的Xpath或者CSS表达式来选择HTML文件的某个部分Xpath是专门在XML文件中选择节点的语言,也可以用在HTM ...
Python爬虫从入门到放弃（十六）之 Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
Python之爬虫（十八） Scrapy框架中Item Pipeline用法
当Item 在Spider中被收集之后,就会被传递到Item Pipeline中进行处理每个item pipeline组件是实现了简单的方法的python类,负责接收到item并通过它执行一些行为, ...
Python爬虫从入门到放弃（十七）之 Scrapy框架中Download Middleware用法
这篇文章中写了常用的下载中间件的用法和例子.Downloader Middleware处理的过程主要在调度器发送requests请求的时候以及网页将response结果返回给spiders的时候,所以 ...

随机推荐

开发原则&设计模式
1.关于软件开发中的开发原则和设计模式: 1.1.开发原则 1.1.1.什么是开发原则? 开发原则就是开发的依据,只要依照这些原则进行开发,将来开发的软件具有很强的扩展力,很低的耦合度. 开发原则不属 ...
JVM（一）：Java内存区域与内存溢出异常
一.运行时数据区共分为5块: 程序计数器 (线程私有,当前线程所执行的字节码的行号指示器) Java虚拟机栈 (线程私有,证明周期与线程相同,描述的是Java方法执行的内存模型,每个方法 ...
2013 QConf上海软件开发大会总结
带着工作中的一些疑问,我参加了在上海举办的QConf 全球软件开发大会.会议以主题的形式按分会场召开,我主要选择知名网站案例分析.大数据处理技术.高效能团队建设和金融系统架构与设计四个主题内容.三天会 ...
报错：Program bash is not found in PATH
(如果按照我的方法来的话是没有这个错误的,我之前用别的方法的时候有但是后来还是没解决,写出来放到这里做参考吧) 参考原文:http://blog.csdn.net/fuyongbing1986/art ...
java Vamei快速教程20 GUI
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! GUI(Graphical User Interface)提供了图形化的界面,允许 ...
IOS tableView的数据刷新
1.tableView的刷新 1> 数据刷新的总体步骤 * 修改模型数据 * 刷新表格(刷新界面) 2> 刷新表格(刷新界面)的方法 * 全局刷新(每一行都会重新刷新) - (void)r ...
Java 使用正则表达式取出图片地址以及跳转的链接地址，来判断死链（一）
任务:通过driver的getPageSource()获取网页的源码内容,在把网页中图片链接地址和跳转的url地址进行过滤,在get每个请求,来判断是否是死链如图: 获取网页源码中所有的href,以 ...
POJ-1936 All in All---字符串水题
题目链接: https://vjudge.net/problem/POJ-1936 题目大意: 给两个字符串,判断是s1是不是s2的子序列思路: 水 #include<iostream> ...
面向服务架构SOA
面向服务的体系结构(Service-Oriented Architecture,SOA)是一个组件模型.它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来:接口是采用中 ...
2018.6.22 Java试题测试结果
如何从有数字规律的网址抓取网页并保存在当前目录?假设网址为 http://test/0.xml,其中这个数字可以递增到100. for((i=0;i<100;++i));do wget http ...

Scrapy框架中选择器的用法【转】