Scrapy 教程(三)-网站解析

有经验的人都知道，解析网站需要尝试，看看得到的数据是不是想要的，那么在scrapy中怎么尝试呢？

调试工具-shell

主要用于编写解析器

命令行进入shell

scrapy shell url

这个命令其实是个下载器

shell 界面

获取数据

解析命令 response.css('title')，验证获取的数据正确与否

退出shell

exit即可

用法2

直接输入 scrapy shell 命令，进入shell模式

用法3

实际上在shell中编写“选择器表达式”也是要借助浏览器的，但是直接用浏览器打开网页和用程序访问到的response可能不同，因为有动态页面，所以需要用浏览器打开程序访问到的response。

view(response) 命令就是用浏览器打开response；实际上是一个本地的html文件

此时我们注意到：shell 界面中有个 Userful shortcuts，包含了几个命令，其中包含了view(response)，还有上例中的 fetch(req)

css 选择器

3个函数：response.css('css表达式')、extract()、extract_first()

3个提取内容：标签、标签属性、标签内容

标签提取

css 表达式为标签

response.css('title') 　　获取 title 标签 ，其他标签方法相同，如body 、div 、p、a等

生成一个 Selector 列表，如上图，相当于一个选择器

css 表达式为 id 或 class

response.css('#id')

response.css('.class')

方法

response.css('title').extract()    提取标签列表，如 ['<title>爬虫实验室 - SCRAPY中文网提供</title>']

response.css('title').extract()[0]

or

response.css('title').extract_first()    获取第一个元素，如 '<title>爬虫实验室 - SCRAPY中文网提供</title>'

response.css('title::text').extract_first()    提取title标签中的text，如 '爬虫实验室 - SCRAPY中文网提供'

标签属性的提取

css表达式为标签名::attr(属性名)

a::attr(href)

img::attr(src)

多层标签的属性

response.css('.class a::attr(href)')

response.css('.class #id a')

class and id 层标签之间空格即可

标签内容的提取

css 表达式为 ::text

response.css("div::text").extract()          　　　 标签的text

response.css(".center::text").extract()    　　　　 class的text

response.css(".post-content *::text").extract()    class中所有标签的text

* 表示所有标签

css 选择器高级用法

XPath 选择器

XPth 简介

xpath 使用路径表达式在xml文档中选取节点。

请看一个xml例子

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>

  <title lang="en">Harry Potter</title>

  <author>J K. Rowling</author>

  <year>2005</year>

  <price>29.99</price>

</book>

</bookstore>

节点之间的关系

父： book 是 title 的父

子： year 是 book 的子

同胞： book year 是同胞

先辈：title 的先辈是 book bookstore

后代：bookstore 的后代是 book title

路径表达式

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

举例

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

XPath 选择器

3个函数：response.xpath('表达式')、extract()、extract_first()

4个提取内容：标签、标签属性、标签内容、标签内的所有文字

标签属性

表达式为 @属性名

//@href                     所有 href

//ol//@href                ol标签下所有 href

//ol[@class="page-navigator"]//@href     具有某属性的标签ol下的所有href

标签内容

表达式为 //text()

//ul[@class='tags-list']//a//text()

标签内的所有文字

表达式为 string(标签)

提取标签及其后代的所有文字，并连在一起

response.xpath("string(//div[@class='post-content'])").extract()

实例

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

通配符

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

实例

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

XPath 选择器详细教程

也可以用 BeautifulSoup 进行解析。