前一阵子我们介绍了如何启动Scrapy项目以及关于Scrapy爬虫的一些小技巧介绍，没来得及上车的小伙伴可以戳这些文章：

今天我们将介绍在Scrapy中如何利用Xpath选择器从HTML中提取目标信息。在Scrapy中，其提供了两种数据提取的方式，一种是Xpath选择器，一种是CSS选择器，这一讲我们先聚焦Xpath选择器，仍然是以伯乐在线网为示例网站。

1、打开网站，然后随机选择任意一篇文章进行查看，如下图所示。

我们需要提取的信息主要有标题、日期、主题、评论数、正文等等。

2、接下来我们就可以开始写代码了，基础代码如下图所示，需要注意的是start_urls参数值改为了具体的URL，其他的代码未发生改变。

3、回到原始网页，按下键盘的快捷键F12或者在网页上点击鼠标右键，然后选择“检查(N)”弹出网页的调试界面，如下图所示。

4、点击下图中红色框框的小图标，可以实现网页数据和源码之间的交互，可以很方便的帮助我们定位标签。

5、如下图所示，当我们选择上图中的小图标之后，再选择网页上的标题，尔后网页源码会自动跳转到我们定位的部分，可以看到标题在

标签下。

6、尔后我们就可以根据上图中的网页层次结构写出标题的Xpath表达式，这里先提供一种比较笨的方法，从头到尾进行罗列的写，“/html/body/div[1]/div[3]/div[1]/div[1]/h1”，有没有发现灰常的辛苦，像这种大标题信息还比较好提取一些，若是碰到犄角旮旯的信息，就比较难写表达式了，而且这种方式容易出错，效率还低。不过小伙伴们不用灰心，浏览器给我们提供了一个便捷的方式，让我们可以直接复制Xpath表达式。在标题处或者目标信息处右键，然后选择“Copy”，再选择“Copy Xpath”即可进行复制该标签的Xpath表达式，具体过程如下图所示。

可以看到复制的Xpath表达式为“//*[@id="post-113659"]/div[1]/h1”，其中id="post-113659"是属于这篇文章的一个标识，如下图所示。

通过该标识我们就可以很快的定位到标签，其与我们用笨方法手动写出来的Xpath表达式有时候并不是一致的。下面将两个Xpath表达式所匹配的内容分别进行输出。

7、将Xpath表达式写入Scrapy爬虫主体文件中，尔后Debug我们之前定义的main.py文件，将会得到下图的输出。可以看到selector1和selector2中的数据即是网页上的内容，而且内容是一致的。

之后点击停止Debug模式，便可以退出Debug模式。

8、从上图中我们可以看到选择器将标签

也都取出来了，而我们想要取的内容仅仅是标签内部的数据，此时只需要使用在Xpath表达式后边加入text()函数，便可以将其中的数据进行取出。

通过这篇文章，我们可以了解到尽管我们自己写出的Xpath表达式和浏览器给我们返回的Xpath表达式在写法上并不一致，但是程序运行之后，其返回的数据内容是一致的。换句话说，关于某个目标数据的Xpath表达式并不是唯一的，只要符合Xpath表达式语法，即便是写的很短，也是没问题的，你开心就好。此外在Scrapy爬虫框架中，text()函数常常与Xpath表达式运用在一块，用于提取节点中的数据内容。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）的更多相关文章

解决mybatis中数据库column 和类的属性名property 不一致的两种方式
解决方式way1:resultMap (1)studentMapper.xml  <selec ...
K：java中序列化的两种方式—Serializable或Externalizable
在java中,对一个对象进行序列化操作,其有如下两种方式: 第一种: 通过实现java.io.Serializable接口,该接口是一个标志接口,其没有任何抽象方法需要进行重写,实现了Serializ ...
SpringBoot中使用Spring Data Jpa 实现简单的动态查询的两种方法
软件152 尹以操首先谢谢大佬的简书文章:http://www.jianshu.com/p/45ad65690e33# 这篇文章中讲的是spring中使用spring data jpa,使用了xml ...
如何利用CSS选择器抓取京东网商品信息
前几天小编分别利用Python正则表达式.BeautifulSoup.Xpath分别爬取了京东网商品信息,今天小编利用CSS选择器来为大家展示一下如何实现京东商品信息的精准匹配~~ CSS选择器目前 ...
如何利用BeautifulSoup选择器抓取京东网商品信息
昨天小编利用Python正则表达式爬取了京东网商品信息,看过代码的小伙伴们基本上都坐不住了,辣么多的规则和辣么长的代码,悲伤辣么大,实在是受不鸟了.不过小伙伴们不用担心,今天小编利用美丽的汤来为大家演 ...
大数据学习day33----spark13-----1.两种方式管理偏移量并将偏移量写入redis 2. MySQL事务的测试 3.利用MySQL事务实现数据统计的ExactlyOnce（sql语句中出现相同key时如何进行累加（此处时出现相同的单词））4 将数据写入kafka
1.两种方式管理偏移量并将偏移量写入redis (1)第一种:rdd的形式一般是使用这种直连的方式,但其缺点是没法调用一些更加高级的api,如窗口操作.如果想更加精确的控制偏移量,就使用这种方式代 ...
在基于MVC的Web项目中使用Web API和直接连接两种方式混合式接入
在我之前介绍的混合式开发框架中,其界面是基于Winform的实现方式,后台使用Web API.WCF服务以及直接连接数据库的几种方式混合式接入,在Web项目中我们也可以采用这种方式实现混合式的接入方式 ...
strus2中获取表单数据两种方式属性驱动和模型驱动
strus2中获取表单数据两种方式属性驱动和模型驱动属性驱动 /** * 当前请求的action在栈顶,ss是栈顶的元素,所以可以利用setValue方法赋值 * 如果一个属性在对象栈,在页面 ...
web.config文件中配置数据库连接的两种方式
web.config文件中配置数据库连接的两种方式标签: 数据库webconfig 2015-04-28 18:18 31590人阅读评论(1)收藏举报分类: 数据库(74) 在网站开发 ...

随机推荐

Android Finalizing a Cursor that has not been deactivated or closed
问题描述: 使用Sqlite数据库时,有时候会报下面的异常: Finalizing a Cursor that has not been deactivated or closed 一个光标没有被停用 ...
安卓input框获取焦点时，底部按钮会顶上去的解决方法
var h = document.body.scrollHeight;window.onresize = function(){ if (document.body.scrollHeight < ...
JDBC的总结
JDBC归纳: DriverManger:驱动管理器类要操作数据库,必须先与数据库创建连接,得到连接对象 public static Connection getConnection(String ...
VSCode Debug模式下各图标含义
按钮1:运行/继续 F5,真正的一步一步运行按钮2:单步跳过(又叫逐过程) F10,按语句单步执行.当有函数时,不会进入函数. 按钮3:单步调试(又叫逐语句) F11:当有函数时,点击这个按钮,会进 ...
CDR中怎么绘制一个漂亮的球衣?
cdr中怎么绘制一个漂亮的球衣?想要绘制一个漂亮的球衣,该怎么绘制呢?下面我们就来看看cdr绘制漂亮的球衣的教程,需要的朋友可以参考下: 1.画一个长方形,增加节点,移动节点,变形成如图 2.直线变曲 ...
JS取出特定字符前后的字符串，针对一串字符里面的单个字符前后的字符串
//针对一串自负里面的单个字符前后的字符串<!doctype html> <html> <head> <meta charset="utf-8&qu ...
PHP SOAP如何传入复杂对象
Paymentexpress有一个SOAP服务方法Check3dsEnrollment(String username,String password, EnrolmentCheckRequest t ...
[luogu2579 ZJOI2005] 沼泽鳄鱼(矩阵快速幂)
传送门题目描述潘塔纳尔沼泽地号称世界上最大的一块湿地,它地位于巴西中部马托格罗索州的南部地区.每当雨季来临,这里碧波荡漾.生机盎然,引来不少游客. 为了让游玩更有情趣,人们在池塘的中央建设了几座石 ...
安装idea
1.下载idea https://www.jetbrains.com/idea/download/#section=linux 2.解压 sudo tar -zxvf ideaIC-2018.3.2 ...
[转载] Linux新手必看：浅谈如何学习linux
本文转自 https://www.cnblogs.com/evilqliang/p/6247496.html 本文在Creative Commons许可证下发布一.起步首先,应该为自己创造一个学习 ...

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）

标签下。

在Scrapy中如何利用Xpath选择器从HTML中提取目标信息（两种方式）的更多相关文章

随机推荐

热门专题