XPath在Python的爬虫学习中，起着举足轻重的地位，对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。

XPath介绍：
是什么？全称为XML Path Language 一种小型的查询语言
说道XPath是门语言，不得不说它所具备的优点：
1）可在XML中查找信息
2）支持HTML的查找
3）通过元素和属性进行导航

python开发使用XPath条件：
由于XPath属于lxml库模块，所以首先要安装库lxml，具体的安装过程可以查看博客，包括easy_install 和 pip 的安装方法。

XPath的简单调用方法：

from lxml import etree

selector=etree.HTML(源码) #将源码转化为能被XPath匹配的格式

selector.xpath(表达式) #返回为一列表

XPath的使用方法：
首先讲一下XPath的基本语法知识：
四种标签的使用方法
1) // 双斜杠定位根节点，会对全文进行扫描，在文档中选取所有符合条件的内容，以列表的形式返回。
2) / 单斜杠寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作
3) /text() 获取当前路径下的文本内容
4) /@xxxx 提取当前路径下标签的属性值
5) | 可选符使用|可选取若干个路径如//p | //div 即在当前路径下选取所有符合条件的p标签和div标签。
6) . 点用来选取当前节点
7) .. 双点选取当前节点的父节点
另外还有starts-with(@属性名称,属性字符相同部分)，string(.)两种重要的特殊方法后面将重点讲。

利用实例讲解XPath的使用：

from lxml import etree
html="""
<!DOCTYPE html>
<html>
<head lang="en">
<title>测试</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<div id="content">
<ul id="ul">
<li>NO.1</li>
<li>NO.2</li>
<li>NO.3</li>
</ul>
<ul id="ul2">
<li>one</li>
<li>two</li>
</ul>
</div>
<div id="url">
<a href="http://www.58.com" title="58">58</a>
<a href="http://www.csdn.net" title="CSDN">CSDN</a>
</div>
</body>
</html>
"""
selector=etree.HTML(html)
content=selector.xpath('//div[@id="content"]/ul[@id="ul"]/li/text()') #这里使用id属性来定位哪个div和ul被匹配使用text()获取文本内容
for i in content:
print i
#输出为
NO.1
NO.2
NO.3

con=selector.xpath('//a/@href') #这里使用//从全文中定位符合条件的a标签，使用“@标签属性”获取a便签的href属性值
for each in con:
print each
#输出结果为：
http://www.58.com
http://www.csdn.net

con=selector.xpath('/html/body/div/a/@title') #使用绝对路径和使用相对路径定位两者效果是一样的
print len(con)
print con[0]con[1]

#输出结果为：
2
58 CSDN

介绍XPath的特殊用法：
1) starts-with 解决标签属性值以相同字符串开头的情况

举例说明

from lxml import etree

html="""

    <body>

        <div id="aa">aa</div>

        <div id="ab">ab</div>

        <div id="ac">ac</div>

    </body>

    """

selector=etree.HTML(html)

content=selector.xpath('//div[starts-with(@id,"a")]/text()') #这里使用starts-with方法提取div的id标签属性值开头为a的div标签

for each in content:

    print each

#输出结果为：

aa

ab

ac

2） string(.) 标签套标签

html="""

    <div id="a">

    left

        <span id="b">

        right

            <ul>

            up

                <li>down</li>

            </ul>

        east

        </span>

        west

    </div>

"""

#下面是没有用string方法的输出

sel=etree.HTML(html)

con=sel.xpath('//div[@id="a"]/text()')

for i in con:

    print i   #输出内容为left west

data=sel.xpath('//div[@id="a"]')[0]

info=data.xpath('string(.)')

content=info.replace('\n','').replace(' ','')

for i in content:

    print i #输出为 全部内容

XPath提供的几个特殊的方法：
XPath中需要取的标签如果没有属性，可以使用text()，posision()来识别标签。

举两个简单的例子：

from lxml import etree

html="""

    <div>hello

        <p>H</p>

</div>

<div>hehe</div>

"""

sel=etree.HTML(html)

con=sel.xpath('//div[text()="hello"]/p/text()')

print con[0]

#H

这里使用text()的方法来判别是哪个div标签

from lxml import etree

html="""

    <div>hello

        <p>H</p>

        <p>J</p>

        <p>I</p>

</div>

<div>hehe</div>

"""

sel=etree.HTML(html)

con=sel.xpath('//div[text()="hello"]/p[posision()=2]/text()')

print con[0]

#J

另外，在XPath中可以使用多重过滤方法寻找标签，例如ul[3][@id=”a”] 这里使用【3】来寻找第三个ul标签并且它的id属性值为a

获取XPath的方式有两种：
1）使用以上等等的方法通过观察找规律的方式来获取XPath
2）使用Chrome浏览器来获取在网页中右击->选择审查元素（或者使用F12打开）就可以在elements中查看网页的html标签了，找到你想要获取XPath的标签，右击->Copy XPath 就已经将XPath路径复制到了剪切板。

python爬虫xpath的语法

有朋友问我正则，，okey，其实我的正则也不好，但是python下xpath是相对较简单的

简单了解一下xpath：

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

因此，对 XPath 的理解是很多高级 XML 应用的基础。

这个是w3c上关于xpath的介绍，可以看出xpath是在xml文档中查询信息的语言

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的。树的根被称为文档节点或者根节点。

根节点在xpath中可以用“//”来啊表示

XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。

接下来一个例子

<?xml version="1.0" encoding="ISO-8859-1"?>

<bookstore>

<book>

  <title lang="eng">Harry Potter</title>

  <price>29.99</price>

</book>

<book>

  <title lang="eng">Learning XML</title>

  <price>39.95</price>

</book>

</bookstore>

这个是基本的语法（掌握了这些基本都可以抓取到）：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

实例

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。

谓语（Predicates）

谓语用来查找某个特定的节点或者包含某个指定的值的节点。

谓语被嵌在方括号中。

实例

在下面的表格中，我们列出了带有谓语的一些路径表达式，以及表达式的结果：

路径表达式	结果
/bookstore/book[1]	选取属于 bookstore 子元素的第一个 book 元素。
/bookstore/book[last()]	选取属于 bookstore 子元素的最后一个 book 元素。
/bookstore/book[last()-1]	选取属于 bookstore 子元素的倒数第二个 book 元素。
/bookstore/book[position()<3]	选取最前面的两个属于 bookstore 元素的子元素的 book 元素。
//title[@lang]	选取所有拥有名为 lang 的属性的 title 元素。
//title[@lang='eng']	选取所有 title 元素，且这些元素拥有值为 eng 的 lang 属性。
/bookstore/book[price>35.00]	选取 bookstore 元素的所有 book 元素，且其中的 price 元素的值须大于 35.00。
/bookstore/book[price>35.00]/title	选取 bookstore 元素中的 book 元素的所有 title 元素，且其中的 price 元素的值须大于 35.00。

选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

实例

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

选取若干路径

通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

实例

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
//book/title \| //book/price	选取 book 元素的所有 title 和 price 元素。
//title \| //price	选取文档中的所有 title 和 price 元素。
/bookstore/book/title \| //price	选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。

这些就是xpath的语法内容

在运用到python抓取时要先转换为xml

Import lxml 　　　　　　#首先要先导入库

etree.HTML()　　　　#这个就是转换为xml的python的语法，HTML括号内填入目标站点的源码，可以参照另一篇博文，《爬虫下载百度贴吧图片》
之后各位就可以抓取指定的内容了

xpath语法

一、选取节点
常用的路径表达式：

表达式	描述	实例
nodename	选取nodename节点的所有子节点	xpath(‘//div’)	选取了div节点的所有子节点
/	从根节点选取	xpath(‘/div’)	从根节点上选取div节点
//	选取所有的当前节点，不考虑他们的位置	xpath(‘//div’)	选取所有的div节点
.	选取当前节点	xpath(‘./div’)	选取当前节点下的div节点
..	选取当前节点的父节点	xpath(‘..’)	回到上一个节点
@	选取属性	xpath（’//@class’）	选取所有的class属性

二、谓语

谓语被嵌在方括号内，用来查找某个特定的节点或包含某个制定的值的节点

实例：

表达式	结果
xpath(‘/body/div[1]’)	选取body下的第一个div节点
xpath(‘/body/div[last()]’)	选取body下最后一个div节点
xpath(‘/body/div[last()-1]’)	选取body下倒数第二个div节点
xpath(‘/body/div[positon()<3]’)	选取body下前两个div节点
xpath(‘/body/div[@class]’)	选取body下带有class属性的div节点
xpath(‘/body/div[@class=”main”]’)	选取body下class属性为main的div节点
xpath(‘/body/div[price>35.00]’)	选取body下price元素值大于35的div节点

三、通配符

Xpath通过通配符来选取未知的XML元素

表达式	结果
xpath（’/div/*’）	选取div下的所有子节点
xpath(‘/div[@*]’)	选取所有带属性的div节点

四、取多个路径

使用“|”运算符可以选取多个路径

表达式	结果
xpath(‘//div\|//table’)	选取所有的div和table节点

五、Xpath轴

轴可以定义相对于当前节点的节点集

轴名称	表达式	描述
ancestor	xpath(‘./ancestor::*’)	选取当前节点的所有先辈节点（父、祖父）
attribute	xpath(‘./attribute::*’)	选取当前节点的所有属性
child	xpath(‘./child::*’)	返回当前节点的所有子节点
descendant	xpath(‘./descendant::*’)	返回当前节点的所有后代节点（子节点、孙节点）
following	xpath(‘./following::*’)	选取文档中当前节点结束标签后的所有节点
following-sibing	xpath(‘./following-sibing::*’)	选取当前节点之后的兄弟节点
parent	xpath(‘./parent::*’)	选取当前节点的父节点
preceding	xpath(‘./preceding::*’)	选取文档中当前节点开始标签前的所有节点
preceding-sibling	xpath(‘./preceding-sibling::*’)	选取当前节点之前的兄弟节点
self	xpath(‘./self::*’)	选取当前节点

六、功能函数

使用功能函数能够更好的进行模糊搜索

函数	用法	解释
starts-with	xpath(‘//div[starts-with(@id,”ma”)]‘)	选取id值以ma开头的div节点
contains	xpath(‘//div[contains(@id,”ma”)]‘)	选取id值包含ma的div节点
and	xpath(‘//div[contains(@id,”ma”) and contains(@id,”in”)]‘)	选取id值包含ma和in的div节点
text()	xpath(‘//div[contains(text(),”ma”)]‘)	选取节点文本包含ma的div节点

python中使用XPath笔记的更多相关文章

python中使用XPath
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
Python中利用xpath解析HTML
在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析 ...
python中$和@基础笔记
python 2.4以后,增加了@符号修饰函数对函数进行修饰,python3.0/2.6又增加了对类的修饰. $ 在正则表达式中,匹配一个字符串的末尾.(参考http://www.runoob.com ...
XPath在python中的高级应用
XPath在python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
Python中xPath技术和BeautifulSoup的使用
xpath基本知识 XPath语法:使用路径表达式来选取XML或HTML文档中的节点或节点集路径表达式 nodename:表示选取此节点的所有子节点 / : 表示从根节点选取 // :选择 ...
python2.7高级编程笔记二（Python中的描述符）
Python中包含了许多内建的语言特性,它们使得代码简洁且易于理解.这些特性包括列表/集合/字典推导式,属性(property).以及装饰器(decorator).对于大部分特性来说,这些" ...
Python 中的map和reduce学习笔记
map和reduce都是Python中的内置函数 map函数接受两个参数,第一个参数是函数,第二个参数是列表,将函数依次作用于列表中的元素,并返回一个元素 reduce同样以函数和列表作为参数,区别在 ...
python学习笔记29（python中堆的使用）
堆(heap):优先队列的一种,使用优先队列能够以任意顺序增加对象,并且能在任意时间(可能在增加对象的同时)找到(也可能是移除)最小元素,比用于列表中min的方法要高效. Python中并没有独立的堆 ...
python学习笔记26（python中__name__的使用）
在python中,每个py文件都是一个模块,也都是一个可执行文件,即包含main方法.因此,对每个py文件,可以单独运行,也可以import它给其他客户使用,这两种情况不一样. 1. 如果模块是被导入 ...

随机推荐

yolov3实践（二）
这次给大家带来一个有趣的项目,项目主要是Python写的,基于Keras,backend是tf. 首先,当我们回顾视觉目标检测这个任务时,我们可能纠结于如何使这个项目变得更加work,我理解的更加wo ...
B. Light It Up
题目链接:http://codeforces.com/problemset/problem/1000/B 代码: #include<iostream> #include<cstrin ...
1.内网ntp服务器的搭建
1.拓扑图
【Python】zip文件密码破解
掌握基础语法后,尝试使用python的zipfile模块练手. zipfile是Python里用来做zip格式编码的压缩和解压缩的. 这里将大体的思路分解成四段代码,逐一完善功能: 第一段代码:解压z ...
python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib
python 读取文件时报错UnicodeDecodeError: 'gbk' codec can't decode byte 0x80 in position 205: illegal multib ...
如何在linux系统下配置无线网卡？【转】
转自:http://www.jb51.net/LINUXjishu/61315.html 本文介绍在Linux 命令行界面中手动配置无线网卡的方法.目前流行的多数发行版都支持用图形界面的network ...
oracle 用户权限
一. 概述与权限,角色相关的视图大概有下面这些: DBA_SYS_PRIVS: 查询某个用户所拥有的系统权限 USER_SYS_PRIVS: 当前用户所拥有的系统权限 SESSION_PRIVS ...
saltstack自动化运维系列⑤之saltstack的配置管理详解
saltstack自动化运维系列⑤之saltstack的配置管理详解配置管理初始化: a.服务端配置vim /etc/salt/master file_roots: base: - /srv/sal ...
convertToNodeSpace和convertToWorldSpace ---实际应用
游戏中经常会用到一些变换: 游戏中武器和角色在一个layer上,为了效率,会考虑将bullet, effect和 PhysicsParticle分别放到不用的层上,对应的层上使用batchnode来提 ...
PYTHON-模块-time&datetime-练习 +目录规范
# 作业# 1.请写出规范目录# 并解释各文件夹的作用bin 可执行文件conf 配置文件core 主要业务逻辑db 数据文件lib 库(公共代码第三方模块)log 日志文件 # 2.改造atm + ...

python中使用XPath笔记