python中使用XPath

XPath在Python的爬虫学习中，起着举足轻重的地位，对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。

XPath介绍：
是什么？全称为XML Path Language 一种小型的查询语言
说道XPath是门语言，不得不说它所具备的优点：
1）可在XML中查找信息
2）支持HTML的查找
3）通过元素和属性进行导航

python开发使用XPath条件：
由于XPath属于lxml库模块，所以首先要安装库lxml，具体的安装过程可以查看博客，包括easy_install 和 pip 的安装方法。

XPath的简单调用方法：

from lxml import etree

selector=etree.HTML(源码) #将源码转化为能被XPath匹配的格式

selector.xpath(表达式) #返回为一列表

XPath的使用方法：
首先讲一下XPath的基本语法知识：
四种标签的使用方法
1) // 双斜杠定位根节点，会对全文进行扫描，在文档中选取所有符合条件的内容，以列表的形式返回。
2) / 单斜杠寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作
3) /text() 获取当前路径下的文本内容
4) /@xxxx 提取当前路径下标签的属性值
5) | 可选符使用|可选取若干个路径如//p | //div 即在当前路径下选取所有符合条件的p标签和div标签。
6) . 点用来选取当前节点
7) .. 双点选取当前节点的父节点
另外还有starts-with(@属性名称,属性字符相同部分)，string(.)两种重要的特殊方法后面将重点讲。

利用实例讲解XPath的使用：

from lxml import etree
html="""
<!DOCTYPE html>
<html>
<head lang="en">
<title>测试</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
</head>
<body>
<div id="content">
<ul id="ul">
<li>NO.1</li>
<li>NO.2</li>
<li>NO.3</li>
</ul>
<ul id="ul2">
<li>one</li>
<li>two</li>
</ul>
</div>
<div id="url">
<a href="http:www.58.com" title="58">58</a>
<a href="http:www.csdn.net" title="CSDN">CSDN</a>
</div>
</body>
</html>
"""
selector=etree.HTML(html)
content=selector.xpath('//div[@id="content"]/ul[@id="ul"]/li/text()') #这里使用id属性来定位哪个div和ul被匹配使用text()获取文本内容
for i in content:
print i
#输出为
NO.1
NO.2
NO.3

con=selector.xpath('//a/@href') #这里使用//从全文中定位符合条件的a标签，使用“@标签属性”获取a便签的href属性值
for each in con:
print each
#输出结果为：
http:www.58.com
http:www.csdn.net

con=selector.xpath('/html/body/div/a/@title') #使用绝对路径�20 <a href="http:www.csdn.2Fa/@title') #使用相对路径定位两者效果是一样的
print len(con)
print con[0]con[1]

#输出结果为：
2
58 CSDN

介绍XPath的特殊用法：
1) starts-with 解决标签属性值以相同字符串开头的情况

举例说明

from lxml import etree

html="""

    <body>

        <div id="aa">aa</div>

        <div id="ab">ab</div>

        <div id="ac">ac</div>

    </body>

    """

selector=etree.HTML(html)

content=selector.xpath('//div[starts-with(@id,"a")]/text()') #这里使用starts-with方法提取div的id标签属性值开头为a的div标签

for each in content:

    print each

#输出结果为：

aa

ab

ac

2） string(.) 标签套标签

html="""

    <div id="a">

    left

        <span id="b">

        right

            <ul>

            up

                <li>down</li>

            </ul>

        east

        </span>

        west

    </div>

"""

#下面是没有用string方法的输出

sel=etree.HTML(html)

con=sel.xpath('//div[@id="a"]/text()')

for i in con:

    print i   #输出内容为left west

data=sel.xpath('//div[@id="a"]')[0]

info=data.xpath('string(.)')

content=info.replace('\n','').replace(' ','')

for i in content:

    print i #输出为 全部内容

XPath提供的几个特殊的方法：
XPath中需要取的标签如果没有属性，可以使用text()，posision()来识别标签。

举两个简单的例子：

from lxml import etree

html="""

    <div>hello

        <p>H</p>

</div>

<div>hehe</div>

"""

sel=etree.HTML(html)

con=sel.xpath('//div[text()="hello"]/p/text()')

print con[0]

#H

这里使用text()的方法来判别是哪个div标签

from lxml import etree

html="""

    <div>hello

        <p>H</p>

        <p>J</p>

        <p>I</p>

</div>

<div>hehe</div>

"""

sel=etree.HTML(html)

con=sel.xpath('//div[text()="hello"]/p[posision()=2]/text()')

print con[0]

#J

另外，在XPath中可以使用多重过滤方法寻找标签，例如ul[3][@id=”a”] 这里使用【3】来寻找第三个ul标签并且它的id属性值为a

获取XPath的方式有两种：
1）使用以上等等的方法通过观察找规律的方式来获取XPath
2）使用Chrome浏览器来获取在网页中右击->选择审查元素（或者使用F12打开）就可以在elements中查看网页的html标签了，找到你想要获取XPath的标签，右击->Copy XPath 就已经将XPath路径复制到了剪切板。

python中使用XPath的更多相关文章

python中使用XPath笔记
XPath在Python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
Python中利用xpath解析HTML
在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析 ...
XPath在python中的高级应用
XPath在python的爬虫学习中,起着举足轻重的地位,对比正则表达式 re两者可以完成同样的工作,实现的功能也差不多,但XPath明显比re具有优势,在网页分析上使re退居二线. XPath介绍: ...
Python中xPath技术和BeautifulSoup的使用
xpath基本知识 XPath语法:使用路径表达式来选取XML或HTML文档中的节点或节点集路径表达式 nodename:表示选取此节点的所有子节点 / : 表示从根节点选取 // :选择 ...
python在lxml中使用XPath语法进行#数据解析
在lxml中使用XPath语法: 获取所有li标签: from lxml import etree html = etree.parse('hello.html') print type(html) ...
用 ElementTree 在 Python 中解析 XML
用 ElementTree 在 Python 中解析 XML 原文: http://eli.thegreenplace.net/2012/03/15/processing-xml-in-python- ...
在Python中实现PageFactory模式
关于 PageFactory 的概念主要是Java中内置了PageFactory类. import org.openqa.selenium.support.PageFactory; …… 例子,htt ...
在python中处理XML
XML是实现不同语言或程序之间进行数据交换的协议,XML文件格式如下: <data> <country name="Liechtenstein"> < ...
在Selenium Webdriver中使用XPath Contains、Sibling函数定位
前言在一般情况下,我们通过简单的xpath即可定位到目标元素,但对于一些既没id又没name,而且其他属性都是动态的情况就很难通过简单的方式进行定位了. 在这种情况下,我们需要使用xpath1.0内 ...

随机推荐

[原创] 扩展jquery-treegrid插件, 实现勾选功能和全删按钮.
新上手一个项目, 因而正好想学习下bootstrap, 所以就采用asp.net mvc + bootstrap来做. 因为需要TreeGrid的控件, 本来想用easyUI.LingerUi.DW ...
C# 小算法1
//判断第一条的 ‘叶子2’ 在第二条数据中的索引 //任河特大桥,右幅,叶子2,桩基混凝土, //任河特大桥,,,,,右幅,,,叶子2,桥墩, string str1 = "任河特 ...
python入门（十六）：正则
1.正则:对一些字符串实现模糊的匹配使用场景: 爬虫:例如,网页源码里面的url都提取出来.网页里面提取我们想要的数据分析日志:例如,拿到所有的ip,看看哪些ip访问过我的网站 2.引入包 > ...
UTF-8和GBK有什么区别
UTF-8和GBK有什么区别 2017年06月03日 18:10:43 阅读数:6516 GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准(好像还不是国家标准).GBK编码专门用来解决 ...
background-attachment: fixed 在iphone设备失效的解决
下面为引用,源代码有点问题,自己修改了一下.先做记录,回头再细修. 引用部分,但代码有问题 http://www.ptbird.cn/css-background-attachment--fiexed ...
atom使用技巧
文本批量处理正则空格换成换行:Atom替换换行符直接[Ctrl]+[F],然后选择正则,输入\n
dwr去除默认错误弹窗
在开发中,我实在不希望dwr弹出alter,只需要打印错误日志就可以,客户端不需要alert出error或者a server error has occurred. 这样的提示,更不需要alert出堆 ...
C运算符
运算符是一种告诉编译器执行特定的数学或逻辑操作的符号. C 语言内置了丰富的运算符,并提供了以下类型的运算符: 算术运算符.关系运算符.逻辑运算符.位运算符.赋值运算符.杂项运算符 C 中的运算符优先 ...
Oracle 12c 创建新的数据库实例、用户
前提:安装好了Oracle 12c数据库,已有一个数据库实例xe,登录用户/密码:system/oralce 我用的是docker安装的Oracle 12c的实例: docker run --name ...
Vim 入门：基础
为工作或者新项目学习足够的 Vim 知识. -- Bryant Son 我还清晰地记得我第一次接触 Vim 的时候.那时我还是一名大学生,计算机学院的机房里都装着 Ubuntu 系统.尽管我在上大学前 ...

python中使用XPath

python中使用XPath的更多相关文章

随机推荐

热门专题