XPath是一种在XML文档中查找信息的语言,使用路径表达式在XML文档中进行导航。学习XPath需要对XML和HTML有基本的了解。

在XPath中,有七种类型的节点:文档(根)节点、元素、属性、文本、命名空间、处理指令、注释,XML 文档是被作为节点树来对待的,树的根被称为文档节点或者根节点。

<?xml version="1.0" encoding="UTF-8"?>
<bookstore> <!--bookstore为根节点-->
<book> <!--book为元素节点-->
<title lang="en">Harry Potter</title> <!--lang="en"为属性节点-->
<author>J K. Rowling</author> <!--K. Rowling为文本节点-->
<year>2005</year>
<price>29.99</price>
</book>
<book category="COOKING">
<title lang="en">Everyday Italian</title>
<author>Giada De Laurentiis</author>
<year>2005</year>
<price>30.00</price>
</book>
</bookstore>

requests基本用法

使用requests可获取网页的源代码,需要先安装这个模块pip3 install requests

import requests

req = requests.get(url)  #req为<Response [200]>,req.text为整个网页源代码

XPath的基本使用方法:

要使用XPath,需要安装一个第三方库lxml,直接在cmd命令窗口中通过pip3 install lxml即可。

from lxml import etree       #导入lxml模块的etree

selector = etree.HTML(源码)    #将源码转化为能被XPath匹配的格式

info1 = selector.xpath("//标签1[@属性1='值1']/标签2[@属性2='值2']/.../标签n[@属性n='值n'] ")   #返回匹配到的元素节点,类型为列表

info2 = selector.xpath("//标签1[@属性1='值1']/标签2[@属性2='值2']/.../text()")    #返回匹配到的元素节点的文本值,类型为列表

info3 = selector.xpath("//标签1[@属性1='值1']/标签2[@属性2='值2']/.../@属性x")    #返回匹配到的元素节点的x属性值,类型为列表

基本节点选取方式

通过nodename选取返回的列表的每一个元素为元素节点,类型为class 'lxml.etree._Element'对象,最后一个元素名称不能再加/否则会报错。

text()和@attrname则可以直接获取到元素节点的文本值和属性值。

selector = etree.HTML(source)                        #source为上述bookstore所在的整个代码块
title_ele = selector.xpath('//book/title') #返回title元素节点对象
title_text = selector.xpath('//book/title/text()') #返回title元素节点的文本
title_attr = selector.xpath('//book/title/@lang') #返回title元素节点的lang属性值
print(title_ele[0],type(title_ele[0]))
print(title_text[0],type(title_text[0]))
print(title_attr[0],type(title_attr[0]))
# <Element title at 0x298d540ffc8> <class 'lxml.etree._Element'>
# Harry Potter <class 'lxml.etree._ElementUnicodeResult'>
# en <class 'lxml.etree._ElementUnicodeResult'>

获取元素的文本值,除了在匹配规则中直接通过/text(),也可以获取到元素对象再通过对象.text来获取,以下两种方式等价。

title1 = selector.xpath('//book/title/text()')
title2 =list( map(lambda x:x.text,selector.xpath('//book/title') ) )

除了上述基本的选取方法之外,还可以按条件进行选取,条件都放在节点名称的方括号[ ]内

限定位置选取

i1 = selector.xpath('//book[1]/title/text()')             #book元素的第一个元素(注意不是从0开始)
i2 = selector.xpath('//book[last()]/title/text()') #book元素的最后一个元素
i3 = selector.xpath('//book[last()-1]/title/text()') #book元素的倒数第二个元素
i4 = selector.xpath('//book[position()<3]/title/text()') #book元素的前2个元素

限定属性选取,属性前面需加@标识

i5 = selector.xpath('//book[@class="story"]/title/text()')               #class属性为story的book元素
i6 = selector.xpath('//book[@category="COOKING"]/title/text()') #category属性为COOKING的book元素
i7 = selector.xpath('//book[@category]/title/text()') #有category属性的book元素
i8 = selector.xpath('//book[starts-with(@category,"ch")]/title/text()') #category属性以ch开头的book元素,没有ends-with方法
i9 = selector.xpath('//book[contains(@category,"oo")]/title/text()') #category属性包含oo的book元素

限定文本值选取

i10 = selector.xpath('//book[price>30]/title/text()')               #price的文本值大于30的book元素
i11 = selector.xpath('//book[contains(title,"day")]/title/text()') #title的文本值包含day的book元素

| 同时按多个匹配规则进行选取

i12 = selecotr.xpath('//book/title/text() | //book/@category')  #同时获取book元素的title元素文本值和category属性值

通配符 *

i13 = selector.xpath('//book/*')        #book元素下的所有直接子元素
i14 = selector.xpath('//book/title[@+]') #book元素下有属性的title元素

python xpath的基本用法的更多相关文章

  1. Python Xpath语法

    Python    Xpath语法   一.选取节点 常用的路劲表达式: 表达式 描述 实例   nodename 选取nodename节点的所有子节点 xpath('//div') 选取了div节点 ...

  2. 使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接

    使用python+xpath 获取https://pypi.python.org/pypi/lxml/2.3/的下载链接: 使用requests获取html后,分析html中的标签发现所需要的链接在& ...

  3. python 中del 的用法

    python中的del用法比较特殊,新手学习往往产生误解,弄清del的用法,可以帮助深入理解python的内存方面的问题. python的del不同于C的free和C++的delete. 由于pyth ...

  4. Python多进程并发(multiprocessing)用法实例详解

    http://www.jb51.net/article/67116.htm 本文实例讲述了Python多进程并发(multiprocessing)用法.分享给大家供大家参考.具体分析如下: 由于Pyt ...

  5. xpath的一般用法与特殊用法

    # xpath的使用 安装lxml from lxml import etree Selector = etree.HTML(网页代码) Selector.xpath(一段神奇的代码) xpath的一 ...

  6. Python dictionary 字典 常用法

    Python dictionary 字典 常用法 d = {} d.has_key(key_in)       # if has the key of key_in d.keys()          ...

  7. 【python】 del 的用法

    转自 https://blog.csdn.net/love1code/article/details/47276683 python中的del用法比较特殊,新手学习往往产生误解,弄清del的用法,可以 ...

  8. Python Numpy shape 基础用法(转自他人的博客,如涉及到侵权,请联系我)

    Python Numpy shape 基础用法 shape函数是numpy.core.fromnumeric中的函数,它的功能是读取矩阵的长度,比如shape[0]就是读取矩阵第一维度的长度.它的输入 ...

  9. python中argparse模块用法实例详解

    python中argparse模块用法实例详解 这篇文章主要介绍了python中argparse模块用法,以实例形式较为详细的分析了argparse模块解析命令行参数的使用技巧,需要的朋友可以参考下 ...

随机推荐

  1. 【spring boot】spring boot 拦截器

    今日份代码: 1.定义拦截器 import com.alibaba.fastjson.JSON; import org.apache.commons.collections.CollectionUti ...

  2. js省市二级联动实例

    //动态创建省市二级联动<!DOCTYPE html><html lang="en"><head> <meta charset=" ...

  3. threading.local()使用与原理剖析

    threading.local()使用与原理剖析 前言 还是第一次摘出某个方法来专门写一篇随笔,哈哈哈. 为什么要写这个方法呢?因为它确实太重要了,包括后期的Flask框架源码中都有它的影子. 那么我 ...

  4. java的运行

    1.打成war包 war需要部署到tomcat中运行. 2.jar包 A 可执行jar包 java -jar some.jar B 普通jar包 java -cp "dir/*" ...

  5. Azure Data Box

    一,引言 最近博主又要面临考试了,随笔又再次缓慢更新,说起考试,之前在微软的 ms learn的课程上有接触到一个叫 Azure Data Box的,刚好今天也花了一个多小时看了一下相关文档,下面就正 ...

  6. 又一款开源图标库 CSS.GG,值得一用

    嗨,我是 Martin,也叫老王,今天推荐一款好用的开源图标库. 我们平常找图标往往会去 iconfont 但是今天,我们看了 Martin 的文章之后,就会有一个新的选择--CSS.GG Githu ...

  7. 10 个独特的 CSS 背景视觉效果

    这几年的web设计中,大背景的设计变得越来越流行.特别是在现在大屏大行其道的情况下,设计师在设计中越来越多的使用大分辨率的背景图来填充屏幕,这样更能制造独特的视觉效果,能更好的传达他们想要向用户传达的 ...

  8. Ocelot网关+IdentityServer4实现API权限认证

    Ocelot是一个用.NET Core实现并且开源的API网关,它功能强大,包括了:路由.请求聚合.服务发现.认证.鉴权.限流熔断.并内置了负载均衡器与Service Fabric.Butterfly ...

  9. SEO:前端优化网站,提高排名

    最近优化网站排名,记录一下过程及注意的东西. 1.查询方法 百度:site:+网站名  例如:site:realtour.cn360:  直接输入网址:www.realtour.cn 2.网站优化方式 ...

  10. 洛谷P3237 米特运输

    题目链接 题意: 中文题,挺好理解.就是让节点的权值等于各子节点权值之和,然后每个子节点的权值相等,原本每个点有一个权值,通过最少次的修改(可以修改成小数)使其满足要求. 分析: 题意一旦读明白,题什 ...