Python连载50-贪婪匹配、XPath介绍
一、贪婪和非贪婪
1.贪婪:尽可能多的匹配,(*)表示贪婪匹配
2.非贪婪:找到符合条件的最小内容即可,(?)表示非贪婪
3.正则默认使用贪婪匹配
import re title = u"<div>name</div><div>age</div>" p1 = re.compile(r"<div>.*</div>")#贪婪模式 p2 = re.compile(r"<div>.*?<div>")#非贪婪模式 m1 = p1.search(title) print(m1.group()) m2 = p2.search(title) print(m2.group())

二、XPATH
1.释义:在XML文件中查找信息的一套规则/语言,根据XML的元素
文档帮助:http://www.w3cshool.com.cn/xpath/index.asp
2.XPath开发工具
开源的XPath表达式编辑工具:XMLQuire
Chrome插件:XPath
Helper
Firefox插件:XPath
Checker
3.怎么在XML文件中选取节点
(1)nodename:选取此节点的所有子节点
(2)/:从根节点开始选取
例子:/Student:没有结果
/School:选取School节点
(3)//:选取节点,不考虑位置
例子://age:选取三个节点,一般组成列表返回
(4).:选取当前节点
(5)..:选取当前节点的父亲节点
(6)@:选取属性
(7)Xpath中查找一般按照路径方法查找
School/teacher:返回teacher节点
School/student:返回两个student节点
//Student:选取所有Student的节点,不考虑位置
School//Age:选取School后代中所有的Age节点
//@Other:选取Other属性
//Age[@Details]:选取带有属性Details的Age元素
<?xml version="1.0" encoding="utf-8" ?>
<School>
<Teacher desc="PythonTeacher" score="good">
<name>LiuDana</name>
<Age_1 Details="Age for year 2010">18</Age_1>
<Mobile>13260446055</Mobile>
</Teacher>
<Student>
<Name Other="他是班长">ZhangSan</Name>
<Age Details="The youngest boy in class">14</Age>
</Student>
<Student>
<Name>LiSi</Name>
<Age>19</Age>
<Mobile>15578875040</Mobile>
</Student>
</School>
4.谓语
/School/Student[1]:选取School下面的第一个Student节点
/School/Student[last()]:选取School下面的最后一个Student节点
/School/Student[last()-1]:选取School下面的倒数第二个Student节点
/School/Student[position()<3]:选取School下面的前两个节点
//Student[@score]:选取带有属性score的Student节点
//Student[@score="99"]:选取带有属性score并且属性值为99的Student节点
//Student[@score]/Age:选取带有属性score的Student节点的子节点Age
5.XPath中的一些操作
(1)|:或者
例如://Student[@score] | //Teacher:选取带有属性score的Student节点或者Teacher节点
(2)其余不常见的XPath运算符号包括+.-.*,div(除法的意思),>,<
二、源码
D31_2_GreedMatch.py
D32_1_School.xml
https://github.com/ruigege66/Python_learning/blob/master/D31_2_GreedMatch.py
https://github.com/ruigege66/Python_learning/blob/master/D32_1_School.xml
2.CSDN:https://blog.csdn.net/weixin_44630050(心悦君兮君不知-睿)
3.博客园:https://www.cnblogs.com/ruigege0000/
4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

Python连载50-贪婪匹配、XPath介绍的更多相关文章
- 第11.8节 Python正则表达式的重复匹配模式及元字符“?”、 “*”、 “+”功能介绍
符号"?".""."+"这三个元字符修饰符在Python中都表示重复匹配的模式,即要求匹配的字符串满足重复次数的要求,但具体重复次数要求不同 ...
- Python第五章__模块介绍,常用内置模块
Python第五章__模块介绍,常用内置模块 欢迎加入Linux_Python学习群 群号:478616847 目录: 模块与导入介绍 包的介绍 time &datetime模块 rando ...
- 简学Python第五章__模块介绍,常用内置模块
Python第五章__模块介绍,常用内置模块 欢迎加入Linux_Python学习群 群号:478616847 目录: 模块与导入介绍 包的介绍 time &datetime模块 rando ...
- C#操作xml SelectNodes,SelectSingleNode总是返回NULL 与 xPath 介绍
一. SelectNodes,SelectSingleNode总是返回NULL 下面以一个简单的xml为例: <?xml version="1.0"?> <mes ...
- Python 利用Python操作excel表格之openyxl介绍Part2
利用Python操作excel表格之openyxl介绍 by:授客 QQ:1033553122 欢迎加入全国软件测试交流qq群(群号:7156436) ## 绘图 c = LineChart() ...
- Python正则的贪婪和非贪婪示例
贪婪匹配 import re info = """ saas12 [STREAM] codec_type=audio111 [/STREAM]-- [STREAM] co ...
- str.replace()和re.sub()/calendar.month_abbr/re.subn()/upper和lower和capitalize/贪婪匹配和费贪婪匹配/re.S和re.DOTALL 笔记
str.replace()可以进行简单的替换 >>> a = 'one.txt, index.py, index.php, index.html, index.js' >> ...
- Python编程中 re正则表达式模块 介绍与使用教程
Python编程中 re正则表达式模块 介绍与使用教程 一.前言: 这篇文章是因为昨天写了一篇 shell script 的文章,在文章中俺大量调用多媒体素材与网址引用.这样就会有一个问题就是:随着俺 ...
- 正则表达式 整理(\w \s \d 点 贪婪匹配 非贪婪匹配 * + ? {} | [] ^ $ \b 单词边界 分组、re.findall()、re.split()、re.search()、re.match()、re.compile()、re.sub())
re.findall 匹配到正则表达式的字符,匹配到的每个字符存入一个列表,返回一个匹配到的所有字符列表 一. 匹配单个字符 import re # \w 匹配所有字母.数字.下划线 re.find ...
随机推荐
- MySQL 8.0部分弃用的参数整理
最近整理了一下MySQL 8.0的自动化安装,其中用到了一个MySQL 5.7版本的自定义配置文件,由于没有对(MySQL 8.0)做针对性修改,导致安装过程中出现了一些错误其中部分原因就是MySQL ...
- find 常用命令
系统中总会不断产生一些文件,比如日志文件,不一定会用到也不会自动删除,这时候就需要手动删除,当然也可以转存到其他目录下.不好找的时候可以用find模糊查找,加个job定时任务自动执行定期删除文件1.添 ...
- dbms_profiler
@?/rdbms/admin/profload.sql @?/rdbms/admin/proftab.sql CREATE or replace PUBLIC SYNONYM plsql_profil ...
- java中文件复制的4种方式
今天一个同事问我文件复制的问题,他一个100M的文件复制的指定目录下竟然成了1G多,吓我一跳,后来看了他的代码发现是自己通过字节流复制的,定义的字节数组很大,导致复制后目标文件非常大,其实就是空行等一 ...
- 单域MPLS 虚拟私有网络的整个详解配置过程(可跟做)
1.PE1和P和PE2之间跑IGP协议 运营商里面首选的还是ISIS协议我们实验的话,用的是OSPF协议 R3的IP地址和OSPF配置 [R3]display ip int brief *down: ...
- Cocos2d-x游戏实例《忍者飞镖》之对象管理
推荐移步至<忍者飞镖射幽灵>之对象管理阅读 配置环境:win7+Cocos2d-x.2.0.3+VS2012 目标读者:需了解游戏帧率以及回调函数的概念 一.引言 对具体游戏demo的分析 ...
- 函数防抖VS函数节流
(1)函数防抖debounce 函数触发停止一段时间后(期间不能再触发 debounce,否则将重新计时),再执行回调函数 机制: 防抖函数主要利用定时器的延迟执行特性,根据是否有定时器在等待执行: ...
- python操作excel表
1.新增表并添加数据: 2.给工作表添加表名称,给表数据添加格式: import xlsxwriterdatas=(['Rent',1000], ['Gas',100], ['fish','画画'], ...
- Think in Java 笔记(chapter1-7)
Content Chapter 1:对象导论 Chapter 2:一切都是对象 Chapter 3:操作符 Chapter 4:控制执行流程 Chapter 5:初始化与清理 Chapter 6:访问 ...
- HTML连载54-网易注册界面实战之信息填写
一.完成了内容中的右边的一部分.练习了三点:小盒子在大盒子中的位置,最好用大盒子的内边距完成布局,而不是用小盒子的外边距来进行布局:复习了ul,li的用法. <!DOCTYPE html> ...