Python连载50-贪婪匹配、XPath介绍
一、贪婪和非贪婪
1.贪婪:尽可能多的匹配,(*)表示贪婪匹配
2.非贪婪:找到符合条件的最小内容即可,(?)表示非贪婪
3.正则默认使用贪婪匹配
import re title = u"<div>name</div><div>age</div>" p1 = re.compile(r"<div>.*</div>")#贪婪模式 p2 = re.compile(r"<div>.*?<div>")#非贪婪模式 m1 = p1.search(title) print(m1.group()) m2 = p2.search(title) print(m2.group())

二、XPATH
1.释义:在XML文件中查找信息的一套规则/语言,根据XML的元素
文档帮助:http://www.w3cshool.com.cn/xpath/index.asp
2.XPath开发工具
开源的XPath表达式编辑工具:XMLQuire
Chrome插件:XPath
Helper
Firefox插件:XPath
Checker
3.怎么在XML文件中选取节点
(1)nodename:选取此节点的所有子节点
(2)/:从根节点开始选取
例子:/Student:没有结果
/School:选取School节点
(3)//:选取节点,不考虑位置
例子://age:选取三个节点,一般组成列表返回
(4).:选取当前节点
(5)..:选取当前节点的父亲节点
(6)@:选取属性
(7)Xpath中查找一般按照路径方法查找
School/teacher:返回teacher节点
School/student:返回两个student节点
//Student:选取所有Student的节点,不考虑位置
School//Age:选取School后代中所有的Age节点
//@Other:选取Other属性
//Age[@Details]:选取带有属性Details的Age元素
<?xml version="1.0" encoding="utf-8" ?>
<School>
<Teacher desc="PythonTeacher" score="good">
<name>LiuDana</name>
<Age_1 Details="Age for year 2010">18</Age_1>
<Mobile>13260446055</Mobile>
</Teacher>
<Student>
<Name Other="他是班长">ZhangSan</Name>
<Age Details="The youngest boy in class">14</Age>
</Student>
<Student>
<Name>LiSi</Name>
<Age>19</Age>
<Mobile>15578875040</Mobile>
</Student>
</School>
4.谓语
/School/Student[1]:选取School下面的第一个Student节点
/School/Student[last()]:选取School下面的最后一个Student节点
/School/Student[last()-1]:选取School下面的倒数第二个Student节点
/School/Student[position()<3]:选取School下面的前两个节点
//Student[@score]:选取带有属性score的Student节点
//Student[@score="99"]:选取带有属性score并且属性值为99的Student节点
//Student[@score]/Age:选取带有属性score的Student节点的子节点Age
5.XPath中的一些操作
(1)|:或者
例如://Student[@score] | //Teacher:选取带有属性score的Student节点或者Teacher节点
(2)其余不常见的XPath运算符号包括+.-.*,div(除法的意思),>,<
二、源码
D31_2_GreedMatch.py
D32_1_School.xml
https://github.com/ruigege66/Python_learning/blob/master/D31_2_GreedMatch.py
https://github.com/ruigege66/Python_learning/blob/master/D32_1_School.xml
2.CSDN:https://blog.csdn.net/weixin_44630050(心悦君兮君不知-睿)
3.博客园:https://www.cnblogs.com/ruigege0000/
4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

Python连载50-贪婪匹配、XPath介绍的更多相关文章
- 第11.8节 Python正则表达式的重复匹配模式及元字符“?”、 “*”、 “+”功能介绍
符号"?".""."+"这三个元字符修饰符在Python中都表示重复匹配的模式,即要求匹配的字符串满足重复次数的要求,但具体重复次数要求不同 ...
- Python第五章__模块介绍,常用内置模块
Python第五章__模块介绍,常用内置模块 欢迎加入Linux_Python学习群 群号:478616847 目录: 模块与导入介绍 包的介绍 time &datetime模块 rando ...
- 简学Python第五章__模块介绍,常用内置模块
Python第五章__模块介绍,常用内置模块 欢迎加入Linux_Python学习群 群号:478616847 目录: 模块与导入介绍 包的介绍 time &datetime模块 rando ...
- C#操作xml SelectNodes,SelectSingleNode总是返回NULL 与 xPath 介绍
一. SelectNodes,SelectSingleNode总是返回NULL 下面以一个简单的xml为例: <?xml version="1.0"?> <mes ...
- Python 利用Python操作excel表格之openyxl介绍Part2
利用Python操作excel表格之openyxl介绍 by:授客 QQ:1033553122 欢迎加入全国软件测试交流qq群(群号:7156436) ## 绘图 c = LineChart() ...
- Python正则的贪婪和非贪婪示例
贪婪匹配 import re info = """ saas12 [STREAM] codec_type=audio111 [/STREAM]-- [STREAM] co ...
- str.replace()和re.sub()/calendar.month_abbr/re.subn()/upper和lower和capitalize/贪婪匹配和费贪婪匹配/re.S和re.DOTALL 笔记
str.replace()可以进行简单的替换 >>> a = 'one.txt, index.py, index.php, index.html, index.js' >> ...
- Python编程中 re正则表达式模块 介绍与使用教程
Python编程中 re正则表达式模块 介绍与使用教程 一.前言: 这篇文章是因为昨天写了一篇 shell script 的文章,在文章中俺大量调用多媒体素材与网址引用.这样就会有一个问题就是:随着俺 ...
- 正则表达式 整理(\w \s \d 点 贪婪匹配 非贪婪匹配 * + ? {} | [] ^ $ \b 单词边界 分组、re.findall()、re.split()、re.search()、re.match()、re.compile()、re.sub())
re.findall 匹配到正则表达式的字符,匹配到的每个字符存入一个列表,返回一个匹配到的所有字符列表 一. 匹配单个字符 import re # \w 匹配所有字母.数字.下划线 re.find ...
随机推荐
- Python读字节某一位的值,设置某一位的值,二进制位操作
Python读字节某一位的值,设置某一位的值,二进制位操作 在物联网实际应用项目开发中,为了提升性能,与设备端配合,往往最终使用的是二进制字节串方式进行的通信协议封装,更会把0和1.True和Fa ...
- windows系统搭建zookeeper
安装&配置 在apache的官方网站提供了好多镜像下载地址,然后找到对应的版本 下载地址: http://mirrors.cnnic.cn/apache/zookeeper/zookeeper ...
- Unity3D 截取6面图 做全景图脚本
using System.Collections;using System.Collections.Generic;using UnityEditor;using UnityEngine; publi ...
- [考试反思]1112csp-s模拟测试111:二重
还是AK场.考前信心赛? 而且T3的部分分还放反了所有80的都其实只有50. 总算在AK场真正AK了一次... 手感好,整场考试很顺利.要不是因为T3是原题可能就没这么好看了. 20minT1,50m ...
- Java连载55-Mail编程
一.电子邮件的历史 1.起源: 1969 Lenoard K. 教授发给同事的“LO” 1971 美国国防部自主的阿帕网(Arpanet)的通讯机制 通讯地址里用@ 1987年中国的第一份电子邮件 “ ...
- C语言程序设计100例之(24):数制转换
例24 数制转换 题目描述 请你编一程序实现两种不同进制之间的数据转换. 输入格式 共三行,第一行是一个正整数,表示需要转换的数的进制n(2≤n≤16),第二行是一个n进制数,若n>10则用 ...
- 经验之谈-switch结构常见错误的分析与处理
1.缺少break语句 本来只想输出“出任武林盟主”可输出结果为 错误分析:在 switch结构中,每一个case语句块后面如果不写 break语句, switch就会 直接往下面的case语句块运行 ...
- Web安全测试学习笔记-DVWA-图片上传
很多网站都有上传资源(图片或者文件)的功能,资源上传后一般会存储在服务器的一个文件夹里面,如果攻击者绕过了上传时候的文件类型验证,传了木马或者其他可执行的代码上去,那服务器就危险了. 我用DVWA的文 ...
- ASP.NET Core SignalR:基础概述
一.简介 ASP.NET Core SignalR 是一个开源代码库,它简化了向应用添加实时 Web 功能的过程. 实时 Web 功能使服务器端代码能够即时将内容推送到客户端. SignalR 的适用 ...
- PlayJava Day021
容器: Collection接口:定义了存取一组对象的方法,其子接口Set和List分别定义了存储方式 List:存储数据有序且可重复 ----> ArrayList Set:存储数据无序且不可 ...