python与正则不得不说的故事

今日所得

　　正则表达式

　　re模块

正则表达式：字符

元字符	匹配内容
.	匹配除换行符以外的任意字符
\w	匹配字母或数字或下划线
\s	匹配任意的空白符
\d	匹配数字
\n	匹配一个换行符
\t	匹配一个制表符
\b	匹配一个单词的结尾
^	匹配字符串的开始
$	匹配字符串的结尾
\W	匹配非字母或数字或下划线
\D	匹配非数字
\S	匹配非空白符
a\|b	匹配字符a或字符b
()	匹配括号内的表达式,也表示一个组
[...]	匹配字符组中的字符
[^...]	匹配除了字符组中字符的所有字符

量词：

量词	用法说明
*	重复零次
+	重复一次或者更多次
?	重复零次或者一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

分组()与或 | [^ ]

正则	待匹配字符	匹配结果	说明
^[1-9]\d{13,16}[0-9x]$	110101198001017032	110101198001017032	表示可以匹配一个正确的身份证号
^[1-9]\d{13,16}[0-9x]$	1101011980010170	1101011980010170	表示也可以匹配这串数字，但这并不是一个正确的身份证号码，它是一个16位的数字
^[1-9]\d{14}(\d{2}[0-9x])?$	1101011980010170	False	现在不会匹配错误的身份证号了 ()表示分组，将\d{2}[0-9x]分成一组，就可以整体约束他们出现的次数为0-1次
^([1-9]\d{16}[0-9x]\|[1-9]\d{14})$	110105199812067023	110105199812067023	表示先匹配[1-9]\d{16}[0-9x] 如果没有匹配上就匹配[1-9]\d{14}

转义符 \

正则	待匹配字符	匹配结果	说明
\n	\n	False	因为在正则表达式中\是有特殊意义的字符，所以要匹配\n本身，用表达式\n无法匹配
\\n	\n	True	转义\之后变成\\，即可匹配
"\\\\n"	'\\n'	True	如果在python中，字符串中的'\'也需要转义，所以每一个字符串'\'又需要转义一次
r'\\n'	r'\n'	True	在字符串之前加r，让整个字符串不转义

贪婪匹配：在满足匹配时,匹配尽可能长的字符串,默认情况下,采用贪婪匹配

正则	待匹配字符	匹配结果	说明
<.*>	<script>...<script>	<script>...<script>	默认为贪婪匹配模式，会匹配尽量长的字符串
<.*?>	<script>...<script>	<script> <script>	加上？为将贪婪匹配模式转为非贪婪匹配模式，会匹配尽量短的字符串

几个常用的非贪婪匹配Pattern

*? 重复任意次，但尽可能少重复

+? 重复1次或更多次，但尽可能少重复

?? 重复0次或1次，但尽可能少重复

{n,m}? 重复n到m次，但尽可能少重复

{n,}? 重复n次以上，但尽可能少重复

re模块下的常用方法

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里

print(ret) #结果 : ['a', 'a']

ret = re.search('a', 'eva egon yuan').group()

print(ret) #结果 : 'a'

# 函数会在字符串内查找模式匹配,只到找到第一个匹配然后返回一个包含匹配信息的对象,该对象可以

# 通过调用group()方法得到匹配的字符串,如果字符串没有匹配，则返回None。

"""
注意:
    1.search只会依据正则查一次 只要查到了结果 就不会再往后查找
    2.当查找的结果不存在的情况下 调用group直接报错
"""


ret = re.match('a', 'abc').group()  # 同search,不过尽在字符串开始处进行匹配

print(ret)

#结果 : 'a'

"""
注意:
    1.match只会匹配字符串的开头部分
    2.当字符串的开头不符合匹配规则的情况下 返回的也是None 调用group也会报错
"""


ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割

print(ret)  # ['', '', 'cd']

ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H'，参数1表示只替换1个

print(ret) #evaHegon4yuan4

ret = re.subn('\d', 'H', 'eva3egon4yuan4')#将数字替换成'H'，返回元组(替换的结果,替换了多少次)

print(ret)

obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字

ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串

print(ret.group())  #结果 ： 123

import re

ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器

print(ret)  # <callable_iterator object at 0x10195f940>

print(next(ret).group())  #查看第一个结果

print(next(ret).group())  #查看第二个结果

print([i.group() for i in ret])  #查看剩余的左右结果

注意:

　　1.findall的优先级查询:

import re

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')

print(ret)  # ['oldboy']     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可

ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')

print(ret)  # ['www.oldboy.com']

2.split的优先级查询

ret=re.split("\d+","eva3egon4yuan")

print(ret) #结果 ： ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")

print(ret) #结果 ： ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上（）之后所切出的结果是不同的，

#没有（）的没有保留所匹配的项，但是有（）的却能够保留了匹配的项，

#这个在某些需要保留匹配部分的使用过程是非常重要的。

python与正则不得不说的故事的更多相关文章

python re 正则
*:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !important; } /* ...
与《YII框架》不得不说的故事—5篇目录
与<YII框架>不得不说的故事—基础篇第1章课程目标 1-1 课程目标 (00:54) 第2章课前知识准备 2-1 YII的启动和安装 (05:12) 2-2 YII请求处理流程 ( ...
python 速记正则使用(转)
目录 python 速记正则使用(转) 正则表达式语法字符与字符类量词组与捕获断言与标记条件匹配正则表达式的标志 Python正则表达式模块四大功能两种方法常用方法匹配对象的属性与 ...
【征文】Hadoop十周年特别策划——我与Hadoop不得不说的故事
2016年是Hadoop的十周年生日,在今年,CSDN将以技术和实战为主题与大家共同为Hadoop庆生.其主要内容包含Hadoop专业词典.系列视频技术解析.Hadoop行业实践.线上问答.线下沙龙. ...
python的正则re模块
一. python的正则 python的正则模块re,是其内置模块,可以直接导入,即import re.python的正则和其他应用的正则及其相似,有其他基础的话,学起来还是比较简单的. 二. 正则前 ...
python - 手机号正则匹配
Python 手机号正则匹配 # -*- coding:utf-8 -*- import re def is_phone(phone): phone_pat = re.compile('^(13\d| ...
asList和ArrayList不得不说的故事
目录简介创建ArrayList UnsupportedOperationException asList 转换总结 asList和ArrayList不得不说的故事简介提到集合类,ArrayL ...
Python字符编码和二进制不得不说的故事
二进制核心思想: 冯诺依曼 + 图灵机电如何表示状态,才能稳定? 计算机开始设计的时候并不是考虑简单,而是考虑能自动完成任务与结果的可靠性, 简单始终是建立再稳定.可靠基础上经过尝试10进制,但 ...
Python（正则 Time datatime os sys random json pickle模块）
正则表达式: import re #导入模块名 p = re.compile(-]代表匹配0至9的任意一个数字, 所以这里的意思是对传进来的字符串进行匹配,如果这个字符串的开头第一个字符是数字,就代表 ...

随机推荐

UML-什么是GRASP？
1.定义 GRASP:General Responsibility Assignment Software Pattern,即通用职责分配软件模式,使用职责进行OO设计的学习工具. 2.本书目标 1) ...
用python批量修改音频ID3等标签
使用的模块是eyeD3 一.eyeD3的安装 1.安装msgpack,不安装会报错distributed 1.21.8 requires msgpack, which is not installed ...
sp__helptable, sp__help******* help 存储过程
from: https://sqldbaknowledgeshare.wordpress.com/2014/11/27/general-help-procedures/ GENERAL HELP P ...
Linux文件目录常用命令
查看目录内容 ls 切换目录 cd 创建和删除操作 touch rm mkdir 拷贝和移动文件 cp mv 查看文件内容 cat more grep 其他 echo 重定向 > 和 >& ...
201604-1 折点计数 Java
思路: 这个题要小心考虑不全.左右两边都比这个数小或者左右两边都比这个数大 import java.util.Scanner; public class Main { public static ...
Exit of “> ” mode in Unix shell
https://unix.stackexchange.com/questions/118209/exit-of-mode-in-unix-shell ^D will only work if a pr ...
黑马_10 Lucene：全文检索
10 Lucene:01.全文检索基本介绍 10 Lucene:02.创建索引库和查询索引 10 Lucene:03.中文分析器 10 Lucene:04.索引库维护CURD
[转载]markown语法
目录 Cmd Markdown 公式指导手册一.公式使用参考 1．如何插入公式 2．如何输入上下标 3．如何输入括号和分隔符 4．如何输入分数 5．如何输入开方 6．如何输入省略号 7．如何输入矢量 ...
App 性能测试
app常见性能测试点: https://blog.csdn.net/xiaomaoxiao336368/article/details/83547318
笔记本安装SSD固态硬盘详细的优化设置
现在好多笔记本.台式机都加上固态硬盘了,固态硬盘的优势大家应该都有所了解了,在此略写一下固态硬盘优势: 1.启动快,没有电机加速旋转的过程: 2.不用磁头,快速随机读取,读延迟极小: 3.相对固 ...

python与正则不得不说的故事

几个常用的非贪婪匹配Pattern

python与正则不得不说的故事的更多相关文章

随机推荐

热门专题