正则表达式和python的re模块

0 正则表达式

0.1 常见的元字符

.: 匹配除\r\n之外的任何单个字符

*: 匹配前面的子表达式任意次，例如Zz*可以匹配Z，可以匹配Zz，也可以匹配Zzzzzzzzzz

+: 匹配前面的子表达式任意次，例如hh+可以匹配hh，hhh，hhhhhhhhhhhhhhh

{n}: 匹配前面的子表达式n次，例如h{5}匹配hhhhhh

{n,}: 匹配前面的子表达式至少n次，例如h{5, } 匹配hhhhhh，hhhhhhhh，hhhhhhhhhhhhhhhhhh

{n,m}: 匹配前面的子表达式n到m次

?: 匹配前面的子表达式0次或1次，等价于{0,1}，如果跟在* + ? {n} {n,} {n,m}后面则代表非贪婪模式。例如hhhhh，用h+匹配得到一个结果hhhhh，用h+?则匹配到5个结果，5个都是h。

\: 转义字符，例如\\n匹配\n，\n匹配换行符，\\匹配\，\(匹配(

^: 匹配字符串的开头，例如^hello匹配hello world

$: 匹配字符串的结尾，例如scut$匹配I am from scut

[...]: 　字符集，匹配中括号内的任意字符，-代表范围，^代表非，如果要表示[ ] - ^ 要在前面加上\ 或者把] - 放在首位，把^放到非首位，例如[^0-9]匹配非数字

|: 或，匹配左右表达式任意一个，如果左边匹配成功，就不再匹配右边的表达式，例如convex|function匹配convex或者匹配function

(...): 分组，作为一个整体被匹配，例如，(really ){5} 匹配really really really really really

(?P<name>...): 分组，同时起一个别名

(?P=name): 引用别名为name的分组匹配到的字符串

\<number>: 引用编号为number的分组匹配到的字符串

\d: 匹配数字，等价于[0-9]

\D: 匹配非数字，等价于[^0-9]

\s: 匹配不可见字符，等价于[\f\n\r\t\v]，\t是制表符\x09，\n是换行符\x0a，\v是垂直制表符\x0b，\f是换页符\x0c，\r是回车符\x0d

\S: 匹配可见字符，等价于[^\s]

\w: 匹配包括下划线的任何单词字符（unicode字符集），类似但不等价于[A-Za-z0-9_]

\W: 匹配任何非单词字符，等价于[^\w]

1 python中的正则

1.1 反斜杠

在编程语言中使用正则表达式，当我们要匹配\的时候需要用4个\来匹配，\\\\匹配\，因为第一次编程语言会把\\\\转移成\\，然后第二次正则会把\\转移成\。如果用python的原生字符串r来写正则，则可以少写两个\，即r'\\'匹配\，r'\\d'匹配'\d'，r‘\d’则匹配数字

1.2 re模块的使用

# 首先将正则表达式编译成Pattern对象

pattern = re.compile('keras')

# 可以用Pattern对象的match方法匹配文本，从头开始但不要求完全的匹配，可在最后加入$则是完全匹配，返回Match对象或None

match = pattern.match('keras is a high-level neural networks API')

# 也可以用Pattern对象的search方法匹配文本，在文本中寻找子串的匹配，返回Match对象或None

match = pattern.search('keras is a high-level neural networks API')

# 用Match对象的方法输出匹配结果

if match:

    print match.group()

# 另外可以直接使用re的方法进行匹配，这样省了编译那一行，但是不能复用。

re.match('tensorflow', 'tensorflow is an open-source library for Machine Intelligence')

re.search('Machine Intelligence', 'tensorflow is an open-source library for Machine Intelligence')

1.3 re.compile(pattern, flags=0)

返回：Pattern对象

pattern: 字符串形式的正则表达式，可利用上文的元字符和普通字符进行一系列组合得到

flags: 匹配模式，分为如下几个（可用|使用多个，如re.I | re.

re.I或re.IGNORECASE：忽略大小写

re.L或re.LOCALE：使用当地locale。（python中有个locale模块，locale代表不同的语言，地区和字符集）

re.U或re.UNICODE：使用unicode的locale

re.M或re.MULTILINE：使用^或$时会匹配每一行的行首或行尾

re.S或re.DOTALL：使用.时能匹配换行符

re.X或re.VERBOX：忽略空白字符，而且可以加入注释

1.4 Pattern对象

Pattern对象代表一个正则表达式，包含如下几个方法，这些方法在re都有对应的方法，参数略有不同，下面也一起给出

match(string, pos=0, endpos=-1) | re.match(pattern, string, flags=0): 从头开始匹配，返回一个Match对象或None。

search(string, pos=0, endpos=-1) | re.search(pattern, string, flags=0): 寻找子串的匹配，返回一个Match对象或None

split(string, maxsplit=0) | re.split(pattern, string, maxsplit=0, flags=0): 按照pattern切割string，maxsplit表示最大切割次数

findall(string , pos=0, endpos=-1) | re.findall(pattern, string, flags=0): 搜索返回全部能匹配的子串

finditer(string, pos=0, endpos=-1) | re.finditer(pattern, string, flags=0): 搜索返回match对象的迭代器

sub(repl, string, count=0) | re.sub(pattern, repl, string, count=0, flags=0): 使用repl替换string中能匹配的每一个子串，返回替换后的子串，count指定最多替换次数。

subn(repl, string, count=0) | re.subn(pattern, repl, string, count=0, flags=0): 相比于sub，多返回了一个次数，组成tuple。

1.5 Match对象

Match对象代表匹配的结果，包含匹配的相关信息。

包含如下属性：string, re( 匹配时使用的Pattern对象）, pos, endpos, lastindex（最后一个匹配的分组的下标）, lastgroup（最后一个匹配的分组的别名）

包含如下方法：

group(group1, group2, group3,...):

返回一个或多个组匹配的子串，不填写参数默认为group(0)，代表整个匹配的子串。

group1可以是编号，也可以是组的别名。

没匹配到的组返回None，匹配到多个子串的组返回最后一个。

groups(default=None): 返所有组匹配的子串。当组没有匹配到子串时候返回default。

groupdict(default=None): 返回字典，键为组的别名，值为该组匹配到的子串。没有别名的组不返回。

start(groupNum=0): 返回指定组匹配的子串在string中的开始下标，没有匹配则返回-1

end(groupNum=0): 返回指定组匹配的子串在string中的结束下标，没有匹配则返回-1

span(group=0): 返回(start(group), end(group))

1.6 unicode编码

python中re模块的正则最好统一使用unicode编码，即u'...'的形式。

因为之前没有使用unicode，在匹配中文的时候出现了匹配错误的结果。

猜测是re模块里的方法默认使用unicode编码来执行的。

正则表达式和python的re模块的更多相关文章

正则表达式与Python中re模块的使用
正则表达式与Python中re模块的使用最近做了点爬虫,正则表达式使用的非常多,用Python做的话会用到re模块. 本文总结一下正则表达式与re模块的基础与使用. 另外,给大家介绍一个在线测试正则 ...
python全栈开发之正则表达式和python的re模块
正则表达式和python的re模块 python全栈开发,正则表达式,re模块一正则表达式正则表达式(Regular Expression)是一种文本模式,包括普通字符(例如,a 到 z 之间的 ...
正则表达式与python中re模块
一个网站,正则表达式入门的,很好 http://www.jb51.net/tools/zhengze.html 下面这个包含对python中re的介绍,也是很不错的http://www.w3cscho ...
常用正则表达式与python中的re模块
正则表达式是一种通用的字符串匹配技术,不会因为编程语言不一样而发生变化. 部分常用正则表达式规则介绍: . 匹配任意的一个字符串,除了\n * 匹配任意字符串0次或者任意次 \w 匹配字母.数字.下划 ...
Python的regex模块——更强大的正则表达式引擎
Python自带了正则表达式引擎(内置的re模块),但是不支持一些高级特性,比如下面这几个: 固化分组 Atomic grouping 占有优先量词 Possessive quantifi ...
(转)正则表达式与Python（RE）模块
Python正则表达式指南原文:http://blog.csdn.net/qdx411324962/article/details/46799831 Python3(2):正则表达式与Python ...
Python的re模块，正则表达式书写方法
Python的re模块,正则表达式 #导入re模块 import re 1.match方法的使用: result = re.match(正则表达式,待匹配的字符串) 正则表达式写法: 第一部分: 字 ...
【Python开发】Python之re模块 —— 正则表达式操作
Python之re模块 -- 正则表达式操作这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式 ...
Python的re模块，正则表达式用法详解，正则表达式中括号的用法
Python的re模块,正则表达式 #导入re模块 import re 1.match方法的使用: result = re.match(正则表达式,待匹配的字符串) 正则表达式写法: 第一部分: 字 ...

随机推荐

第二百零四节，jQuery EasyUI，Dialog(对话框)组件
jQuery EasyUI,Dialog(对话框)组件学习要点: 1.加载方式 2.属性列表 3.事件列表 4.方法列表本节课重点了解EasyUI中Dialog(窗口)组件的使用方法,这个组件依赖 ...
tcpdf
将文档整为pdf格式文档网址:http://www.tcpdf.org/examples.php
poj 2187:Beauty Contest（计算几何，求凸包，最远点对）
Beauty Contest Time Limit: 3000MS Memory Limit: 65536K Total Submissions: 26180 Accepted: 8081 D ...
WPF MVVM（Caliburn.Micro）数据验证
书接前文前文中仅是WPF验证中的一种,我们暂且称之为View端的验证(因为其验证规是写在Xaml文件中的). 还有一种我们称之为Model端验证,Model通过继承IDataErrorInfo接口来 ...
ASP.NET实现推送文件到浏览器的方法
这篇文章主要介绍了ASP.NET实现推送文件到浏览器的方法,可实现将文件推送到浏览器供用户浏览或下载的功能,需要的朋友可以参考下本文实例讲述了ASP.NET实现推送文件到浏览器的方法.分享给大家供大 ...
hdu 3681(bfs+二分+状压dp判断)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=3681 思路:机器人从出发点出发要求走过所有的Y,因为点很少,所以就能想到经典的TSP问题.首先bfs预 ...
Eclipse用法和技巧
http://blog.csdn.net/ts1122/article/category/1385337/2
bzoj 1415(概率dp和bfs预处理)
感觉挺经典的一道题目. 先用 bfs 预处理下一步走到的位置.因为每一步走法都是固定的,所以可以用dp的方法来做. 1415: [Noi2005]聪聪和可可 Time Limit: 10 Sec M ...
1.2_php验证码
使用php生成动态的验证码图片 <!DOCTYPE html> <html> <head> <meta charset="utf-8"&g ...
freemarker的${!}
${sss!} <#--没有定义这个变量,默认值是空字符串! --> ...................................... 转自:https://blog.csdn ...

正则表达式和python的re模块

正则表达式和python的re模块的更多相关文章

随机推荐

热门专题