预览

python re正则表表达式语法

匹配字符

. 匹配任意除换行符，也就是“\n”以外的任何字符。

\ 转义符，改变原来符号含义。

[ ] 中括号用来创建一个字符集，第一个出现字符如果是^，表示反向匹配。
预定义字符集

\d    匹配数字，如：[0-9]

\D   与上面正好相反，匹配所有非数字字符。

\s     空白字符，如：空格，\t\r\n\f\v等。

\S    非空白字符。

\w    单词字符，如：大写A~Z，小写a~z，数字0~9。

\W   非上面这些字符。
可选项与重复子模式

* 匹配前一个字符0次或无限次数。

+ 匹配前一个字符1次或无限次数。

? 匹配前一个字符0次或1次。

{m} 匹配前一个字符m次。

{m,n} 匹配前一个字符m至n次。

re模块重要函数变量

compile() 根据正则表达式字符串，创建模式的对象。
search() 在字符串中寻找模式,寻找第一个匹配的正则表达式子串。(函数找到子字符串的话会返回MatchObject，值为 True，找不到会返回None，值为False。)
match() 在字符串开始处匹配模式。
split() 根据模式的匹配项来分割字符串。
findall() 会以列表的形式返回给定模式的所有匹配项。
sub(old,new) 方法的功能是，用将所有old的匹配项用new替换掉。
escape() 将字符串中所有特殊正则表达式字符转义。

re.match函数

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

函数语法：

\[re.match(pattern, string, flags=0)
\]

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.match方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取匹配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re

print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配

print(re.match('com', 'www.runoob.com'))         # 不在起始位置匹配

(0, 3)

None

import re

line = "Cats are smarter than dogs"

matchObj = re.match( r'(.*) are (.*?) .*', line, re.M|re.I)

if matchObj:

    print ("matchObj.group() : ", matchObj.group())

    print ("matchObj.group(1) : ", matchObj.group(1))

    print ("matchObj.group(2) : ", matchObj.group(2))

else:

    print ("No match!!")

matchObj.group() :  Cats are smarter than dogs

matchObj.group(1) :  Cats

matchObj.group(2) :  smarter

re.search方法

re.search 扫描整个字符串并返回第一个成功的匹配。

函数语法：

\[re.search(pattern, string, flags=0)
\]

函数参数说明：

参数	描述
pattern	匹配的正则表达式
string	要匹配的字符串。
flags	标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。

匹配成功re.search方法返回一个匹配的对象，否则返回None。

我们可以使用group(num) 或 groups() 匹配对象函数来获取配表达式。

匹配对象方法	描述
group(num=0)	匹配的整个表达式的字符串，group() 可以一次输入多个组号，在这种情况下它将返回一个包含那些组所对应值的元组。
groups()	返回一个包含所有小组字符串的元组，从 1 到所含的小组号。

import re

print(re.search('www', 'www.runoob.com').span())  # 在起始位置匹配

print(re.search('com', 'www.runoob.com').span())         # 不在起始位置匹配

(0, 3)

(11, 14)

import re

line = "Cats are smarter than dogs";

searchObj = re.search( r'(.*) are (.*?) .*', line, re.M|re.I)

if searchObj:

    print ("searchObj.group() : ", searchObj.group())

    print ("searchObj.group(1) : ", searchObj.group(1))

    print ("searchObj.group(2) : ", searchObj.group(2))

else:

    print ("Nothing found!!")

searchObj.group() :  Cats are smarter than dogs

searchObj.group(1) :  Cats

searchObj.group(2) :  smarter

re.match与re.search的区别

re.match只匹配字符串的开始，如果字符串开始不符合正则表达式，则匹配失败，函数返回None；而re.search匹配整个字符串，直到找到一个匹配。

import re

line = "Cats are smarter than dogs";

matchObj = re.match( r'dogs', line, re.M|re.I)

if matchObj:

    print ("match --> matchObj.group() : ", matchObj.group())

else:

    print ("No match!!")

matchObj = re.search( r'dogs', line, re.M|re.I)

if matchObj:

    print ("search --> matchObj.group() : ", matchObj.group())

else:

    print ("No match!!")

No match!!

search --> matchObj.group() :  dogs

检索和替换

Python 的re模块提供了re.sub用于替换字符串中的匹配项。

语法：

\[re.sub(pattern, repl, string, count=0)
\]

参数：

pattern : 正则中的模式字符串。
repl : 替换的字符串，也可为一个函数。
string : 要被查找替换的原始字符串。
count : 模式匹配后替换的最大次数，默认 0 表示替换所有的匹配。

import re

phone = "2004-959-559 # 这是一个电话号码"

# 删除注释

num = re.sub(r'#.*$', "", phone)

print ("电话号码 : ", num)

# 移除非数字的内容

num = re.sub(r'\D', "", phone)

print ("电话号码 : ", num)

电话号码 :  2004-959-559

电话号码 :  2004959559

repl 参数是一个函数

以下实例中将字符串中的匹配的数字乘于 2：

import re

# 将匹配的数字乘于 2

def double(matched):

    value = int(matched.group('value'))

    return str(value * 2)

s = 'A23G4HFD567'

print(re.sub('(?P<value>\d+)', double, s))

A46G8HFD1134

正则表达式修饰符 - 可选标志

正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如re.I | re.M被设置成 $I$ 和$M$标志：

修饰符	描述
re.I	使匹配对大小写不敏感
re.L	做本地化识别（locale-aware）匹配
re.M	多行匹配，影响`^`和`$`
re.S	使`.`匹配包括换行在内的所有字符
re.U	根据Unicode字符集解析字符。这个标志影响 `\w, \W, \b, \B`.
re.X	该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。

正则表达式模式

模式字符串使用特殊的语法来表示一个正则表达式：

字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。

多数字母和数字前加一个反斜杠时会拥有不同的含义。

标点符号只有被转义时才匹配自身，否则它们表示特殊的含义。

反斜杠本身需要使用反斜杠转义。

由于正则表达式通常都包含反斜杠，所以你最好使用原始字符串来表示它们。模式元素(如 r'/t'，等价于'//t')匹配相应的特殊字符。

下表列出了正则表达式模式语法中的特殊元素。如果你使用模式的同时提供了可选的标志参数，某些模式元素的含义会改变。

模式	描述
`^`	匹配字符串的开头
`$`	匹配字符串的末尾。
`.`	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
`[...]`	用来表示一组字符,单独列出：`[amk]` 匹配 `'a'，'m'或'k'`
`[^...]`	不在`[]`中的字符：`[^abc]` 匹配除了a,b,c之外的字符。
`re*`	匹配0个或多个的表达式。
`re+`	匹配1个或多个的表达式。
`re?`	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
`re{ n}`
`re{ n,}`	精确匹配n个前面表达式。
`re{ n, m}`	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
`a`$\mid$`b`	匹配a或b
`(re)`$\mid$`G`	匹配括号内的表达式，也表示一个组
`(?imx)`	正则表达式包含三种可选标志：i, m, 或 x 。只影响括号中的区域。
`(?-imx)`	正则表达式关闭 i, m, 或 x 可选标志。只影响括号中的区域。
`(?: re)`	类似 `(...)`, 但是不表示一个组
`(?imx: re)`	在括号中使用i, m, 或 x 可选标志
`(?-imx: re)`	在括号中不使用i, m, 或 x 可选标志
`(?#...)`	注释.
`(?= re)`	前向肯定界定符。如果所含正则表达式，以 ... 表示，在当前位置成功匹配时成功，否则失败。但一旦所含表达式已经尝试，匹配引擎根本没有提高；模式的剩余部分还要尝试界定符的右边。
`(?! re)`	前向否定界定符。与肯定界定符相反；当所含表达式不能在字符串当前位置匹配时成功
`(?> re)`	匹配的独立模式，省去回溯。
`\w`	匹配字母数字
`\W`	匹配非字母数字
`\s`	匹配任意空白字符，等价于 `[\t\n\r\f]`.
`\S`	匹配任意非空字符
`\d`	匹配任意数字，等价于 `[0-9]`.
`\D`	匹配任意非数字
`\A`	匹配字符串开始
`\Z`	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串。c
`\z`	匹配字符串结束
`\G`	匹配最后匹配完成的位置。
`\b`	匹配一个单词边界，也就是指单词和空格间的位置。例如， `'er\b'` 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。
`\B`	匹配非单词边界。`'er\B'` 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。
`\n`,`\t`, 等.	匹配一个换行符。匹配一个制表符。等
`\1...\9`	匹配第n个分组的内容。
`\10`	匹配第n个分组的内容，如果它经匹配。否则指的是八进制字符码的表达式。

几个例子

import re

# 判断字符串是否由‘hello’开始

pattern=re.compile('hello') #得到匹配字符串‘hello’的正则表示对象

res=pattern.match('hello world') #使用match方法进行匹配

if res :

    print(res.group()) # 使用group方法得到匹配内容

else:

    print('not match')

hello

# 查找字符串是否包含'hello'

pattern=re.compile('hello') #得到匹配字符串‘hello’的正则表示对象

res=pattern.search('world hello') #使用search方法进行匹配

if res :

    print(res.group()) # 使用group方法得到匹配内容

else:

    print('not match')

hello

# 查找字符串中包含'hello'的所有部分

pattern=re.compile('hello') #得到匹配字符串‘hello’的正则表示对象

res=pattern.findall('world hello world hello') #使用findall方法得到所有匹配内容

print(res)

['hello', 'hello']

`.`

import re

pattern=re.compile(r'ab.xy')

res=pattern.match(r'ab0xy')

if res:

    print(res.group())

ab0xy

`|`

import re

pattern=re.compile(r'abc|xyz')

res=pattern.match(r'abc')

if res:

    print(res.group())

abc

res=pattern.match(r'xyz')

if res:

    print(res.group())

xyz

[ ]

import re

pattern=re.compile(r'[ab][xy][01]')

res=pattern.match(r'ax0')

if res:

    print(res.group())

ax0

import re

html = 'Hello <a href="https://www.biaodainfu.com">biaodianfu</a>'

m = re.findall('<a.*>.*<\/a>', html)

if m:

    print(m)

['<a href="https://www.biaodainfu.com">biaodianfu</a>']

import re

html = 'Hello <a href="https://www.biaodainfu.com">biaodianfu</a> | Hello <a href="https://www.google.com">Google</a>'

m = re.findall('<a.*>.*<\/a>', html)

if m:

    print(m)

['<a href="https://www.biaodainfu.com">biaodianfu</a> | Hello <a href="https://www.google.com">Google</a>']

python_正则表达式的更多相关文章

Python_正则表达式二
''' 正则表达式对象的sub(repl,string[,count=0])和subn(repl,string[,count=0])方法用来实现字符串替换功能 ''' example='''Beaut ...
Python_正则表达式一
''' 常用的正则表达式元字符 . 匹配换行符以外的任意单个字符 * 匹配位于'*'之前的字符或子模的0次或多次出现 + 匹配位于'+'之前的字符或子模式的1次或多次出现 - 用在[]之内用来表示范围 ...
Python_正则表达式样例
''' 正则表达式是字符串处理的有力工具和技术,正则表达式使用预定义的特定模式去匹配一类具有共同特征的字符串, 主要用于字符串处理,可以快速.准确地完成复杂的查找.替换等处理要求. 正则表达式由元字符 ...
python_正则表达式概述
正则表达式(RegularExpression, re) - 是一个计算机科学的概念- 用于使用单个字符串来描述,匹配符合某个规则的字符串- 常常用来检索,替换某些模式的文本 # 正则的写法- .(点 ...
python_正则表达式学习
re.match()函数: 函数语法: re.mathch ( pattern , string , flags = 0) 参数说明: pattem 匹配的正则表达式 string 要匹配的字符串 f ...
Python_正则表达式语法
1.正则表达式中的操作符: 2.re库的使用: import re #search方法要求只要待匹配的字符串中包含正则表达式中的字符串就可以 match = re.search('python+',' ...
python_正则表达式随笔
webpage_regex = re.search(r'span_ed7[\s\S]*', dd) [\s\S]* 匹配多行,转义字符 webpage_regex = re.compile('< ...
Python_常用的正则表达式处理函数
正则表达式就是用查找字符串的,它能查找规则比较复杂的字符串反斜杠:正则表达式里面用"\"作为转义字符. s='<a class="h3" href=&qu ...
JS正则表达式常用总结
正则表达式的创建 JS正则表达式的创建有两种方式: new RegExp() 和直接字面量. //使用RegExp对象创建 var regObj = new RegExp("(^\\s+) ...

随机推荐

使用base64提升视觉效果体验
最近在做一个微信端的小项目,前端代码写完后,就放在手机端测试,没什么问题,但是页面在加载和渲染时的效果却让人有些不爽,虽然是个小项目,我大可不必做这些,但是看着页面的闪动,就忍不住想做些什么. 先说说 ...
Server from ＵＲＬ
在你做网页时,如果网页需要运行ActiveX或脚本,并且他们位于客户端以外的地方, 那么可以添加这个注释语句,IE当然不会不理他, IE会按照他指出的URL去找脚本的位置. 这句话的作用是让Inter ...
h5 新增特性用法---持续更新
1.dataset <div class="box" data-title1="自定义属性" data-age="18" data-m ...
（转载）Jython 简单入门
转载链接:http://willzh.iteye.com/blog/307222 1. 用Jython调用Java类库第一步.创建Java类写一个简单的Java类,用Point来示例: impor ...
VB6之WebBrowser控件
UI短手或者GDI+用烦的童鞋可以借用WebBrowser打造漂亮的程序界面,只需要下载一个好看点的html代码就够了. 引用: Microsoft Html Object Library 部件: M ...
Python查看MQ队列深度
分享一段代码,很简单但是也很实用. #!/usr/bin/python #-*- coding:gb18030 -*- ''' Usage: mq.py [Qmgr] *get the queues' ...
Scrapy 爬虫实例教程（一）---简介及资源列表
Scrapy(官网 http://scrapy.org/)是一款功能强大的,用户可定制的网络爬虫软件包.其官方描述称:" Scrapy is a fast high-level screen ...
JavaWeb 后端 <三> 之 Response Request 学习笔记
一.响应对象 Response(重点:HTTP协议响应部分) 查看
poj_2186: Popular Cows（tarjan基础题）
题目链接 tarjan参考博客本文代码参考博客题意:求在图上可以被所有点到达的点的数量. 首先通过tarjan缩点,将所有内部两两可达的子图缩为一点,新图即为一个有向无环图(即DAG). 在这个D ...
python 图形界面开发
用python来开发图形界面,确实不是很方便,没有c#,Java,甚至VB来得容易.几个控件拖拽,然后响应事件. 用python写脚本,或者web service来处理一般工作,绰绰有余.但有的时候, ...

python_正则表达式

预览