正则本身就是一门语言：

　　正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串，在文本处理方面功能非常强大，也经常用作爬虫，来爬取特定内容，Python本身不支持正则，但是通过导入re模块，Python也能用正则表达式，下面就来讲一下python正则表达式的用法。

下图列出了Python支持的正则表达式元字符和语法：

一、Python正则的字符：

1、普通字符：

　　大多数的字符和字母都会和自身匹配

2、元字符：

　　元字符：. ^ $ * + ? { } [ ] | ( ) \

2.1、[]详解

　　例如，[abc] 将匹配"a", "b", 或 "c"中的任意一个字符；也可以用区间[a-c]来表示同一字符集，和前者效果一致。如果你只想匹配小写字母，那么 RE 应写成 [a-z].

2.2（）详解

>>> p = re.compile('(a(b)c)d')

>>> m = p.match('abcd')

>>> m.group(0)

'abcd'

>>> m.group(1)

'abc'

>>> m.group(2)

'b'

2.3：+、*、？、{}详解

　　贪婪模式和非贪婪模式：

　　从前面的描述可以看到'*'，'+'和'?'都是贪婪的，但这也许并不是我们说要的，所以，可以在后面加个问号，将策略改为非贪婪，只匹配尽量少的RE。示例，

体会两者的区别：  <STRONG>findall 只匹配输出 分组内容如果是分组的话，如果不是分组的话都输出匹配到输出的内容</STRONG>   后面介绍

>>> re.findall(r"a(\d+?)","a234b") # 非贪婪模式  如果\d+匹配的是两个数字的话，

        ['2']

>>> re.findall(r"a(\d+)","a234b")

        ['234']<BR>

正则匹配的时候的 r 的作用

>>> re.findall(r"\bI","I love u")

['I']

>>> re.findall(r"\bIl","Ilove u")

['Il']

二、re模块的各种方法

1、findall (获取字符串中所有的匹配字符串)

findall(),可以将匹配到的结果以列表的形式返回，如果匹配不到则返回一个空列表，下面来看一下代码中的使用

import re

l=re.findall(r'\d','4g6gggg9,9')             # \d代表数字，将匹配到的元素放到一个列表里

print(l)                                     # ['4', '6', '9', '9'] 

print(re.findall(r'\w','ds.._ 4'))           # ['d', 's', '_', '4'],匹配字母数字下划线 

print(re.findall(r'^sk','skggj,fd,7'))       #  以sk开头的，['sk'] 

print(re.findall(r'^sk','kggj,fd,7'))        # [] 

print(re.findall(r'k{3,5}','ffkkkkk'))       # 取前面一个字符‘k'的3到5次，['kkkkk'] 

print(re.findall(r'a{2}','aasdaaaaaf'))      # 匹配前一个字符a两次，['aa', 'aa', 'aa'] 

print(re.findall(r'a*x','aaaaaax'))          # ['aaaaaax'] 匹配前面一个字符0次或多次，贪婪匹配 

print(re.findall(r'\d*', 'www33333'))        # ['', '', '', '33333', ''] 

print(re.findall(r'a+c','aaaacccc'))         # ['aaaac'] 匹配前面一个字符的一次或多次,贪婪匹配 

print(re.findall(r'a?c','aaaacccc'))         # ['ac', 'c', 'c', 'c'] 匹配前面一个字符的0次或1次 

print(re.findall(r'a[.]d','acdggg abd'))     # .在[]里面失去了意义，所以结果为[] 

print(re.findall(r'[a-z]','h43.hb -gg'))     # ['h', 'h', 'b', 'g', 'g'] 

print(re.findall(r'[^a-z]','h43.hb -gg'))    # 取反，['4', '3', '.', ' ', '-'] 

print(re.findall(r'ax$','dsadax'))           # 以'ax'结尾 ['ax'] 

print(re.findall(r'a(\d+)b','a23666b'))      # ['23666'] 

print(re.findall(r'a(\d+?)b','a23666b'))     # ['23666']前后均有限定条件，则非贪婪模式失效 

print(re.findall(r'a(\d+)','a23b'))          # ['23'] 

print(re.findall(r'a(\d+?)','a23b'))         # [2] 加上一个？变成非贪婪模式

find 的高级用法：?:

　　默认是取分组()内的信息，但是我想让分组外的匹配信息也取到，就要用到 ?:

>>> import re

>>> re.findall(r"www.(baidu|laonanhai).com","sdfsd www.baidu.comwww.laonanhai.com")

['baidu', 'laonanhai']

>>> re.findall(r"www.(?:baidu|laonanhai).com","sdfsd www.baidu.comwww.laonanhai.com")

['www.baidu.com', 'www.laonanhai.com']

finditer():迭代查找

>>> p = re.compile(r'\d+')

>>> iterator = p.finditer('12 drumm44ers drumming, 11 ... 10 ...')

>>> for match in iterator:

...  match.group() , match.span()

...

('12', (0, 2))

('44', (8, 10))

('11', (24, 26))

('10', (31, 33))

2、match(pattern, string, flag=0)

正则表达式
要匹配的字符串
标志位，用于控制正则表达式的匹配方式

Match对象是一次匹配的结果，包含了很多关于此次匹配的信息，可以使用Match提供的可读属性或方法来获取这些信息。

方法：

1.group([group1, …]):

获得一个或多个分组截获的字符串；指定多个参数时将以元组形式返回。group1可以使用编号也可以使用别名；编号0代表整个匹配的子串；不填写参数时，返回group(0)；没有截获字符串的组返回None；截获了多次的组返回最后一次截获的子串。

2.groups([default]):

以元组形式返回全部分组截获的字符串。相当于调用group(1,2,…last)。default表示没有截获字符串的组以这个值替代，默认为None。

3.groupdict([default]):

返回以有别名的组的别名为键、以该组截获的子串为值的字典，没有别名的组不包含在内。default含义同上。

4.start([group]):

返回指定的组截获的子串在string中的起始索引（子串第一个字符的索引）。group默认值为0。

5.end([group]):

返回指定的组截获的子串在string中的结束索引（子串最后一个字符的索引+1）。group默认值为0。

6.span([group]):

返回(start(group), end(group))。

7.expand(template):

将匹配到的分组代入template中然后返回。template中可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。\id与\g<id>是等价的；但\10将被认为是第10个分组，如果你想表达\1之后是字符'0'，只能使用\g<1>0。

3、search(pattern, string, flag=0)

根据模型去字符串中匹配指定内容，匹配单个，只匹配一次，可以结合split 将匹配到内容分割拼接然后再次循环查找。因为findall尽管可以找到所有，但是在处理分组()时候分组外的内容匹配不到。而findall是返回列表后面会有介绍

4、grouop和groups

group(0) 显示全部

group(1) 显示第一个分组()

group(2) 显示第二个分组()

如果没有分组或超出分组个数就会报错

5、sub(pattern, repl, string, count=0, flag=0)

用于替换匹配的字符串 pattern内必须为正则表达式，不能是正则表达式search或findall 查找到的赋值变量

　　比如我的计算器处理括号的方法，用正则search匹配到后，不能直接将变量出入 sub的pattern，因为不起作用

sub 疑点

sub(repl, string[, count]) | re.sub(pattern, repl, string[, count]):

使用repl替换string中每一个匹配的子串后返回替换后的字符串。
当repl是一个字符串时，可以使用\id或\g<id>、\g<name>引用分组，但不能使用编号0。
当repl是一个方法时，这个方法应当只接受一个参数（Match对象），并返回一个字符串用于替换（返回的字符串中不能再引用分组）。

subn方法返回总共替换的次数

>>> re.subn(r'\d','ZZ','23*,5sfds.6hsdf')

('ZZZZ*,ZZsfds.ZZhsdf', 4)

subn(repl, string[, count]) |re.sub(pattern, repl, string[, count]):

返回 (sub(repl, string[, count]), 替换次数)。

import re

p = re.compile(r'(\w+) (\w+)')

s = 'i say, hello world!'

print p.subn(r'\2 \1', s) 

def func(m):

    return m.group(1).title() + ' ' + m.group(2).title() 

print p.subn(func, s) 

### output ###

# ('say i, world hello!', 2)

# ('I Say, Hello World!', 2)

6、split(pattern, string, maxsplit=0, flags=0)

split(string[, maxsplit]) | re.split(pattern, string[, maxsplit]):
按照能够匹配的子串将string分割后返回列表。maxsplit用于指定最大分割次数，不指定将全部分割。

import re

p = re.compile(r'\d+')

print p.split('one1two2three3four4') 

### output ###

# ['one', 'two', 'three', 'four', '']

7 re.compile(strPattern[, flag]): compile 编译方法

如果一个匹配规则，以后要使用多次，就可以先将其编译，以后就不用每次都在去写匹配规则

　　这个方法是Pattern类的工厂方法，用于将字符串形式的正则表达式编译为
Pattern对象。
第二个参数flag是匹配模式，取值可以使用按位或运算符'|'
表示同时生效，比如re.I |
re.M
　　可以把正则表达式编译成一个正则表达式对象。可以把那些经常使用的正则
表达式编译成正则表达式对象，这样可以提高一定的效率。下面是一个正则表达式
对象的一个例子：

import re

text = "JGood is a handsome boy, he is cool, clever, and so on..."

regex = re.compile(r'\w*oo\w*')

print regex.findall(text)   #查找所有包含'oo'的单词

三、原生字符串、编译、分组

1、原生字符串

细心的人会发现，我每一次在写匹配规则的话，都在前面加了一个r，为什么要这样写，下面从代码上来说明，

import re

#“\b”在ASCII 字符中代表退格键，\b”在正则表达式中代表“匹配一个单词边界”

print(re.findall("\bblow","jason blow cat"))    #这里\b代表退格键,所以没有匹配到 

print(re.findall("\\bblow","jason blow cat"))   #用\转义后这里就匹配到了 ['blow'] 

print(re.findall(r"\bblow","jason blow cat"))   #用原生字符串后就不需要转义了 ['blow']

你可能注意到我们在正则表达式里使用“\d”，没用原始字符串，也没出现什么问题。那是因为ASCII 里没有对应的特殊字符，所以正则表达式编译器能够知道你指的是一个十进制数字。但是我们写代码本着严谨简单的原理，最好是都写成原生字符串的格式。

2、编译

如果一个匹配规则，我们要使用多次，我们就可以先将其编译，以后就不用每次都在去写匹配规则，下面来看一下用法

import re

c=re.compile(r'\d')                             #以后要在次使用的话，只需直接调用即可

print(c.findall('as3..56,'))                    #['3', '5', '6']

3、分组

除了简单地判断是否匹配之外，正则表达式还有提取子串的强大功能。用()表示的就是要提取的分组，可以有多个组，分组的用法很多，这里只是简单的介绍一下

import re

print(re.findall(r'(\d+)-([a-z])','34324-dfsdfs777-hhh')) 　　　　　　 # [('34324', 'd'), ('777', 'h')] 

print(re.search(r'(\d+)-([a-z])','34324-dfsdfs777-hhh').group(0))    # 34324-d 返回整体

print(re.search(r'(\d+)-([a-z])','34324-dfsdfs777-hhh').group(1))    # 34324 获取第一个组

print(re.search(r'(\d+)-([a-z])','34324-dfsdfs777-hhh').group(2))    # d 获取第二个组

print(re.search(r'(\d+)-([a-z])','34324-dfsdfs777-hhh').group(3))    # IndexError: no such group 

print(re.search(r"(jason)kk\1","xjasonkkjason").group())  　　　　　　 #\1表示应用编号为1的组 jasonkkjason 

print(re.search(r'(\d)gg\1','2j333gg3jjj8').group())                 # 3gg3 \1表示使用第一个组\d 

# 下面的返回None 为什么是空？而匹配不到3gg7，因为\1的不仅表示第一组，而且匹配到的内容也要和第一组匹配到的内容相同，第一组匹配到3，第二组匹配到7 不相同所以返回空

print(re.search(r'(\d)gg\1','2j333gg7jjj8')) 

print(re.search(r'(?P<first>\d)abc(?P=first)','1abc1'))              # 1abc1 声明一个组名，使用祖名引用一个组　 

r=re.match('(?P<n1>h)(?P<n2>\w+)','hello,hi,help')　　# 组名的另外一种用法

print(r.group())                       　　　　　　　　 # hello 返回匹配到的值

print(r.groups())                      　　　　　　　　 # ('h', 'ello')返回匹配到的分组

print(r.groupdict())                   　　　　　　　　 # {'n2': 'ello', 'n1': 'h'} 返回分组的结果，并且和相应的组名组成一个字典 

# 分组是从已经匹配到的里面去取值

origin ="hello alex,acd,alex"

print(re.findall(r'(a)(\w+)(x)',origin))                  # [('a', 'le', 'x'), ('a', 'le', 'x')]

print(re.findall(r'a\w+',origin))                         # ['alex', 'acd', 'alex']

print(re.findall(r'a(\w+)',origin))                       # ['lex', 'cd', 'lex']

print(re.findall(r'(a\w+)',origin))                       # ['alex', 'acd', 'alex']

print(re.findall(r'(a)(\w+(e))(x)',origin))               # [('a', 'le', 'e', 'x'), ('a', 'le', 'e', 'x')] 

r=re.finditer(r'(a)(\w+(e))(?P<name>x)',origin)

for i in r :

    print(i,i.group(),i.groupdict())

'''

    [('a', 'le', 'e', 'x'), ('a', 'le', 'e', 'x')]

    <_sre.SRE_Match object; span=(6, 10), match='alex'> alex {'name': 'x'}

    <_sre.SRE_Match object; span=(15, 19), match='alex'> alex {'name': 'x'}

'''

print(re.findall('(\w)*','alex'))                   # 匹配到了alex、但是4次只取最后一次即 x 真实括号只有1个

print(re.findall(r'(\w)(\w)(\w)(\w)','alex'))       # [('a', 'l', 'e', 'x')]  括号出现了4次，所以4个值都取到了 

origin='hello alex sss hhh kkk'

print(re.split(r'a(\w+)',origin))                   # ['hello ', 'lex', ' sss hhh kkk']

print(re.split(r'a\w+',origin))                     # ['hello ', ' sss hhh kkk']

Python全栈之路6--正则表达式的更多相关文章

Python全栈之路目录结构
基础 1.Python全栈之路-----基础篇 2.Python全栈之路---运算符与基本的数据结构 3.Python全栈之路3--set集合--三元运算--深浅拷贝--初识函数 4.Python全栈 ...
Python全栈之路----目录
Module1 Python基本语法 Python全栈之路----编程基本情况介绍 Python全栈之路----常用数据类型--集合 Module2 数据类型.字符编码.文件操作 Python全栈之路 ...
Python全栈之路----常用模块----hashlib加密模块
加密算法介绍 HASH Python全栈之路----hash函数 Hash,一般翻译做“散列”,也有直接音译为”哈希”的,就是把任意长度的输入(又叫做预映射,pre-image),通过散列 ...
python 全栈之路
目录 Python 全栈之路一. Python 1. Python基础知识部分 2. Python -函数 3. Python - 模块 4. Python - 面对对象 5. Python - 文 ...
Python全栈之路----函数----返回值
函数外部的代码想要获取函数的执行结果,就可以在函数里用return语句,把结果返回. def stu_register(name,age,course='PY',country='CN'): prin ...
Python全栈之路----常用模块----软件开发目录规范
目录基本内容 log #日志目录 conf #配置目录 core/luffycity #程序核心代码目录 #luffycity 是项目名,建议用小写 libs/modules #内置模块 d ...
Python全栈之路----常用模块----re 模块
正则表达式就是字符串的匹配规则,在多数编程语言里都有相应的支持,python里对应的模块是 re. re的匹配语法有以下几种 re.match 从头开始匹配 re.search 匹配包含 re.fin ...
Python全栈之路----常用模块----shutil模块
高级的文件.文件包.压缩包处理模块参考Python之路[第四篇]:模块 #src是原文件名,fdst是新文件名 shutil.copyfileobj(fsrc, fdst[, len ...
Python全栈之路----Python2与Python3
金角大王Alex python 之路,致那些年,我们依然没搞明白的编码 python2与python3的区别 py2 str = bytes 为什么有bytes? 是因为要表示图片.视频等二进制格式 ...

随机推荐

phpunit4.1的干净测试
一般而言,写测试时需要加载一些文件来进行自动加载但在phpunit4.1中只要其中一个测试文件加载了,其他测试文件就不需要再加载
foreach属性-动态-mybatis中使用map类型参数，其中key为列名，value为列值
http://zhangxiong0301.iteye.com/blog/2242723 最近有个需求,就是使用mybatis时,向mysql中插入数据,其参数为map类型,map里面的key为列名, ...
【转载】Hadoop机架感知
转载自http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843015.html 背景分布式的集群通常包含非常多的机器,由于受到机架槽位和交换机 ...
ls
-a, –all 列出目录下的所有文件,包括以 . 开头的隐含文件 -h, –human-readable 以容易理解的格式列出文件大小 (例如 1K 234M 2G) -l 除了文件名之外,还将文件 ...
mybatis 小于号转义
AND lbaq.watch_answer_start_datetime >= #{stm}AND lbaq.watch_answer_end_datetime <= #{etm} 此时报 ...
putty连接ubuntu虚拟机缓慢问题的解决
vmware安装系统使用了ubuntu,安装后每次用PUTTY登录发现都到等很久,经过上网搜索,发现是Ubuntu安全机制导致的连接缓慢问题, 解决方法如下; 1. sudo vim /etc ...
如何修改SVN已提交项目的message log
直接在TortoiseSVN中修改过往日志,会提示: DAV request failed;it's possible that the repository's pre-revprop-change ...
python---PrettyTable
简介 Python通过prettytable模块将输出内容如表格方式整齐输出,python本身并不内置,需要独立安装该第三方库. 安装 pip install PrettyTable #源码安装 wg ...
gerrit 修改前一次提交的方法（转载）
From:http://sinojelly.sinaapp.com/2011/08/git-changes-submitted-by-the-previous-method-pay-special-a ...
使用chrome联调不在同一个域的请求
做前端的,用Ajax获取数据,是常有的事情,同域下自然没问题了,如果是不同域获取数据,浏览器就有个同源策略的限制. Origin * is not allowed by Access-Control- ...

Python全栈之路6--正则表达式