本文主要总结一下python正则的一些内置属性的用法。

1. 编译标志：flags

首先来看一下re.findall函数的函数原型：

import re

print('【Output】')

print help(re.findall)

【Output】

Help on function findall in module re:

findall(pattern, string, flags=0)

    Return a list of all non-overlapping matches in the string.

    If one or more groups are present in the pattern, return a

    list of groups; this will be a list of tuples if the pattern

    has more than one group.

    Empty matches are included in the result.

None

可以看出，re.findall函数的最后一个参数是flags，默认值是0，这个falgs就是编译标志，即正则的内置属性，使用不同的编译标志可以让正则产生不同的匹配效果。那么falgs可以取哪些值呢？用help(re)来看一下re的DATA有哪些：

print help(re)

# 【Output】

'''

...

DATA

    DOTALL = 16

    I = 2

    IGNORECASE = 2

    L = 4

    LOCALE = 4

    M = 8

    MULTILINE = 8

    S = 16

    U = 32

    UNICODE = 32

    VERBOSE = 64

    X = 64

...

'''

下面试验一下上面的每一种编译标志的作用。

2. DOTALL, S

使"."匹配包括"\n"在内的所有字符（"."默认是不能匹配"\n“的），举例：

p = r'me.com'

print '【Output】'

print re.findall(p,'me.com')

print re.findall(p,'me\ncom')

print re.findall(p,'me\ncom',re.DOTALL)

print re.findall(p,'me\ncom',re.S)

【Output】

['me.com']

[]

['me\ncom']

['me\ncom']

注：使用re.S模式时，正则表达式不能是编译后的正则（re.compile()函数），否则会出错。

使用re.S模式时，"^"字符变为文档开始符而不再是行开始符，"$"字符变为文档结束符而不再是行结束符。

3. IGNORECASE, I

使匹配对大小写不敏感，举例：

p = r'a'

print '【Output】'

print re.findall(p,'A')

print re.findall(p,'A',re.IGNORECASE)

print re.findall(p,'A',re.I)

【Output】

[]

['A']

['A']

4. LOCALE, L

本地化匹配，使用了该编译标志后，\w,\W,\b,\B,\s,\S等字符的含义就和本地化有关了。

5. MULTILINE, M

开启多行匹配，影响"^"和"$"。举例：

s = """

aa bb cc

bb aa

aa ccd

"""

p1 = r'^aa'

p2 = r'cc$'

print '【Output】'

print re.findall(p1,s)

print re.findall(p1,s,re.M)

print re.findall(p2,s)

print re.findall(p2,s,re.M)

【Output】

[]

['aa', 'aa']

[]

['cc']

6. VERBOSE, X

开启正则的多行写法，使之更清晰。举例：

p = r"""

\d{3,4}

-?

\d{7,8}

"""

tel = '010-12345678'

print '【Output】'

print re.findall(p,tel)

print re.findall(p,tel,re.X)

【Output】

[]

['010-12345678']

7. UNICODE, U

以unicode编码进行匹配，比如用'\s'匹配中文全角的空格符：\u3000，不加该编译标志和加该编译标志的效果对比如下：

s = u'\u3000'

p = r'\s'

print '【Output】'

print re.findall(p,s)

print re.findall(p,s,re.U)

【Output】

[]

[u'\u3000']

8. 如何同时使用多个编译标志？

有时候可能同时要用到多种编译标志，比如我既想在匹配的时候忽略大小写，又想让"."匹配换行符号"\n"，前面的方式貌似不行了，那怎么办呢？

方法：在正则的任意位置加上这句即可：(?iLmsux)

其中i对应re.I，L对应re.L，m对应re.M，s对应re.S，u对应re.U，x对应re.X。举例：

s = 'Abc\ncom'

p = r'abc.com(?is)'  # 注：编译标志(?is)可以加在正则的任意位置，这里加在了末尾

print '【Output】'

print re.findall(p,s)

【Output】

['Abc\ncom']

随机推荐

Windows下RabbitMQ安装，部署，配置
安装部署 1.当前环境以及参考资料出处部署环境:windows server 2008 r2 enterprise 官方安装部署文档:http://www.rabbitmq.com/install- ...
win7(64位)+vs2008配置Directshow
参考链接:http://zhuyanfeng.com/archives/1663 PC环境:win7 64bit + vs2008 1.下载64位的win7 SDK2.安装过程中遇到错误(必须要卸载v ...
IOS7--javascriptcore中jscontext使用要注意的一点
在公司一个项目中,用到了highchart做图表显示的组件,这就要用到了javascriptcore,代码就不上了,说说原理. 需求是这样的,通过http请求server csv格式的数据,然后解析, ...
python解释器的分类及特点
CPython 当从Python官方网站下载并安装好Python2.7后,就直接获得了一个官方版本的解释器:Cpython,这个解释器是用C语言开发的,所以叫CPython,在命名行下运行python ...
java-通过 HashMap、HashSet 的源码分析其 Hash 存储机制
通过 HashMap.HashSet 的源码分析其 Hash 存储机制集合和引用就像引用类型的数组一样,当我们把 Java 对象放入数组之时,并非真正的把 Java 对象放入数组中.仅仅是把对象的 ...
fis3 静态文件发布线上
PMS上线及安装文档目录一:安装环境1 1.1安装Node和NPM 1 1.2安装FIS3 1 1.3安装fis3压缩包 1 二:上线更新2 1:发布网站 2 2:寻找fis3 文件 2 3:复制 ...
《从零开始学Swift》学习笔记（Day 56）——命名规范Swift编码规范之命名规范
原创文章,欢迎转载.转载请注明:关东升的博客程序代码中到处都是自己定义的名字,取一个有样并且符合规范的名字非常重要. 命名方法很多,但是比较有名的,广泛接受命名法有: 匈牙利命名,一般只是命名变量, ...
jpa单向一对多关联映射
如果在一的@OneToMany有@manyToOne则是双向一对多关联,如果在多的那面没有@manyToOne关联则是单向一对多关联 class和student是一对多的关系表结构 student ...
css3动画效果：2 简易动画
1. transition动画:鼠标移上去旋转放大关键点-- :hover \ transform: scale(*) rotate(*deg) cards 2.关键帧动画: 位移动画 t ...
iis express worker process已停止工作
以管理员方式运行命令提示符工具,然后执行以下语句 netsh winsock reset 重启电脑

$python正则表达式系列（3）——正则内置属性