13、编译的标志

可以用re.I、re.M等参数,也可以直接在表达式中添加"?(iLmsux)"标志

*s:单行,“.”匹配包括换行符在内的所有字符

*i:忽略大小写

*L:让"\w"能匹配当地字符,貌似对中文支持不好

*m:多行

*x:忽略多余的空白字符,让表达式更易阅读

*u:Unicode

例子:

>>> re.findall(r"[a-z]+","%123Abc%45xyz&")
['bc', 'xyz']
>>> re.findall(r"[a-z]+","%123Abc%45xyz&",re.I)
['Abc', 'xyz']
>>>
>>> re.findall(r"(?i)[a-z]+","%123Abc%45xyz&",re.I)
['Abc', 'xyz']

更好的格式:

>>> pattern=r"""
... (\d+) #number
... ([a-z]+) #letter
... """
>>>
>>> re.findall(pattern,"%123Abc\n%45xyz&",re.i | re.S |re.x)
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'module' object has no attribute 'i'
#由错误可见是大写
>>> re.findall(pattern,"%123Abc\n%45xyz&",re.I | re.S |re.X)
[('', 'Abc'), ('', 'xyz')]
>>>

组操作

命名组:(?P<name>...)

>>> for m in re.finditer(r"(?P<digit>(\d+))(?P<letter>([a-z]+))","%123Abc%45xyz&",re.I):
... print m.groupdict()
...
{'digit': '', 'letter': 'Abc'}
{'digit': '', 'letter': 'xyz'}

无捕获组:(?:...),作为匹配条件,但不返回:

>>> for m in re.finditer(r"(?:(\d+))(?P<letter>([a-z]+))","%123Abc%45xyz&",re.I):
... print m.groupdict()
...
{'letter': 'Abc'}
{'letter': 'xyz'}

反向引用:\<number>或者(?P=name),引用前面的组:

>>> for m in re.finditer(r"<(\w)>\w+</(\1)>","%<a>123Abc</a>%<b>45xyz</b>&%"):
... print m.group()
...
<a>123Abc</a>
<b>45xyz</b>
>>> for m in re.finditer(r"<(?P<tag>\w)>\w+</(?P=tag)>","%<a>123Abc</a>%<b>45xyz</b>&%"):
... print m.group()
...
<a>123Abc</a>
<b>45xyz</b>

正声明(?=...):组内容必须出现在右侧,不返回

负声明(?!...):组内容不能出现在右侧,不返回

反向正声明(?<=):组内容必须出现在左侧,不返回

反向负声明(?<!):组内容不能出现左侧,不返回

>>> for m in re.finditer(r"\d+(?=[ab])","%123Abc%45xyz%780b&",re.I):
... print m.group()
...
123
780
>>> for m in re.finditer(r"(?<!\d)[a-z]{3,}","%123Abc%45xyz%bysc&",re.I):
... print m.group()
...
bysc

修改

split:用pattern做分割符切割字符串。如果用“(pattern)”,那么分隔符也会返回。

>>> re.split(r"\W","abc,123,x")
['abc', '', 'x']
>>> re.split(r"(\W)","abc,123,x")
['abc', ',', '', ',', 'x']
#将pattern使用括号引用起来,也返回分隔符
split(pattern, string, maxsplit=0)
Split the source string by the occurrences of the pattern,
returning a list containing the resulting substrings.

sub:替换子串,可指定替换次数:

>>> re.split(r"(\W)","abc,123,x")
['abc', ',', '', ',', 'x']
>>> re.sub(r"[a-z]+","*","abc,123,x")
'*,123,*'
>>>
>>> re.sub(r"[a-z]+","*","abc,123,x",1)
'*,123,x'
sub(pattern, repl, string, count=0)
Return the string obtained by replacing the leftmost
non-overlapping occurrences of the pattern in string by the
replacement repl. repl can be either a string or a callable;
if a string, backslash escapes in it are processed. If it is
a callable, it's passed the match object and must return
a replacement string to be used.

subn()和sub()差不多,不过返回"(新字符串,替换次数)":

>>> re.subn(r"\W","*","abc,123,x")
('abc*123*x', 2)

还可以将替换字符串改成函数,以便替换成不同的结果:

>>> def repl(m):
... print m.group()
... return "*" *len(m.group())
...
>>> re.subn(r"[a-z]+",repl,"abc,123,x")
abc
x
('***,123,*', 2)
>>>

Python之re正则模块二的更多相关文章

  1. Python自动化开发 - 常用模块(二)

    本节内容 1.shutil模块 2.shelve模块 3.xml处理模块 4.configparser模块 5.hashlib模块 6.subprocess模块 7.re模块 一.shutil模块 高 ...

  2. python中常用的模块二

    一.序列化 指:在我们存储数据的时候,需要对我们的对象进行处理,把对象处理成方便存储和传输的数据格式,这个就是序列化, 不同的序列化结果不同,但目的是一样的,都是为了存储和传输. 一,pickle.可 ...

  3. python之路----常用模块二

    collections模块 在内置数据类型(dict.list.set.tuple)的基础上,collections模块还提供了几个额外的数据类型:Counter.deque.defaultdict. ...

  4. Python基础-re正则模块

    一.简介: 正则表达式:是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过re模块实现,正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行. 二.字 ...

  5. python的logging日志模块(二)

    晚上比较懒,直接搬砖了. 1.简单的将日志打印到屏幕   import logging logging.debug('This is debug message') logging.info('Thi ...

  6. Python之re正则模块

    正则表达式可以帮助我们更好的描述复制的文本格式,可以更好地利用它们对文本数据进行检索.替换.提取和修改操作. http://www.cnblogs.com/huxi/archive/2010/07/0 ...

  7. Python 基础之正则之二 匹配分组,正则相关函数及表达式修饰符

    四.匹配分组   [元字符] 分组符号 a|b   匹配字符a 或 字符b  (如果两个当中有重合部分,把更长的那个放前面) (ab)   匹配括号内的表达式 ,将()作为一个分组 num  引用分组 ...

  8. 进击的Python【第五章】:Python的高级应用(二)常用模块

    Python的高级应用(二)常用模块学习 本章学习要点: Python模块的定义 time &datetime模块 random模块 os模块 sys模块 shutil模块 ConfigPar ...

  9. 小白的Python之路 day5 re正则模块

    re正则模块 一.概述 就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,要讲他的具体用法要讲一本书!它内嵌在Python中,并通过 re 模块实现.你可以为想要匹配的相应字符串 ...

随机推荐

  1. 使用OLAMISDK实现一个语音输入数字进行24点计算的iOS程序

    前言 在目前的软件应用中,输入方式还是以文字输入方式为主,但是语音输入的方式目前应用的越来越广泛.这是一个利用 Olami SDK 编写的一个24点iOS程序,是通过语音进行输入. Olami SDK ...

  2. jenkins、ant、selenium、testng搭建自动化测试框架

    如果在你的理解中自动化测试就是在eclipse里面讲webdriver的包引入,然后写一些测试脚本,这就是你所说的自动化测试,其实这个还不能算是真正的自动化测试,你见过每次需要运行的时候还需要打开ec ...

  3. 初学python之,IDLE安装

    首先新手上路,写的第一篇博客,希望大家不要吐槽. 1.首先在python官网下载最新python版本 https://www.python.org/(注意根据自己的操作系统来选版本) 安装很简单傻瓜式 ...

  4. 【转】C语言中动态分配数组

    原文地址:http://blog.chinaunix.net/uid-11085590-id-2914577.html 如何动态的定义及使用数组呢?记得一般用数组的时候都是先指定大小的.当时问老师,老 ...

  5. Tomcat 笔记-配置虚拟目录

    ,默认情况下,只有webapps下的目录才能被Tomcat自动管理成一个web站点,把web站点的目录分散到其他磁盘管理就需要配置虚拟目录.把web应用所在目录交给web服务器管理,这个过程称之为虚拟 ...

  6. Zookeeper 笔记-应用场景

    应用场景:数据发布,订阅:分布式应用配置项:分布式计数器:统一命名服务:状态同步服务:集群管理:Master选举:分布式锁:定时任务争夺:分布式队列:分布式协调通知 特点:顺序一致性,原子性,单一视图 ...

  7. 237. Delete Node in a Linked List(leetcode)

    Write a function to delete a node (except the tail) in a singly linked list, given only access to th ...

  8. JAVA基础知识总结:九

    二.面向对象特性之继承 1.什么是继承? 如果两个或者两个以上的类具有相同的属性和方法,我们可以抽取一个类出来,在抽取出来的类中声明各个类中公共的部分 被抽取出来的类-------父类,基类,超类 两 ...

  9. LeetCode 106. Construct Binary Tree from Inorder and Postorder Traversal (用中序和后序树遍历来建立二叉树)

    Given inorder and postorder traversal of a tree, construct the binary tree. Note:You may assume that ...

  10. 脱壳第三讲,UPX压缩壳,以及补充壳知识

    脱壳第三讲,UPX压缩壳,以及补充壳知识 一丶什么是压缩壳.以及壳的原理 在理解什么是压缩壳的时候,我们先了解一下什么是壳 1.什么是壳 壳可以简单理解为就是在自己的PE文件中包含了代码.而有不影响我 ...