python正则表达式基础

简单介绍

正则表达式并不是python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法及一个独立的处理引擎,效率上可能不如str自带的方法,但功能十分强大。在提供正则表达式的语言里,正则表达式的语法是一样的,区别只在于不同的贬称语言实现支持的语法数量不同;但不用担心,不被支持的语法通常是不常用的的部分。

正则表达式进行匹配的流程

正则表达式引擎“编译”<正则表达式>得到正则表达式对象(正则表达式引擎编译表达式字符串得到的对象,包含应如何进行匹配的信息),正则表达式对象需要匹配的文本进行"匹配",生成匹配结果(正则表达式对象对文本进行匹配后得到的结果,包含了这次成功匹配的信息,如匹配到的字符串、分组以及在文本中的索引)。

匹配大概过程

正则表达式的大致匹配过程是:一次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。如果表达式中有量词或边界,这个过程会稍微有些不同,但也是很好理解的,多看实例多使用几次就能明白。

python支持的正则表达式元字符和语法

语法         说明                                                表达实例        完整匹配的字符串
一般字符 匹配自身 abc abc
. 匹配任意一个字符(除"\n"外) a.c abc
\ 转义字符, 使后一个字符改变原来的意思 a\.c a.c
[...] 字符集(字符类)对应位置可以是字符集中任意一个字符 a[bcd]e abe ace ade
a|b 字符a或字符b <-等价于-> [ab]
[0-9] 数字0-9其中一个字符
[a-z] 小写字母a-z其中一个字符
[A-Z] 大写字母A-Z其中一个字符
[^m] 不是字符m
---------------------------------------------------------------------------------------------------
\d 数字:[0-9] a\dc a1c
\D 非数字:[^\d] a\Dc abc
\s 空白字符:[<空格>\t\r\n\f\v] a\sc a c
\S 非空白字符:[^\s] a\Sc abc
\w 单词字符:[A-Za-z0-9] a\wc abc
\W 非单词字符:[^\w] a\Wc a c
-------------------------数量词(重复)------------------------------------------------------
* 匹配前一个字符0次或无限次(>=0) abc* ab abc abcc abccc ...
+ 匹配前一个字符1次或无限次(>=1) abc+ abc abcc abccc ...
? 匹配前一个字符0次或1次 abc? ab abc
{m} 匹配前一个字符m次 ab{2}c abbc
{m,n} 匹配前一个字符m至n次(m<= >=n); m和n可以省略 ab{1,2}c abc abbc
*? +? ?? {m,n}? 使* + ? {m,n}变成非贪婪模式
------------------------------边界匹配------------------------------------------------------
^ 匹配字符串开头(在多行模式中匹配每一行的开头)
$ 匹配字符串末尾(在多行模式中匹配每一行的末尾)
\A 仅匹配字符串开头 这几种匹配模式有点疑惑??????
\Z 仅匹配字符串末尾
\b 匹配\w和\W之间
\B [^\b]
------------------------------逻辑、分组------------------------------------------------------
| |代表左右表达式任意匹配一个(类似短路或,先匹配左边) abc|def abc def
(...) 被括起来的表达式将作为分组, 从表达式左边开始每遇到 (abc){2} abcabc
一个分组的左括号'(',编号+1;分组表达式作为一个整体, a(123|456)c a123c a456c
可以后接数量词.表达式中的|仅在该组中有效
(?P<name>...)分组, 除了原有的编号外再指定一个额外的别名 (?P<id>abc){2} abcabc
\<number> 引用编号为<number>的分组匹配到的字符串 (\d)abc\1 1abc1 5abc5
(?P=name) 引用别名为<name>的分组匹配到的字符串 (?P<id>\d)abc(?P=id) 1abc1 5abc5
------------------------------特殊构造(不作为分组)---------------------------------------------------
(?:...) (...)的不分组版本, 用于使用'|'或后接数量词 (?:abc){2} abcabc
(?iLmsux) iLmsux的每个字符代表一个匹配模式, 只能用在正则的开头(?i)abc Abc
(?#...) #后的内容作为注释被忽略 abc(?#comment)123 abc123
(?=...) 之后的字符串内容需要匹配表达式才能成功匹配,不消耗字符串内容 a(?=\d) 后面是数字的a
(?!...) 之后的字符串内容需要不匹配表达式才能成功匹配,不消耗字符串内容a(?!\d) 后面不是数字的a
(?<=...) 之前的字符串内容需要匹配表达式才能成功匹配,不消耗字符串内容(?<=\d)a 前面不是数字的a
(?<!...) 之前的字符串内容需要不匹配表达式才能成功匹配,不消耗字符串内容(?<!\d)a 前面不是数字的a

.codearea{ color:black; background-color:white; line-height:18px; border:1px solid #4f81bd; margin:0; width:auto !important; width:100%; overflow:auto; text-align:left; font-size:12px; font-family: "Courier New","Consolas","Fixedsys","BitStream Vera Sans Mono", courier,monospace,serif}
.codearea pre{ color:black; line-height:18px; padding:0 0 0 12px !important; margin:0em; background-color:#fff !important}
.linewrap pre{white-space:pre-wrap; white-space:-moz-pre-wrap; white-space:-pre-wrap; white-space:-o-pre-wrap; word-wrap:break-word; word-break:normal}
.codearea pre.alt{ background-color:#f7f7ff !important}
.codearea .lnum{color:#4f81bd;line-height:18px}

 

 

 

参考:

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

http://www.runoob.com/python/python-reg-expressions.html

http://www.cnblogs.com/PythonHome/archive/2011/11/19/2255459.html

http://www.cnblogs.com/kaituorensheng/p/3489492.html

Python标准库01 正则表达式(re包)的更多相关文章

  1. 转 Python标准库01 正则表达式 (re包)

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 我将从正则表达式开始讲Python的标准库.正则表达式是文字处理中常用的工具,而且 ...

  2. Python标准库01正则表达式

    在学习网络爬虫的过程中,需要抓取网页的评论数,涉及到正则表达式,便顺便看了看.正则表达式是文字处理中常用的工具. 1正则表达式的常用字符串 .       任何单个字符 [] 字符集对单个字符给出取值 ...

  3. Python标准库07 信号 (signal包,部分os包)

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 在了解了Linux的信号基础之后,Python标准库中的signal包就很容易学习 ...

  4. Python标准库06 子进程 (subprocess包)

    这里的内容以Linux进程基础和Linux文本流为基础.subprocess包主要功能是执行外部的命令和程序.比如说,我需要使用wget下载文件.我在Python中调用wget程序.从这个意义上来说, ...

  5. Python -- 标准库 文件管理 (部分os包,shutil包)

    在操作系统下,用户可以通过操作系统的命令来管理文件,参考linux文件管理相关命令.Python标准库则允许我们从Python内部管理文件.相同的目的,我们有了两条途径.尽管在Python调用标准库的 ...

  6. Python --标准库 存储对象 (pickle包,cPickle包)

    在之前对Python对象的介绍中 (面向对象的基本概念,面向对象的进一步拓展),我提到过Python“一切皆对象”的哲学,在Python中,无论是变量还是函数,都是一个对象.当Python运行时,对象 ...

  7. Python标准库 re

    正则表达式 regular expression 用来匹配一系列符合句法规则的字符串,是一门独立的小型的语言,如果你了解类Unix系统,那么你对正则表达式就一定不陌生.正则表达式的概念最初是由Unix ...

  8. python标准库00 学习准备

    Python标准库----走马观花 python有一套很有用的标准库.标准库会随着python解释器一起安装在你的电脑上的.它是python的一个组成部分.这些标准库是python为你准备的利器,可以 ...

  9. Python标准库——走马观花

    作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! Python有一套很有用的标准库(standard library).标准库会随着 ...

随机推荐

  1. Weex 环境搭建(win7)

    安装 Node.js node.js需要4.0+ 百度云下载地址http://pan.baidu.com/s/1o84g6c6 官网下载地址https://nodejs.org/en/ 安装教程请看这 ...

  2. C# 如何实现带消息数的App图标

    上次写了一篇博文,但是每次更新图标时,桌面会闪烁(刷新),有博友说人家的图标都不会刷新,还能动画.我想了一下,如果要达到这个效果,可以用Form来实现,就是在Form中嵌入一个图片,然后用一个labe ...

  3. 12款响应式的 jQuery 旋转木马(传送带)插件

    在企业网站,作品集网站,电子商务网站或任何其他类型的网站内容显示图片可以使用 jQuery 旋转木马(传送带)插件来实现. jQuery 旋转木马插件允许开发人员以水平或垂直的方式显示内容,视频和图像 ...

  4. Spring------概述

    Spring框架------概述: spring是j2ee应用程序框架,是轻量级的IOC和AOP的容器框架,主要是针对JAVABean的生命周期进行管理的轻量级容器,可以单独使用,也可以和Struts ...

  5. 使用Autodesk OAuth服务在用户认证的示例

    大家知道以Autodesk 360为核心的Autodesk 云服务已经陆续发布,ReCap API.InfraWorks API和PLM 360 REST API已经开始的Pilot项目供第三方开发者 ...

  6. 获取设备的mac地址可靠的方法

    参考自:http://www.open-open.com/lib/view/open1433406847322.html /** * 获取设备的mac地址 * * @param ac * @param ...

  7. xmpp整理笔记:用户网络连接及好友的管理

    xmpp中的用户连接模块包括用户的上线与下线信息展现,用户登录,用户的注册: 好友模块包括好友的添加,好友的删除,好友列表的展示. 在xmpp中 负责数据传输的类是xmppStream,开发的过程中, ...

  8. 操作系统开发系列—13.g.操作系统的系统调用 ●

    在我们的操作系统中,已经存在的3个进程是运行在ring1上的,它们已经不能任意地使用某些指令,不能访问某些权限更高的内存区域,但如果一项任务需要这些使用指令或者内存区域时,只能通过系统调用来实现,它是 ...

  9. phonegap创建的ios项目推送消息出现闪退现象

    使用phonegap创建的ios项目,推送消息时,当程序在前台运行或者在后台运行状态下,推送消息过来,可以解析并且跳转: 但是在程序从后台退出的状态下,当消息推送过来的时候,点击通知栏,打开程序,程序 ...

  10. iOS 打电话、发短信、邮件、打开网址、调用应用等合集

    iOS中的很多功能都是非常简单的,几行代码就搞定了,比如打电话.打开网址.发邮件.发短信等,这里总结几个比较常用的: 1.打电话 方式一:最简单最直接的方式:直接跳到拨号界面 NSURL *url = ...