【python】正则表达式

参考资料：http://deerchao.net/tutorials/regex/regex.htm

1、正则表达式基础

2、python 正则表达式

1、正则表达式基础

元字符：

其他语法：

（1）字符转义

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.

例如C:\\Windows 匹配C:\Windows

（2）分组——用小括号来指定子表达式(也叫做分组)

例如：(\d{1,3}\.){3}\d{1,3}是一个简单的IP地址匹配表达式，\d{1,3}匹配1到3位的数字，(\d{1,3}\.){3}匹配三位数字加上一个英文句号(这个整体也就是这个分组)重复3次，最后再加上一个一到三位的数字(\d{1,3})。不幸的是，它也将匹配256.300.888.999这种不可能存在的IP地址。选择，字符类来描述一个正确的IP地址为：((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)。

（3）贪婪与懒惰

当正则表达式中包含能接受重复的限定符时，通常的行为是（在使整个表达式能得到匹配的前提下）匹配尽可能多的字符。以这个表达式为例：a.*b，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

有时，我们更需要懒惰匹配，也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式，只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复，但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧：a.*?b匹配最短的，以a开始，以b结束的字符串。如果把它应用于aabab的话，它会匹配aab（第一到第三个字符）和ab（第四到第五个字符）。

2、python正则表达式

实例:1：（search和match与sub）

# encoding:utf-8

'''

Created on 2014-6-18

@author: Administrator

'''

import re

class Regex(object):

    def regex_match(self):

        pattern = "\w+@\w+.*(\w+)\.com"  # 匹配邮箱

        mt = re.match(pattern, "luosongchao@xxx.yyy.xadad.com")

        if mt:

            print mt.group()

            print mt.groups()

        else:

            print "no match"

    def regex_search(self):

        mt = re.search(r"\Bl(.?){2}", "hello world!")

        if mt:

            print mt.group()

        else:

            print "no match"

    def regex_sub(self):

        ret = re.sub("X", "Mr Smith", "attention:X\n\nDear X,\n")

        print ret

        ret = re.subn("X", "Mr Smith", "attention:X\n\nDear X,\n")

        print ret

if __name__ == "__main__":

    regex = Regex()

    regex.regex_match()

    regex.regex_search()

    regex.regex_sub()

结果：

结论：

match：从字符串开头开始对模式进行匹配，成功返回匹配对象，否则返回None

search：在字符串string中搜索正则表达式模式pattern第一次出现的字符串

sub：把字符串中匹配正则表达式pattern的地方替换为新字符串

实例2：（split）

# encoding:utf-8

'''

Created on 2014-6-18

@author: Administrator

'''

import re

class RegexLs(object):

    """使用正则表达式解析Unix命令ls -al的结果"""

    def __init__(self, path):

        try:

            self.fl = open(path)

        except Exception :

            print "文件" + path + "打开出错！"

    def analy_file(self):

        pattern = "\s+|\t"

        for line in self.fl:

            print re.split(pattern, line.strip())

    def __del__(self):

        self.fl.close()

if __name__ == "__main__":

    path = "ls.txt"

    regex_ls = RegexLs(path)

    regex_ls.analy_file()

其中Unix命令：ls –al 生成结果格式：

结论：

split，根据正则表达式pattern中的分隔符把字符串string分隔为一个列表

实例3：（惰性匹配）

# encoding:utf-8

'''

Created on 2014-6-18

@author: Administrator

'''

from random import randint, choice

from sys import maxint

from time import ctime

from string import lowercase

import re

class RegexExample(object):

    def __init__(self):

        self.doms = ('com', 'edu', 'net', 'org', 'gov')

        self.format_list = []

    def get_string(self):

        for i in range(randint(5, 10)):

            dtint = randint(0, maxint - 1)

            dtstr = ctime(dtint)

            shorter = randint(4, 7)

            em = ""

            for j in range(shorter):

                em += choice(lowercase)

            longer = randint(shorter, 12)

            dn = ""

            for j in range(longer):

                dn += choice(lowercase)

            string = "%s::%s@%s.%s::%d-%d-%d" % (dtstr, em, dn, choice(self.doms), dtint, shorter, longer)

#             print string

            self.format_list.append(string)

    def get_last(self):

        pattern = ".+?(\d+-\d+-\d+)"

        for elem in self.format_list:

            print elem

            ps = re.search(pattern, elem)

            if ps:

                print ps.group(1)

if __name__ == "__main__":

    example = RegexExample()

    example.get_string()

    print "#"*40

    example.get_last()

执行结果：

结论：

get_last()函数使用的pattern=”.*?（\d-\d-\d）”执行的是惰性匹配，其中（\d-\d-\d)为分组

【python】正则表达式的更多相关文章

Python 正则表达式入门（中级篇）
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
Python正则表达式中的re.S
title: Python正则表达式中的re.S date: 2014-12-21 09:55:54 categories: [Python] tags: [正则表达式,python] --- 在Py ...
Python 正则表达式入门（初级篇）
Python 正则表达式入门(初级篇) 本文主要为没有使用正则表达式经验的新手入门所写. 转载请写明出处引子首先说正则表达式是什么? 正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达 ...
python正则表达式re
Python正则表达式: re 正则表达式的元字符有. ^ $ * ? { [ ] | ( )．表示任意字符［］用来匹配一个指定的字符类别,所谓的字符类别就是你想匹配的一个字符集,对于字符集中的字符可 ...
Python正则表达式详解
我用双手成就你的梦想 python正则表达式 ^ 匹配开始 $ 匹配行尾 . 匹配出换行符以外的任何单个字符,使用-m选项允许其匹配换行符也是如此 [...] 匹配括号内任何当个字符(也有或的意思) ...
比较详细Python正则表达式操作指南(re使用)
比较详细Python正则表达式操作指南(re使用) Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式.Python 1.5之前版本则是通过 regex 模块提供 E ...
Python正则表达式学习摘要及资料
摘要在正则表达式中,如果直接给出字符,就是精确匹配. {m,n}? 对于前一个字符重复 m 到 n 次,并且取尽可能少的情况在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2 ...
python正则表达式小例几则
会用到的语法正则字符释义举例 + 前面元素至少出现一次 ab+:ab.abbbb 等 * 前面元素出现0次或多次 ab*:a.ab.abb 等 ? 匹配前面的一次或0次 Ab?: A.Ab 等 ...
Python 正则表达式-OK
Python正则表达式入门一. 正则表达式基础 1.1. 简单介绍正则表达式并不是Python的一部分. 正则表达式是用于处理字符串的强大工具, 拥有自己独特的语法以及一个独立的处理引擎, 效率上 ...
Python天天美味(15) - Python正则表达式操作指南(re使用)(转)
http://www.cnblogs.com/coderzh/archive/2008/05/06/1185755.html 简介 Python 自1.5版本起增加了re 模块,它提供 Perl 风格 ...

随机推荐

[Redis] RDB & AOF
http://my.oschina.net/davehe/blog/174662 rdb - 存在dump.rdb 的二进制文件中 dump 整个db, 数据多的时候,不合适频繁保存,保存的时间间隔应 ...
Qt使用默认浏览器打开网页
#include <QDesktopServices> #include <QUrl> QDesktopServices::openUrl(QUrl("http:// ...
在usercontrol中如何使用验证控件CustomValidator 中的客户端验证
在用户控件中,为一个文本控件添加CustomValidator验证,然后设置CustomValidator 的ClientValidationFunction 属性为客户端的Validate(sour ...
GPS之NMEA协议20160526
NMEA 0183是美国国家海洋电子协会(National Marine Electronics Association)为海用电子设备制定的标准格式.现在已经成为GPS导航设备统一的RTCM(Rad ...
安装wampserver出现“The Program can't start because MSVCR110.dll is missing from your computer. Try reinstalling the program to fix this problem”
问题描述: 今天安装wampserver的时候出现"The Program can't start because MSVCR110.dll is missing from your com ...
MVC中用ajax提交json对象数组
应用场景:在前端用ajax向服务器提交json对象数组,在controller的以对象数组作为函数的参数,提交的json数组直接转为服务器端的对象数组. 如: 要将json对象数组[{Id:1,Nam ...
ZygoteInit 相关分析
上一篇文章我们已经分析到调用com.android.internal.os.ZygoteInit类的main函数. 今天分析一下com.android.internal.os.ZygoteInit类的 ...
贵州大学iPhone、Android（安卓）项目助跑计划！！！
该计划旨在帮助同学们将各种脑中稀奇古怪的想法借助互联网/移动互联网相关的技术变成真实的项目. 谱写你的故事,从此刻开始! 我们帮助你提高编程(Java.C++.Objective-C.Android. ...
禁用DropDownList的Items
可以先看看效果,被禁用的DropDownList的Items已经无法选取与颜色也变为灰色. 刚开始,DropDownList没有接收从网址传来的参数时,它每一个Item都是可以选取的,一旦接收了值.所 ...
Android编程: MVC模式、应用的生命周期
学习内容:Android的应用剖析.MVC模式.应用的生命周期＝＝＝＝Android的应用剖析＝＝＝＝一个Android应用程序会使用如下组件: Android Activities 界面 A ...

【python】正则表达式

【python】正则表达式的更多相关文章

随机推荐

热门专题