re模块(正则表达式)

 

一、什么是正则表达式

正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法。或者说:正则就是用来描述一类事物的规则。(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。

二、正则表达式基础

字符组 : [字符组]

在同一个位置可能出现的各种字符组成了一个字符组,在正则表达式中用[]表示 字符分为很多类,比如数字、字母、标点等等。

1 [1]                       匹配1
2 [123]        匹配1、2、3
3 [0-9]       匹配任意一个数字
4 [a-z]       匹配任意一个小写字母
5 [A-Z]       匹配任意一个大写字母
6 [A-Za-z]      匹配任意一个字母

示例如下:

1 print(re.findall('[1]','Zll5201314'))       #['1', '1']
2 print(re.findall('[123]','Zll5201314'))     #['2', '1', '3', '1']
3 print(re.findall('[0-9]','Zll5201314'))     #['5', '2', '0', '1', '3', '1', '4']
4 print(re.findall('[a-z]','Zll5201314'))     #['l', 'l']
5 print(re.findall('[A-Z]','Zll5201314'))     #['Z']
6 print(re.findall('[a-zA-Z]','Zll5201314'))  #['Z', 'l', 'l']
7 print(re.findall('[A-Za-z0-3]','Zll5201314')) #['Z', 'l', 'l', '2', '0', '1', '3', '1']

元字符:

 1 .    匹配除换行符以外的任意字符
 2 \w    匹配字母或者数字或者下划线
 3 \s     匹配任意空白字符
 4 \d     匹配数字
 5 \n     匹配换行符
 6 \t    匹配制表符tab
 7 \b    匹配一个单词的结尾
 8 ^    匹配字符串的开始
 9 $    匹配字符串的结尾
10 \W   匹配非字母或下划线或数字
11 \D   匹配非数字
12 \S   匹配非空白符
13 |    匹配|前或者后的内容
14 ()    匹配括号内的表达式,也表示一个组

示例如下:

 1 print(re.findall('.','love_u 520')) #['l', 'o', 'v', 'e', '_', 'u', ' ', '5', '2', '0']
 2 print(re.findall('\w','love_u 520')) #['l', 'o', 'v', 'e', '_', 'u', '5', '2', '0']
 3 print(re.findall('\s','love_u 520')) #[' ']
 4 print(re.findall('\d','love_u 520')) #['5', '2', '0']
 5 print(re.findall('\n','love_u 520')) #[]
 6 print(re.findall('\b','love_u 520')) #[]
 7 print(re.findall('^l','love_u 520')) #['l']
 8 print(re.findall('520$','love_u 520'))#['520']
 9 print(re.findall('\W','love_u 520')) #[' ']
10 print(re.findall('\D','love_u 520')) #['l', 'o', 'v', 'e', '_', 'u', ' ']
11 print(re.findall('\S','love_u 520')) #['l', 'o', 'v', 'e', '_', 'u', '5', '2', '0']
12 print(re.findall('love|u','love_u 520')) #['love', 'u']

量词:

1 *   重复零次或者多次
2 +  重复1次或者多次
3 ?  重复零次或者一次
4 {n}  重复n次
5 {n,}  重复n次或者更多次
6 {n,m}  重复n到m次

示例如下:

1 print(re.findall('5*','555 5')) #['555', '', '5', '']
2 print(re.findall('5+','555 5')) #['555', '5']
3 print(re.findall('5?','555 5')) #['5', '5', '5', '', '5', '']
4 print(re.findall('5{2,3}','555 5')) #['555']
5 print(re.findall('5{2}','555 5')) #['55']
6 print(re.findall('5{3}','555 5')) #['555']

三、常见的正则表达式应用

1 手机号(国内):^[1-9][3478]\d{9}
2 电话号(国内):[0-9-()()]{7,18}
3 邮编:\d{6}
4 QQ:[1-9]([0-9]{5,11})
5 身份证号:\d{17}[\d|x]|\d{15}
6 邮箱:\w[-\w.+]*@([A-Za-z0-9][-A-Za-z0-9]+\.)+[A-Za-z]{2,14}
7 网址:^((https|http|ftp|rtsp|mms)?:\/\/)[^\s]+
8 日期:\d{4}(\-|\/|.)\d{1,2}\1\d{1,2}
9 用户名:[A-Za-z0-9_\-\u4e00-\u9fa5]+

#正则表达式在线测试网址“http://tool.chinaz.com/regex/”

四、python中如何使用正则表达式

findall()方法:

此方法是在整个字符串中匹配指定字符或者字符串,并且将所有满足条件的结果返回到一个列表中,如下:

1 ret = re.findall('a','abac')
2 print(ret)  #['a', 'a']
3 ret = re.findall('ab','abac') 4 print(ret)  #['ab']

search()方法:

此方法是在整个字符串中查找满足匹配条件的字符或者字符串,一旦找到一个就不再继续查找,并返回包含查找值的对象,可以用.group()方法进行查看,如下:

1 ret = re.search('a','abac')
2 print(ret.group())  #a

match()方法:

此方法是用来从开头位置查找是否满足匹配条件,如果没有就会返回None,如果有,则会返回一个包含查找值的对象,可以用group()方法进行查看,如下:

1 ret = re.match('a','abac')
2 print(ret.group())  #a
3
4 ret = re.match('b','abac')
5 print(ret)  #None

split()方法:

此方法用来对一个字符串进行切分,如下:

1 ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
2 print(ret)  # ['', '', 'cd']

sub()以及subn()方法:

1 ret = re.sub('\d', '*', 'a1b2c3')#将数字替换成'*',默认替换所有的数字
2 print(ret) #a*b*c*
3
4 ret = re.sub('\d', '*', 'a1b2c3', 1)#将数字替换成'*',参数1表示只替换1个
5 print(ret) #a*b2c3
6
7 ret = re.subn('\d', '*', 'a1b2c3')#将数字替换成'*',返回一个元祖(替换后的字符串,替换的次数)
8 print(ret) #('a*b*c*', 3)

compile()方法:

此方法是先把正则表达式编译好,以方便多次使用,如下:

1 obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象,规则要匹配的是3个数字
2 ret = obj.search('abc123eeee') #正则表达式对象调用search,参数为待匹配的字符串
3 print(ret.group())  #结果 : 123
finditer()方法:
此方法与findall类似,只不过返回的不是一个列表,而是一个生产器,可以用next(iter).group()来查看里面的值,如下:
1 ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
2 print(ret)  # <callable_iterator object at 0x10195f940>
3 print(next(ret).group())  #查看第一个结果
4 print(next(ret).group())  #查看第二个结果
5 print([i.group() for i in ret])  #查看剩余的左右结果

re 模块 正则表达式的更多相关文章

  1. Python中的re模块--正则表达式

    Python中的re模块--正则表达式 使用match从字符串开头匹配 以匹配国内手机号为例,通常手机号为11位,以1开头.大概是这样13509094747,(这个号码是我随便写的,请不要拨打),我们 ...

  2. 【Python开发】Python之re模块 —— 正则表达式操作

    Python之re模块 -- 正则表达式操作 这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式 ...

  3. sys,os,模块-正则表达式

    # *__conding:utf-8__* """"我是注释""" sys,os模块 import sysimport os pr ...

  4. Python之re模块 —— 正则表达式操作

    这个模块提供了与 Perl 相似l的正则表达式匹配操作.Unicode字符串也同样适用. 正则表达式使用反斜杠" \ "来代表特殊形式或用作转义字符,这里跟Python的语法冲突, ...

  5. Python re模块 正则表达式

    1 简介 就其本质而言,正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 C ...

  6. s14 第5天 时间模块 随机模块 String模块 shutil模块(文件操作) 文件压缩(zipfile和tarfile)shelve模块 XML模块 ConfigParser配置文件操作模块 hashlib散列模块 Subprocess模块(调用shell) logging模块 正则表达式模块 r字符串和转译

    时间模块 time datatime time.clock(2.7) time.process_time(3.3) 测量处理器运算时间,不包括sleep时间 time.altzone 返回与UTC时间 ...

  7. Python3 re模块(正则表达式)

    一:什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则. (在Python中)它内嵌在Python中,并通过r ...

  8. re模块正则表达式

    regular expression / regex / RE 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配.Python 自1.5版本起增加了re 模块,它提供 ...

  9. re模块 - 正则表达式 疏理(一)

    在网上总是很难找到令自己比较满意的,关于正则表达式的文章.所以决定自己来总结一波,并配上相应的示例. 正则表达式:定义了规则,用来字符串处理. 用途: 1.匹配 - 符合规则的字符串,则认为匹配了. ...

随机推荐

  1. 实现我博客旁边的线条效果 html canvas-nest.js 源码

    canvas-nest.js 这个js文件可以用来实现炫酷的线条与鼠标进行交互的功能,具体效果如图所示 js具体源码如下: /** * Copyright (c) 2016 hustcc * Lice ...

  2. JavaWeb之ssm框架整合,用户角色权限管理

    SSM框架整合 Spring SpringMVC MyBatis 导包: 1, spring 2, MyBatis 3, mybatis-spring 4, fastjson 5, aspectwea ...

  3. 使用node的fs读取文件

    啊啊啊啊啊啊啊啊啊啊啊啊啊啊,被node的fs坑了一下午,我又爬上来了,要坚强的笑着活下去,嗯,没毛病老铁. let http = require('http'); let fs = require( ...

  4. 【NOIP模拟】从我背后出现

    Description 给定n个点m条边的无向连通图,对于每条边求出强制选这条边后的最⼩⽣成树⼤⼩. \(n\leq 10^5,m\leq 2*10^5\) Input Format 第 1 行包含两 ...

  5. Wincc flexable的IO域组态

    1.题目 2.新建三个变量 3.组态画面,添加IO域1 1)常规设置 2)属性设置 4.组态IO域2 1)常规项 2)属性设置 5.组态第三个IO域 1)常规设置 2)属性设置 6.此外可以设置动画 ...

  6. bzoj 2727: [HNOI2012]双十字

    Description 在C 部落,双十字是非常重要的一个部落标志.所谓双十字,如下面两个例子,由两条水平的和一条竖直的"1"线段组成,要求满足以下几个限制: 我们可以找到 5 个 ...

  7. cat/tac/more/less 命令详解

    cat:(http://www.cnblogs.com/peida/archive/2012/10/30/2746968.html) *cat主要有三大功能:1.一次显示整个文件:cat filena ...

  8. Python Pandas 库的使用例子

    主要在jupyter notebook里面熟悉这个库的使用,它的安装方法与实现,可自行搜索. Pandas是一个优秀的数据分析工具,官网:http://pandas.pydata.org/ 相关的库使 ...

  9. Webpack 2 视频教程 006 - 使用快捷方式进行编译

    原文发表于我的技术博客 这是我免费发布的高质量超清「Webpack 2 视频教程」. Webpack 作为目前前端开发必备的框架,Webpack 发布了 2.0 版本,此视频就是基于 2.0 的版本讲 ...

  10. 2、公司部门的组成 - CEO之公司管理经验谈

    今天讲讲公司部门的组成.公司部门一般是根据公司业务来进行划分的,IT企业和其它企业的部门划分有一定的区别.企业部门的划分还是比较重要的,部门主要明确各部门所具有的自己的职责.这里对IT企业的部门做了一 ...