python基础学习14----正则表达式

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

在python中正则表达式被封装到了re模块，通过引入re模块来使用正则表达式

re模块中有很多正则表达式处理函数，首先用findall函数介绍基本基本字符的含义

元字符有：. \ * + ? ^ $ | {} [] ()

findall函数

遍历匹配，可以获取字符串中所有匹配的字符串，返回一个列表

. 匹配任意除换行符"\n"外的字符

import re

temp=re.findall("a.c","abcdefagch")

print(temp)#['abc', 'agc']

* 匹配前一个字符0或多次

temp=re.findall("a*b","abcaaaaabcdefb")

print(temp)#['ab', 'aaaaab', 'b']

+ 匹配前一个字符1次或无限次

temp=re.findall("a+b","abcaaaaabcdefb")

print(temp)#['ab', 'aaaaab']

? 匹配前一个字符0次或1次

temp=re.findall("a?b","abcaaaaabcdefb")

print(temp)#['ab', 'ab', 'b']

^ 匹配字符串开头。在多行模式中匹配每一行的开头

temp=re.findall("^ab","abcaaaaabcdefb")

print(temp)#['ab']

$ 匹配字符串末尾，在多行模式中匹配每一行的末尾

temp=re.findall("ab$","abcaaaaabcdefab")

print(temp)#['ab']

| 或。匹配|左右表达式任意一个，从左到右匹配，如果|没有包括在()中，则它的范围是整个正则表达式

temp=re.findall("abc|def","abcdef")

print(temp)#['abc', 'def']

{} {m}匹配前一个字符m次，{m,n}匹配前一个字符m至n次，若省略n，则匹配m至无限次

temp=re.findall("a{3}","aabaaacaaaad")

print(temp)#['aaa', 'aaa']

temp=re.findall("a{3,5}","aaabaaaabaaaaabaaaaaa")

print(temp)#['aaa', 'aaaa', 'aaaaa', 'aaaaa']在获取了3个a后，若下一个还是a，并不会得到aaa，而是算下一个a

[] 字符集。对应的位置可以是字符集中任意字符。字符集中的字符可以逐个列出，也可以给出范围，如[abc]或[a-c]。[^abc]表示取反，即非abc，所有特殊字符在字符集中都失去其原有的特殊含义。用\反斜杠转义恢复特殊字符的特殊含义。

temp=re.findall("a[bcd]e","abcdefagch")

print(temp)#[]此时bcd为b或c或d

temp=re.findall("a[a-z]c","abcdefagch")

print(temp)#['abc', 'agc']

temp=re.findall("[^a]","aaaaabcdefagch")

print(temp)#['b', 'c', 'd', 'e', 'f', 'g', 'c', 'h']

temp=re.findall("[^ab]","aaaaabcdefagch")

print(temp)#['c', 'd', 'e', 'f', 'g', 'c', 'h']a和b都不会被匹配

() 被括起来的表达式将作为分组，从表达式左边开始每遇到一个分组的左括号“（”，编号+1.分组表达式作为一个整体，可以后接数量词。表达式中的|仅在该组中有效。

temp=re.findall("(abc){2}a(123|456)c","abcabca456c")

print(temp)#[('abc', '456')]

temp=re.findall("(abc){2}a(123|456)c","abcabca456cbbabcabca456c")

print(temp)#[('abc', '456'), ('abc', '456')]

#这里有()的情况中，findall会将该规则的每个()中匹配到的字符创放到一个元组中

要想看到被完全匹配的内容，我们可以使用一个新的函数search函数

search函数

在字符串内查找模式匹配,只要找到第一个匹配然后返回，如果字符串没有匹配，则返回None

temp=re.search("(abc){2}a(123|456)c","abcabca456c")

print(temp)#<re.Match object; span=(0, 11), match='abcabca456c'>

print(temp.group())#abcabca456c

\ 转义字符，使后一个字符改变原来的意思

反斜杠后边跟元字符去除特殊功能；（即将特殊字符转义成普通字符）

temp=re.search("a\$","abcabca456ca$")

print(temp)#<<re.Match object; span=(11, 13), match='a$'>

print(temp.group())#a$

引用序号对应的字组所匹配的字符串。

即下面的\2为前边第二个括号中的内容，2代表第几个，从1开始

a=re.search(r'(abc)(def)gh\2','abcdefghabc abcdefghdef').group()

print(a)#abcdefghdef

反斜杠后边跟普通字符实现特殊功能；（即预定义字符）　　

预定义字符有：\d \D \s \S \w \W \A \Z \b \B

预定义字符在字符集中仍有作用

\d 数字:[0-9]

temp=re.search("a\d+b","aaa234bbb")

print(temp.group())#a234b

\D 非数字:[^\d]

\s 匹配任何空白字符:[<空格>\t\r\n\f\v]

temp=re.search("a\s+b","aaa   bbb")

print(temp.group())#a   b

\S 非空白字符:[^\s]

\w 匹配包括下划线在内的任何字字符:[A-Za-z0-9_]

\W 匹配非字母字符，即匹配特殊字符

temp=re.search("\W","$")

print(temp.group())#$

\A 仅匹配字符串开头,同^

\Z 仅匹配字符串结尾，同$

\b 匹配\w和\W之间的边界

temp=re.search(r"\bas\b","a as$d")

print(temp.group())#$as

\B [^\b]

下面介绍其他的re常用函数

compile函数

编译正则表达式模式，返回一个对象的模式

rule = re.compile("abc\d+\w")

str = "aaaabc6def"

temp = rule.findall(str)

print(temp)#['abc6d']

match函数

在字符串刚开始的位置匹配,和^功能相同

temp=re.match("asd","asdfasd")

print(temp.group())#asd

finditer函数

将所有匹配到的字符串以match对象的形式按顺序放到一个迭代器中返回

temp=re.finditer("\d+","as11d22f33a44sd")

print(temp)#<callable_iterator object at 0x00000242EEEE9E48>

for i in temp:

    print(i.group())

#11

#22

#33

#44

split函数

用于分割字符串，将分割后的字符串放到一个列表中返回

如果在字符串的首或尾分割，将会出现一个空字符串

temp=re.split("\d+","as11d22f33a44sd55")

print(temp)#['as', 'd', 'f', 'a', 'sd', '']

使用字符集分割

如下先以a分割，再将分割后的字符串们以b分割，所以会出现3个空字符串

temp=re.split("[ab]","ab123b456ba789b0")

print(temp)#['', '', '123', '456', '', '789', '0']

sub函数　

将re匹配到的部分进行替换再返回新的字符串

temp=re.sub("\d+","_","ab123b456ba789b0")

print(temp)#ab_b_ba_b_

后边还可以再加一个参数表示替换次数，默认为0表示全替换

subn函数

将re匹配到的部分进行替换再返回一个装有新字符串和替换次数的元组

temp=re.subn("\d+","_","ab123b456ba789b0")

print(temp)#('ab_b_ba_b_', 4)

然后讲一下特殊分组

temp=re.search("(?P<number>\d+)(?P<letter>[a-zA-Z])","ab123b456ba789b0")

print(temp.group("number"))#123

print(temp.group("letter"))#b

以?P<name>的形式起名

temp=re.search("(?P<number>\d+)(?P<letter>[a-zA-Z]+)(?P=number)","ab123b123ba789b7789")

print(temp.group())#123b123

注意这里?P=number的两个分组必须匹配的一模一样，不只是规则一样，而是内容都一样

最后说一下惰性匹配和贪婪匹配

temp=re.search("\d+","123456")

print(temp.group())#123456

此时为贪婪匹配，即只要符合就匹配到底

temp=re.search("\d+?","123456")

print(temp.group())#1

在后面加一个？变为惰性匹配，即只要匹配成功一个字符就结束匹配　

参考https://www.cnblogs.com/tina-python/p/5508402.html

python基础学习14----正则表达式的更多相关文章

python基础学习笔记——正则表达式
1.什么是正则? 正则就是用一些具有特殊含义的符号组合到一起(称为正则表达式)来描述字符或者字符串的方法.或者说:正则就是用来描述一类事物的规则.(在Python中)它内嵌在Python中,并通过 r ...
（一）python基础学习
根据廖雪峰老师的python教程写一些学习总结! Python基础学习 1.使用list和tuple (1)list Python内置的一种数据类型是列表:list.list是一种有序的集合,可以随时 ...
Day1 Python基础学习
一.编程语言分类 1.简介机器语言:站在计算机的角度,说计算机能听懂的语言,那就是直接用二进制编程,直接操作硬件汇编语言:站在计算机的角度,简写的英文标识符取代二进制去编写程序,本质仍然是直接操作 ...
0003.5-20180422-自动化第四章-python基础学习笔记--脚本
0003.5-20180422-自动化第四章-python基础学习笔记--脚本 1-shopping """ v = [ {"name": " ...
Day1 Python基础学习——概述、基本数据类型、流程控制
一.Python基础学习一.编程语言分类 1.简介机器语言:站在计算机的角度,说计算机能听懂的语言,那就是直接用二进制编程,直接操作硬件汇编语言:站在计算机的角度,简写的英文标识符取代二进制去编 ...
Python 基础学习总结篇
Python 基础学习总结先附上所有的章节: Python学习(一)安装.环境配置及IDE推荐 Python学习(二)Python 简介 Python学习(三)流程控制 Python学习(四)数据结 ...
python基础学习（起步）
目录 python基础学习(起步) 变量常量变量的内存管理 python垃圾回收机制变量的其他赋值方式今日编程小题本人能力有限,若有偏颇之处请读者大大不吝赐教! 祝大家每天都在成长! pyt ...
python基础之坑爹正则表达式
python基础之坑爹正则表达式概述 re模块就是python语言中的正则表达式,拆出来单独写一条blog是因为正则表达式本身就是比较庞大的知识,写具体些让自己以后方便查找. IP: ^(25[0- ...
Python基础学习二
Python基础学习二 1.编码 utf-8编码:自动将英文保存为1个字符,中文3个字符.ASCll编码被囊括在内. unicode:将所有字符保存为2给字符,容纳了世界上所有的编码. 2.字符串内置 ...
Python基础学习一
Python基础学习一 1.变量与常量变量名:大小写英文.数字.下划线的组合,数字不能开头常量名:习惯上常量用大写字母命名,例如"PI" 2.多行输出转义符:反斜杠(),如果 ...

随机推荐

Maven 打包遇到的问题
[ERROR] No compiler is provided in this environment. Perhaps you are running on a JRE rather than a ...
ActiveMQ——activemq的报错见解javax.jms.JMSException: Software caused connection abort: recv failed
activeMQ出现javax.jms.JMSException: Software caused connection abort: recv failed的问题解决一直找不到原因,原来是在本地的 ...
php使用 utf8_encode 来将特殊字符转成 utf8
如果在接受 $_POST 或 $_GET 时发生类似的错误报告:SQLSTATE[HY000]: General error: 1366 Incorrect string value: '\xF6te ...
nginx报错整理
一. 1.线上有个域名出现一个访问报错: 413 Payload Too Large 这里贴一下关于这个报错的解释: The 413 (Payload Too Large) status code i ...
intellij idea 怎么全局搜索--转
https://jingyan.baidu.com/article/29697b9163ac7dab20de3cbf.html intellij idea是一款智能,功能强大的ide,对比eclips ...
线程池ThreadPoolExecutor的一种扩展办法
概述在JAVA的世界里,如果想并行的执行一些任务,可以使用ThreadPoolExecutor. 大部分情况下直接使用ThreadPoolExecutor就可以满足要求了,但是在某些场景下,比如瞬时 ...
几句话的事儿，LogBack急速使用
1.说说logback 在java的世界里面好像从来只有log4j,因为它是在太有名气了.说实话,我也没觉得它那里不好,至少在我自己的项目里,它工作的好好的.但是主流有一种声音,在慢慢的放弃它,最始作 ...
git命令学习总结
学习git 主要是因为github官网共享的资源很有学习价值.最近转型JAVA,所有特意去学习了下git软件.git软件可以去官网下载最新版本. 进入 git 仓库目录右击选中 Git Bash ...
[android] 手机卫士号码归属地查询
使用小米号码归属地数据库,有两张表data1和data2 先查询data1表,把手机号码截取前7位 select outkey from data1 where id=”前七位手机号” 再查询data ...
Android - Navigation Drawer
http://www.jianshu.com/p/c8cbeb7ea43a 用Navigation Drawer 和 Navigation View 来实现左右侧滑 Activity里甚至什么都不用写 ...

python基础学习14----正则表达式

python基础学习14----正则表达式的更多相关文章

随机推荐

热门专题