从零开始的Python学习Episode 15—

正则表达式

正则表达式（或 RE）是一种小型的、高度专业化的编程语言，（在Python中）它内嵌在Python中，并通过 re 模块实现，所以使用时要导入re模块。正则表达式模式被编译成一系列的字节码，然后由用 C 编写的匹配引擎执行。

先说几个元字符 . ^ $ * + ? { }

import re

ret = re.findall('t...r', 'hellotomorrow')

print(ret)  # ['tomor']

ret = re.findall('^r.w', 'r1whellotomorr2w')

print(ret)  # ['r1w']

ret = re.findall('r.w$', 'r1whellotomorr2w')

print(ret)  # ['r2w']

ret = re.findall('abc*', 'abcccc')  # 贪婪匹配[0,+oo]

print(ret)  # ['abcccc']

ret = re.findall('abc*', 'ab')  # 贪婪匹配[0,+oo]

print(ret)  # ['ab']

ret = re.findall('abc+', 'abccc')  # [1,+oo]

print(ret)  # ['abccc']

ret = re.findall('abc?', 'abccc')  # [0,1]

print(ret)  # ['abc']

ret = re.findall('abc{1,4}', 'abccc')

print(ret)  # ['abccc'] 贪婪匹配

ret=re.findall('abc*?','abcccccc')

print(ret)#['ab'] 当* + ？的后面再加上？的话就会变成惰性匹配

元字符：[ ]

import re

ret = re.findall('a[bc]d','abd')

print(ret)#['abd'],选b或c

ret = re.findall('[a-z]','abd')

print(ret)#['a', 'b', 'd'],选出a到z的元素

ret = re.findall('[.*+]','a.b+c*')

print(ret)#['.', '+', '*'],消除某些元字符的特殊功能

ret = re.findall('[1-9]','adc51ca')

print(ret)#['5', '1'],选出1到9之间的数字

ret = re.findall('[^ab]','jnan21b')

print(ret)#['j', 'n', 'n', '2', '1'],选出除了a,b的元素

ret = re.findall('\dc','123 cad#4')

print(ret)#['1', '2', '3', '4'],选出数字

元字符的转义符

反斜杠后边跟元字符去除特殊功能,比如\.
反斜杠后边跟普通字符实现特殊功能,比如\d

\d 匹配任何十进制数；它相当于类 [0-9]。
\D 匹配任何非数字字符；它相当于类 [^0-9]。
\s 匹配任何空白字符；它相当于类 [ \t\n\r\f\v]。
\S 匹配任何非空白字符；它相当于类 [^ \t\n\r\f\v]。
\w 匹配任何字母数字字符；它相当于类 [a-zA-Z0-9_]。
\W 匹配任何非字母数字字符；它相当于类 [^a-zA-Z0-9_]
\b 匹配一个特殊字符边界，比如空格，&，＃等

有一种特殊情况：

import re

m = re.findall('\bblow', 'blow')

print(m)#[]

m = re.findall('\\bblow', 'blow')

print(m)#['blow']

m = re.findall(r'\bblow', 'blow')

print(m)#['blow']

这是因为在python解释器中“\\”才相当于一个“\”，而光写一个“\”是不能被识别的。

元字符( )分组

ret = re.search('(?P<id>\d{3})/(?P<name>\w{2,3})', '233/cn')

print(ret.group())#233/cn

print(ret.group('id'))#

这段代码的意思是以‘/’为界限分为名为id（3个数字）和名为name（2个或3个字母）的两个组，其中（?P<XXX>）是固定的格式，但可以不用这种格式。如果没有用这种格式则没有办法按名字来访问组中的数据，按需求来选择是否要用。而search()是扫描整个string查找匹配,会扫描整个字符串并返回第一个成功的匹配。

re.compile()

compile()可以编译正则表达式模式，返回一个对象。可以把常用的正则表达式编译成正则表达式对象，方便后续调用及提高效率。

import re

ret = re.compile('(\d{3})/(\w{2,3})')

print(ret.search('233/cn').group())
#233/cn

re.match()

只检测是不是在string的开始位置匹配，若在开头检测不到，则返回空。

ret = re.match('','')

print(ret)

#<re.Match object; span=(0, 3), match='233'>

#可以通过ret.span()查看其终止点，通过ret.group()查看匹配到的内容。

re.search()

扫描整个string查找匹配,会扫描整个字符串并返回第一个成功的匹配.

import re

ret = re.compile('(\d{3})/(\w{2,3})')

print(ret.search('233/cn').group())

#233/cn,也可以像match那样用span和group

re.split()

原型是re.split(pattern, string, maxsplit=0)

通过正则表达式将字符串分离。如果用括号将正则表达式括起来，那么匹配的字符串也会被列入到list中返回。maxsplit是分离的次数，maxsplit=1分离一次，默认为0，不限制次数。

import re

ret = re.split('s','adsnjfsnja')

print(ret)

#['ad', 'njf', 'nja']

re.sub()

替换目标字符串中的部分内容，格式为sub('要匹配的类型','替换的内容','目标字符串','替换次数')

import re

ret = re.sub('\d','abc','1bd,2fg')

print(ret)#abcbd,abcfg

ret = re.sub('\d','abc','1bd,2fg',1)

print(ret)#abcbd,2fg

re.finditer()

把匹配到的内容放到一个迭代器中，返回一个迭代器对象。

import re

ret = re.finditer('\d','a1b2c3,4')

print(ret)#<callable_iterator object at 0x0000021C112E8240>

print(next(ret).group())#

从零开始的Python学习Episode 15——正则表达式的更多相关文章

从零开始的Python学习Episode 11——装饰器
装饰器装饰器是用来处理其他函数的函数,主要作用是在不修改原有函数的情况下添加新的功能,装饰器的返回值也是一个函数对象. 简单的装饰器 import time def show_time(f): de ...
从零开始的Python学习Episode 23——进程
---恢复内容开始--- 进程由于GIL的存在,python中的多线程其实并不是真正的多线程,如果想要充分地使用多核CPU的资源,在python中大部分情况需要使用多进程.Python提供了非常好用 ...
从零开始的Python学习Episode 22——多线程
多线程线程线程是操作系统能够进行运算调度的最小单位.它被包含在进程之中,是进程中的实际运作单位.一条线程指的是进程中一个单一顺序的控制流,一个进程中可以并发多个线程,每条线程并行执行不同的任务. ...
从零开始的Python学习Episode 20——面向对象（3）
面向对象之封装封装,即隐藏对象的属性和实现细节,仅对外公开接口,控制在程序中属性的读和修改的访问级别:将抽象得到的数据和行为(或功能)相结合,形成一个有机的整体. 隐藏在python中用双下划线开 ...
从零开始的Python学习Episode 19——面向对象（2）
面向对象之继承继承是一种创建新类的方式,新建的类可以继承一个或多个父类(python支持多继承),父类又可称为基类或超类,新建的类称为派生类或子类. 子类会“”遗传”父类的属性,从而解决代码重用问 ...
从零开始的Python学习Episode 17——序列化
序列化我们把对象(变量)从内存中变成可存储或传输的过程称之为序列化,在Python中叫pickling,在其他语言中也被称之为serialization,marshalling,flattenin ...
从零开始的Python学习Episode 16——模块
一.模块在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护. 为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相 ...
从零开始的Python学习Episode 13——常用模块
模块一.time模块时间戳(timestamp) :时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量. 元组(struct_time) :struct_time元组共有9 ...
从零开始的Python学习Episode 12——迭代器&生成器
生成器列表生成式用于快速地生成一个列表 a = [x*x for x in range(1,9)] print(a) #输出[1, 4, 9, 16, 25, 36, 49, 64] 也可以用于生 ...

随机推荐

margin的用法
margin塌陷问题当时说到了盒模型,盒模型包含着margin,为什么要在这里说margin呢?因为元素和元素在垂直方向上margin里面有坑. 我们来看一个例子: html结构: <div ...
深入探索C++对象模型（1）关于对象（思维导图）
通过上面整个关于对象的基础知识框架,我们来分析两个例子,看一下在内存中,对象究竟长什么样. Demo1:C++对象模型的内存布局 class Point { public: Point( floa ...
Asp.Net MVC Identity 2.2.1 使用技巧（一）
开发环境:vs2015 UP3 or vs2017RC 项目环境:asp.net 4.6.1 identity版本为:asp.net identity 2.2.1 1.创建项目. 没什么好说 ...
ONOS的安装
ONOS的简介 ONOS(Open Network Operating System)开放网络操作系统,由 ON.Lab 使用 Java 及 Apache 实现发布的首款开源的SDN网络操作系统. O ...
2、Node.js 第一个应用
内容:三种变量申明方式,Node.js应用组成,第一个应用创建+代码 ################################################################# ...
win7装postgresql10.4
第一步: 第二步: 第三步: 第四步: 第五步: 下载地址:https://get.enterprisedb.com/postgresql/postgresql-10.4-1-windows-x64. ...
js 调用 oc 的解释
JavaScriptCore NSInvocation js解释器在解释函数调用时,会在执行环境进行函数搜索,主调者类型判定: 如果是js调用,直接解释执行: 如果是oc调用,则将调用打包成NSInv ...
BZOJ3174:[TJOI2013]拯救小矮人(DP)
Description 一群小矮人掉进了一个很深的陷阱里,由于太矮爬不上来,于是他们决定搭一个人梯.即:一个小矮人站在另一小矮人的肩膀上,知道最顶端的小矮人伸直胳膊可以碰到陷阱口.对于每一个小矮人, ...
LCTF wp简单复现
1.T4lk 1s ch34p,sh0w m3 the sh31l 代码如下: <?php $SECRET = `../read_secret`; $SANDBOX = "../dat ...
【JavaScript】插件参数的写法
就是实现复制的一个过程 (function() { var Explode = function(container, params) { 'use strict'; var n = this; if ...

从零开始的Python学习Episode 15——正则表达式

从零开始的Python学习Episode 15——正则表达式的更多相关文章

随机推荐

热门专题