python-正则基础

正则表达式，说的简单些，就是一个匹配的功能，在python中，只要引用 re 模块，就能进行正则匹配操作

一、math匹配

先来看一个简单的例子

import re

re.match(pattern, data_source)     #math为匹配，pattern为需要匹配的对象，data_source为数据源

查看下匹配的结果

import re

a = re.match('abc', 'abcdefg')

b = re.match('abc', 'bcdefg')

print(a)

print(b)

-----结果-----

<_sre.SRE_Match object; span=(0, 3), match='abc'>       #a为匹配到的结果，返回的是一个正则的对象

None                                                    #b为没匹配到的结果

查看匹配到的具体结果，需要使用group方法:

import re

a = re.match('abc', 'abcdefg')

print(a.group())

-----结果-----

abc

需要注意的是，math只能从字符串开头进行匹配

import re

a = re.match('abc', 'aabcdefg')

if a:

    print('匹配成功')

else:

    print('匹配失败')

-----结果-----

匹配失败

在math中除了有group方法查看匹配到的内容外，还有以下几个方法：

import re

a = re.match('abc', 'abcdefg')

print(a.start())                 #查看匹配开始的位置

print(a.end())                   #查看匹配结束的位置

print(a.span())                  #查看匹配开始和结束的位置

-----结果-----

0

3

(0, 3)

如果想要匹配任意数字，可以这样写：

import re

a = re.match('[0-9]', '1234abc')                #[0-9]为匹配任意一个数字

b = re.match('[0-9]{1,9}', '1234abc')           #[0-9]{1,9}为匹配任意1到9个数字

print(a.group())

print(b.group())

-----结果-----

1

1234

在上面的例子中，我们进行了两次匹配，在匹配的过程中，先需要对匹配的对象进行编译，如果多次匹配时的对象都是相同的，那也会进行多次编辑，这就造成了一定程度上的资源浪费，为了提升匹配效率，我们可以这样写：

import re

p = re.compile('[0-9]')          #先对匹配对象进行编译

a = p.match('1234aBc')           #第一次匹配开头为数字

b = p.match('56abc')             #第二次匹配开头为数字

print(a.group())

print(b.group())

二、search

在上文中介绍了math，math是只能从开头进行匹配，如果想从整个字符串的任意位置进行匹配，我们可以使用search：

import re

a = re.search('\d', 'b1234abc123')     #\d为匹配任意十进制数，相当于[0-9]

print(a.group())

-----结果-----

1

需要注意的是，search只要是匹配到了内容，后面的内容就不会进行匹配了

三、findall

findall方法能够以列表的形式返回能匹配的子串，看例子：

import re

a = re.findall('[0-9]', '1234abc123')

b = re.findall('[0-9]{0,9}', '1234abc123')

c = re.findall('[0-9]{1,9}', '1234abc123')

print(a)

print(b)

print(c)

-----结果-----

['1', '2', '3', '4', '1', '2', '3']

['1234', '', '', '', '123', '']              #由于{0，9}是可以匹配到0个数字，因此最终的结果中会匹配到空的字符串

['1234', '123']                              #改为{1，0}后，就无法匹配到0个数字啦

四、sub和subn

之前介绍的几个方法中，只能查看到匹配的结果，如果我们想把匹配到的内容换成另外的内容，就可以使用sub和subn，就是通常意义上的替换

import re

a = re.sub('a', 'z', 'b1234abc123aaa')          #把a换成z

b = re.subn('a', 'z', 'b1234abc123aaa')

print(a)

print(b)

-----结果-----

b1234zbc123zzz

('b1234zbc123zzz', 4)                           #使用subn时，会统计到匹配的次数

如果想要指定替换的次数，可以参入count的参数

import re

a = re.sub('a', 'z', 'b1234abc123aaa', count=1)

b = re.subn('a', 'z', 'b1234abc123aaa', count=1)

print(a)

print(b)

-----结果-----

b1234zbc123aaa

('b1234zbc123aaa', 1)

五、split

split表示在匹配时对字符串进行分割，分割完后存入一个列表中

import re

a = re.split('[0-9]', 'xiaohong1xiaosun')

print(a)

-----结果-----

['xiaohong', 'xiaosun']

六、正则表达式

元字符	说明
.	代表任意字符
\|	逻辑或操作符
[ ]	匹配内部的任一字符或子表达式
[^]	对字符集和取非
-	定义一个区间
\	对下一字符取非（通常是普通变特殊，特殊变普通）
*	匹配前面的字符或者子表达式0次或多次
*?	惰性匹配上一个
+	匹配前一个字符或子表达式一次或多次
+?	惰性匹配上一个
?	匹配前一个字符或子表达式0次或1次重复
{n}	匹配前一个字符或子表达式
{m,n}	匹配前一个字符或子表达式至少m次至多n次
{n,}	匹配前一个字符或者子表达式至少n次
{n,}?	前一个的惰性匹配
^	匹配字符串的开头
\A	匹配字符串开头
$	匹配字符串结束
[\b]	退格字符
\c	匹配一个控制字符
\d	匹配任意数字
\D	匹配数字以外的字符
\t	匹配制表符
\w	匹配任意数字字母下划线
\W	不匹配数字字母下划线

python-正则基础的更多相关文章

Python正则处理多行日志一例
正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...
Python爬虫基础
前言 Python非常适合用来开发网页爬虫,理由如下: 1.抓取网页本身的接口相比与其他静态编程语言,如java,c#,c++,python抓取网页文档的接口更简洁:相比其他动态脚本语言,如perl ...
Python正则处理多行日志一例(可配置化)
正则表达式基础知识请参阅<正则表达式基础知识>,本文使用正则表达式来匹配多行日志并从中解析出相应的信息. 假设现在有这样的SQL日志: SELECT * FROM open_app WHE ...
认识python正则模块re
python正则模块re python中re中内置匹配.搜索.替换方法见博客---python附录-re.py模块源码(含re官方文档链接) 正则的应用是处理一些字符串,phthon的博文python ...
Python正则表达式-基础
Python正则表达式-基础本文转载自昔日暖阳,原文地址:http://www.osheep.cn/4806.html python使用正则,需要先引入re模块 import re 匹配符单个字符 ...
万门大学Python零基础10天进阶班视频教程
点击了解更多Python课程>>> 万门大学Python零基础10天进阶班视频教程课程简介: 旨在通过两周的学习,让学生不仅能掌握python编程基础从而进行计算机程序的开发, 还 ...
Python正则式的基本用法
Python正则式的基本用法 1.1基本规则 1.2重复 1.2.1最小匹配与精确匹配 1.3前向界定与后向界定 1.4组的基本知识 2．re模块的基本函数 2.1使用compile加速 2.2 ma ...
python 正则,常用正则表达式大全
Nginx访问日志匹配 re.compile #re.compile 规则解释,改规则必须从前面开始匹配一个一个写到后面,前面一个修改后面全部错误.特殊标准结束为符号为空或者双引号: 改符号开始从 ...
python 正则使用笔记
python正则使用笔记 def remove_br(content): """去除两边换行符""" content = content.r ...
Python文件基础
===========Python文件基础========= 写,先写在了IO buffer了,所以要及时保存关闭.关闭会自动保存. file.close() 读取全部文件内容用read,读取一行用 ...

随机推荐

SSH,SSM框架文件上传
一.了解文件上传 1.1 什么是文件上传将本地文件通过流的形式写到服务器上 1.2 文件上传的技术 JspSmartUpload: 其组件是应用jsp进行B/S程序开发过 ...
PHP开发框架CodeIgniter
CodeIgniter 是一套给 PHP 网站开发者使用的应用程序开发框架和工具包. 通过下面四步来安装 CodeIgniter: 解压缩安装包: 将 CodeIgniter 文件夹及里面的文件上传到 ...
Java 基础内部类
Java 基础内部类内部类(嵌套类) nested class 目的为外围类enclosing class提供服务. 四种: 静态成员类 static member class 非静态成员类 no ...
Java CAS总结
文章目录 1. CPU指令对CAS的支持(CPU的cas指令是原子的) 或许我们可能会有这样的疑问,假设存在多个线程执行CAS操作并且CAS的步骤很多,有没有可能在判断V和E相同后,正要赋值时,切换了 ...
ccf-201709-2 公共钥匙盒
问题描述有一个学校的老师共用N个教室,按照规定,所有的钥匙都必须放在公共钥匙盒里,老师不能带钥匙回家.每次老师上课前,都从公共钥匙盒里找到自己上课的教室的钥匙去开门,上完课后,再将钥匙放回到钥匙盒中 ...
扩展运算符&reset运算符
扩展运算符用三个点号表示,功能是把数组或类数组对象展开成一系列用逗号隔开的值 var foo = function(a, b, c) { console.log(a); console.log(b); ...
redux小结
1.创建reducers :保存初始化状态. 2.入口文件通过redux 中的 { createStore } 将 reducers保存为快照, 通过react-redux中的{ Provider } ...
android网络监听
http://blog.csdn.net/mxiaoyem/article/details/50857008 http://blog.csdn.net/ke1vin/article/details/5 ...
安装Access Database Engine后，提示未注册Microsoft.ACE.OLEDB.12.0
未注册Microsoft.ACE.OLEDB.12.0 ,下载安装 Microsoft Access Database Engine:https://www.microsoft.com/en-us/d ...
IEEP-OSPF域内路由故障-现象与排障思路
OSPF域内路由故障-现象与排障思路一.故障现象 OSPF的或内路由故障常表现为邻居路由器不通告部分或全部路由,可能的原因通常为: 1).拟通告的接口上未启用OSPF 2).拟通告的接口被关闭 OS ...

python-正则基础

python-正则基础的更多相关文章

随机推荐

热门专题