Python正则表达式与re模块

简介

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。

regular expression = regex = RE

在线正则表达式测试工具：http://tool.oschina.net/regex/

Python re 模块文档：https://docs.python.org/3/library/re.html

常见匹配模式

模式	描述
\w	匹配字母数字及下划线
\W	匹配非字母数字下划线
\s	匹配任意空白字符，等价于 [\t\n\r\f].
\S	匹配任意非空字符
\d	匹配任意数字，等价于 [0-9]
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串的开头
$	匹配字符串的末尾。
.	匹配任意字符，除了换行符，当re.DOTALL标记被指定时，则可以匹配包括换行符的任意字符。
[...]	用来表示一组字符,单独列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
*	匹配0个或多个的表达式。
+	匹配1个或多个的表达式。
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪方式
{n}	精确匹配n个前面表达式。
{n, m}	匹配 n 到 m 次由前面的正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
( )	匹配括号内的表达式，也表示一个组

常用实例

re.match

re.match 尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none。

re.match(pattern, string, flags=0)

最常规的匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'

print(len(content))

result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}.*Demo$', content)

print(result)

print(result.group())

print(result.span())

<_sre.SRE_Match object; span=(, ), match='Hello 123 4567 World_This is a Regex Demo'>

Hello   World_This is a Regex Demo

(, )

泛匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'

result = re.match('^Hello.*Demo$', content)

print(result)

print(result.group())

print(result.span())

<_sre.SRE_Match object; span=(, ), match='Hello 123 4567 World_This is a Regex Demo'>

Hello   World_This is a Regex Demo

(, )

匹配目标

import re

content = 'Hello 1234567 World_This is a Regex Demo'

result = re.match('^Hello\s(\d+)\sWorld.*Demo$', content)

print(result)

print(result.group(1))

print(result.span())

<_sre.SRE_Match object; span=(, ), match='Hello 1234567 World_This is a Regex Demo'>

(, )

贪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'

result = re.match('^He.*(\d+).*Demo$', content)

print(result)

print(result.group(1))

<_sre.SRE_Match object; span=(, ), match='Hello 1234567 World_This is a Regex Demo'>

非贪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'

result = re.match('^He.*?(\d+).*Demo$', content)

print(result)

print(result.group(1))

<_sre.SRE_Match object; span=(, ), match='Hello 1234567 World_This is a Regex Demo'>

匹配模式

import re

content = '''Hello 1234567 World_This

is a Regex Demo

'''

result = re.match('^He.*?(\d+).*?Demo$', content, re.S)

print(result.group(1))

转义

import re

content = 'price is $5.00'

result = re.match('price is $5.00', content)

print(result)

None

import re

content = 'price is $5.00'

result = re.match('price is \$5\.00', content)

print(result)

<_sre.SRE_Match object; span=(, ), match='price is $5.00'>

总结：尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行符就用re.S

re.search

re.search 扫描整个字符串并返回第一个成功的匹配。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

result = re.match('Hello.*?(\d+).*?Demo', content)

print(result)

None

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

result = re.search('Hello.*?(\d+).*?Demo', content)

print(result)

print(result.group(1))

<_sre.SRE_Match object; span=(, ), match='Hello 1234567 World_This is a Regex Demo'>

总结：为匹配方便，能用search就不用match

匹配演练

import re

html = '''<div id="songs-list">

    <h2 class="title">经典老歌</h2>

    <p class="introduction">

        经典老歌列表

    </p>

    <ul id="list" class="list-group">

        <li data-view="2">一路上有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>

        </li>

    </ul>

</div>'''

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)

if result:

    print(result.group(1), result.group(2))

齐秦 往事随风

import re

html = '''<div id="songs-list">

    <h2 class="title">经典老歌</h2>

    <p class="introduction">

        经典老歌列表

    </p>

    <ul id="list" class="list-group">

        <li data-view="2">一路上有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>

        </li>

    </ul>

</div>'''

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)

if result:

    print(result.group(1), result.group(2))

任贤齐 沧海一声笑

import re

html = '''<div id="songs-list">

    <h2 class="title">经典老歌</h2>

    <p class="introduction">

        经典老歌列表

    </p>

    <ul id="list" class="list-group">

        <li data-view="2">一路上有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>

        </li>

    </ul>

</div>'''

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)

if result:

    print(result.group(1), result.group(2))

beyond 光辉岁月

re.findall

搜索字符串，以列表形式返回全部能匹配的子串。

import re

html = '''<div id="songs-list">

    <h2 class="title">经典老歌</h2>

    <p class="introduction">

        经典老歌列表

    </p>

    <ul id="list" class="list-group">

        <li data-view="2">一路上有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>

        </li>

    </ul>

</div>'''

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)

print(results)

print(type(results))

for result in results:

    print(result)

    print(result[0], result[1], result[2])

[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'), ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '但愿人长久')]

<class 'list'>

('/2.mp3', '任贤齐', '沧海一声笑')

/.mp3 任贤齐 沧海一声笑

('/3.mp3', '齐秦', '往事随风')

/.mp3 齐秦 往事随风

('/4.mp3', 'beyond', '光辉岁月')

/.mp3 beyond 光辉岁月

('/5.mp3', '陈慧琳', '记事本')

/.mp3 陈慧琳 记事本

('/6.mp3', '邓丽君', '但愿人长久')

/.mp3 邓丽君 但愿人长久

output

import re

html = '''<div id="songs-list">

    <h2 class="title">经典老歌</h2>

    <p class="introduction">

        经典老歌列表

    </p>

    <ul id="list" class="list-group">

        <li data-view="2">一路上有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>

        </li>

    </ul>

</div>'''

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)

print(results)

for result in results:

    print(result[1])

[('', '一路上有你', ''), ('<a href="/2.mp3" singer="任贤齐">', '沧海一声笑', '</a>'), ('<a href="/3.mp3" singer="齐秦">', '往事随风', '</a>'), ('<a href="/4.mp3" singer="beyond">', '光辉岁月', '</a>'), ('<a href="/5.mp3" singer="陈慧琳">', '记事本', '</a>'), ('<a href="/6.mp3" singer="邓丽君">', '但愿人长久', '</a>')]

一路上有你

沧海一声笑

往事随风

光辉岁月

记事本

但愿人长久

output

re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串。

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

content = re.sub('\d+', '', content)

print(content)

Extra stings Hello  World_This is a Regex Demo Extra stings

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

content = re.sub('\d+', 'Replacement', content)

print(content)

Extra stings Hello Replacement World_This is a Regex Demo Extra stings

import re

content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'

content = re.sub('(\d+)', r'\1 8910', content)

print(content)

Extra stings Hello   World_This is a Regex Demo Extra stings

import re

html = '''<div id="songs-list">

    <h2 class="title">经典老歌</h2>

    <p class="introduction">

        经典老歌列表

    </p>

    <ul id="list" class="list-group">

        <li data-view="2">一路上有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>

        </li>

    </ul>

</div>'''

html = re.sub('<a.*?>|</a>', '', html)

print(html)

results = re.findall('<li.*?>(.*?)</li>', html, re.S)

print(results)

for result in results:

    print(result.strip())

<div id="songs-list">

    <h2 class="title">经典老歌</h2>

    <p class="introduction">

        经典老歌列表

    </p>

    <ul id="list" class="list-group">

        <li data-view="">一路上有你</li>

        <li data-view="">

            沧海一声笑

        </li>

        <li data-view="" class="active">

            往事随风

        </li>

        <li data-view="">光辉岁月</li>

        <li data-view="">记事本</li>

        <li data-view="">

            但愿人长久

        </li>

    </ul>

</div>

['一路上有你', '\n            沧海一声笑\n        ', '\n            往事随风\n        ', '光辉岁月', '记事本', '\n            但愿人长久\n        ']

一路上有你

沧海一声笑

往事随风

光辉岁月

记事本

但愿人长久

output

re.compile

将正则字符串编译成正则表达式对象

将一个正则表达式串编译成正则对象，以便于复用该匹配模式:

import re

content = '''Hello 1234567 World_This

is a Regex Demo'''

pattern = re.compile('Hello.*Demo', re.S)

result = re.match(pattern, content)

#result = re.match('Hello.*Demo', content, re.S)

print(result)

<_sre.SRE_Match object; span=(, ), match='Hello 1234567 World_This\nis a Regex Demo'>

Python正则表达式与re模块的更多相关文章

python正则表达式之re模块方法介绍
python正则表达式之re模块其他方法 1:search(pattern,string,flags=0) 在一个字符串中查找匹配 2:findall(pattern,string,flags=0) ...
Python正则表达式与re模块介绍
Python中通过re模块实现了正则表达式的功能.re模块提供了一些根据正则表达式进行查找.替换.分隔字符串的函数.本文主要介绍正则表达式先关内容以及re模块中常用的函数和函数常用场景. 正则表达式基 ...
python 正则表达式 (重点) re模块
京东的注册页面,打开页面我们就看到这些要求输入个人信息的提示.假如我们随意的在手机号码这一栏输入一个11111111111,它会提示我们格式有误.这个功能是怎么实现的呢?假如现在你用python写一段 ...
Python正则表达式与hashlib模块
菜鸟学python第十六天 1.re模块(正则表达式) 什么是正则表达式正则表达式是一个由特殊字符组成的序列,他能帮助对字符串的某种对应模式进行查找. 在python中,re 模块使其拥有全部的正则 ...
python正则表达式与re模块-02
正则表达式正则表达式与python的关系 # 正则表达式不是Python独有的,它是一门独立的技术,所有的编程语言都可以使用正则 # 但要在python中使用正则表达式,就必须依赖于python内置 ...
python 正则表达式re使用模块（match()、search()和compile()）
摘录 python核心编程 python的re模块允许多线程共享一个已编译的正则表达式对象,也支持命名子组.下表是常见的正则表达式属性: 函数/方法描述仅仅是re模块函数 compile(patt ...
python 正则表达式与re模块
一.正则表达式用途用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. #### 简单地说就是用于字符串匹配的字符组在 ...
Python 正则表达式、re模块
一.正则表达式对字符串的操作的需求几乎无处不在,比如网站注册时输入的手机号.邮箱判断是否合法.虽然可以使用python中的字符串内置函数,但是操作起来非常麻烦,代码冗余不利于重复使用. 正则表达式是 ...
[ python ] 正则表达式及re模块
正则表达式正则表达式描述: 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个‘规则字符串’,这个‘规则字符串’用来表达对字符串的一种过滤 ...

随机推荐

Spring Boot 揭秘与实战（七）实用技术篇 - StateMachine 状态机机制
文章目录 1. 环境依赖 2. 状态和事件 2.1. 状态枚举 2.2. 事件枚举 3. 状态机配置4. 状态监听器 3.1. 初始化状态机状态 3.2. 初始化状态迁移事件 5. 总结 6. 源代码 ...
Ubuntu16.04通过GPT挂载硬盘
一般而言,服务器上挂载的硬盘都是比较大的,传统的对硬盘进行分区需要在终端敲sudo fdisk进行操作,但是, 当挂载的硬盘的容量大于2T的时候,是无法通过sudo fdisk进行挂载的,这个时候必须 ...
CF444(Div. 1简单题解)
A .DZY Loves Physics 题意:给定带点权和边权的无向图,现在让你选一些点,使得点权和/被选点对间的边权和最大. 思路:不难证明,选择边和对应的两点是最优的. #include&l ...
xdoj-1117(记忆化搜索+组合数学）
因为我是从上到下,所以就不叫动态规划而叫记忆化搜索吧 (不过运行时间只有3ms....应该是很不错的吧) 排版怎么那么难看...编辑的时候不是这样子的啊?! 思想 : 大眼一看应该是一道很裸的状压dp ...
xdoj 1028 （素数线性筛+dp)
#include <bits/stdc++.h> using namespace std; ; int prime[N]; int dp[N]; int main () { memset ...
PTA——判断胖瘦
PTA 7-40 到底是不是太胖了 #include<stdio.h> #include<math.h> int main() { ,N; scanf("%d&quo ...
Web四则混合运算
一.代码1: <%@ page language="java" contentType="text/html; charset=UTF-8" pageEn ...
一个简易的drf的项目例子
luffy_city 1.项目介绍今日内容:(路飞项目) contentType组件: 路飞学成项目,有课程,学位课(不同的课程字段不一样),价格策略问题, 如何设计表结构,来表示这种规则为专题 ...
django ---Auth模块
Auth模块本文目录 1 Auth模块是什么 2 auth模块常用方法 3 扩展默认的auth_user表回到目录 1 Auth模块是什么 Auth模块是Django自带的用户认证模块: 我们在开 ...
创建一个简单的terraform module
terraform module可以实现代码的复用,同时方便分享,下面创建一个简单的基于localfile && template provider 的module module ...

Python正则表达式与re模块

简介

常见匹配模式

re.match

最常规的匹配

泛匹配

匹配目标

贪婪匹配

非贪婪匹配

匹配模式

转义

re.search

匹配演练

re.findall

re.sub

re.compile

Python正则表达式与re模块的更多相关文章

随机推荐

热门专题