定义：

正则表达式，又称规则表达式，通常被用来检索、替换那些符合某个模式(规则)的文本。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个"规则字符串"，这个"规则字符串"用来表达对字符串的一种过滤逻辑。

功能：

给定一个正则表达式和另一个字符串，我们可以达到如下的目的：

匹配给定的字符串是否符合正则表达式的过滤逻辑
过滤通过正则表达式，从文本字符串中获取我们想要的特定部分

原理：

单字符匹配

1.最简单匹配：匹配指定字符

所有的字符都可以匹配自身如 abc 能够匹配 abc

import re

string = '1233abc384'

pattern = re.compile('abc')

result = pattern.search(string)

result

>>> result

<_sre.SRE_Match object at 0x7fbec85a2578>

>>> result.group()

'abc'

2. . 匹配换行'\n'之外所有字符

import re

string = '12attc3334axc'

#将正则表达式编译成对象

pattern = re.compile('a.c')

#使用正则表达式对象匹配字符串

result = pattern.search(string)

#查看结果

>>> result

<_sre.SRE_Match object at 0x7fbec85a2578>

>>> result.group()

'axc'

在这个例子中，字符串中看似符合标准的有两个：attc，axc，因为.代表一切字符，所有能够匹配a[]c，又因为.只代表数量上匹配一位，所以只能匹配axc

3.给定范围匹配

使用[],在里面写入需要匹配的字符，作用是在字符串中匹配写入的字符，能够匹配任意一个即可

import re

string = '12agc3334axc'

pattern = re.compile('a[gx]c')

result = pattern.findall(string)

>>> result

['agc', 'axc']

a[gx]c可以匹配以a开头c结尾，中间一位是g或者x的字符串。在string中有两位，agc和axc，使用findall可以将符合条件的都查找出来。

4.匹配特殊字符

在2中使用.可以匹配除\n外所有的字符串，但如果想要匹配.本身呢？如匹配一个qq号12345@qq.com，youdao@163.com,找到是哪一家公司的。\可以让特殊符号变成原来的意思。

import re

string = '12agc3334a.c'

pattern = re.compile('a\.c')

result = pattern.findall(string)

>>> result

['a.c']

通配符匹配

字符的类型有很多，字符，数字，点，空格，tab等。对类型复杂的字符，正则表达式提供了多种匹配方式。

\d 能够匹配0-9的数字

import re

string = '12agc3334a.c'

pattern = re.compile('\d')

result = pattern.findall(string)

>>> result

['1', '2', '3', '3', '3', '4']

匹配到了string中所有的数字，使用pattern = re.compile('[0-9]')可以达到同样的效果

\s 匹配 空格\t\r\n\f\v

import re

string = '1 2,a b,x y'

pattern = re.compile('1\s2')

result = pattern.findall(string)

result

>>> result

['1 2']

\s 的效果同样可以使用pattern = re.compile([ \t\y\n\f\v])替换。

还有一些方便的匹配字符集，所有的字符集都可以使用[]这种方式实现

\D 匹配非数字 [^\d]
\S 匹配非空白字符 [^\s]
\w 匹配单词字符 [A-Za-z0-9_]
\W 匹配非单词字符 [^\w]

多字符匹配

前面所有的匹配都是只能匹配一个字符，往往在工作中需要配多个字符。如23gbhtrev56匹配23和56之间所有的字符。这时不知道是一个字符还是多个字符。所以需要使用数量上的匹配来实现。

0～无限次

*表示匹配无限个字符，包括0个。使用方式：a*代表a可以匹配0-无限次

string='23gbhtrev56'

pattern = re.compile('23.*56')

result = pattern.search(string)

result

>>> result

<_sre.SRE_Match object at 0x7fbec85a2578>

>>> result.group()

'23gbhtrev56'

.代表所有字符，.*表示匹配所有字符0～无数次

1～无限次

+和*用法相似，唯一不同的是+能够1～无数次，即一定要有一次出现。

string1 = 'abcd'

strinng2 = 'ab12345cd'

pattern = re.compile('ab.+cd')

>>> one = pattern.search(string1)

>>>

>>> one

>>> two = pattern.search(string2)

>>>

>>> two.group()

'ab12345cd'

string1中ab和cd之间没有数字，所以没有匹配到，而string2中ab和cd之间有12345，所有能够匹配到。这就是+的能力。如果使用*则可以都匹配到。

指定次数

除了匹配无数次这种不确定的次数外，也可以使用{m}匹配指定次数。使用{m}可以匹配一个字符m次。如a{4}这个意思就是匹配字符4次，只有类似xaaaa3244这种出现4次a的字符串才会被匹配到。

同样使用{m，n}可以匹配小于n次，大于m次的字符。

边界匹配

边界匹配简化了一些匹配表达的填写，这些都可以使用基础表达式完成。

1.匹配以XXX字符开头的字符串

使用^abc可以匹配以abc开头的字符串

string1 = 'abc098tr'

>>>

>>> string2 = '3455vf'

pattern = re.compile('^abc(.*)')

one = pattern.search(string1)

>>> one

<_sre.SRE_Match object at 0x7f570da75648>

>>> one.group()

'abc098tr'

>>> two = pattern.search(string2)

>>> two

匹配以xxx字符结尾的字符串

使用$xyz可以匹配以xyz结尾的字符串

匹配以字符串开头

匹配以字符串结尾

逻辑分组

分组就是用一对圆括号“()”括起来的正则表达式，匹配出的内容就表示一个分组。分组的匹配结果可以通过group()获取。规则是：

res.group(): 默认分组结果，整个表达式的匹配结果

res.group(0): 整个表达式的匹配结果，等同于res.group()

res.group(1): 第一个分组的匹配结果，即()中匹配的内容。

| 匹配左右任意一个表达式

|代表左右表达式任意匹配一个，先尝试匹配左边的表达式，一旦成功则跳过匹配右边的表达式。如abc|xyz

在使用|时最好用括号包裹匹配条件(abc|xyz)，如果没有包裹它的匹配范围是整个正则表达式。

小场景：匹配出邮箱的公司名在qq，163和gmail三者之中。格式：邮箱的公司名都要跟在@符号后面

import re

pattern = re.compile('\@(163|qq|gmail)')

string = '123456@qq.com'

one = pattern.search(sting1)

>>> res

<re.Match object; span=(6, 9), match='@qq'>

>>> res.group()

'@qq'

>>> res.group(1)

'qq'

匹配文件的格式，是否属于docx，pdf，doc中的某一种。

import re

pattern = re.compile('\.(pdf|docx|doc)')

string1 = 'aaaa.pdf'

string2 = 'bbbb.doc'

string3 = 'cccc.docx'

one = pattern.search(string1)

>>> one.group()

'.pdf

two = pattern.search(string2)

>>> two.group()

'.doc'

three = pattern.search(string3)

>>> three.group()

'.docx'

(ab) 将括号中的字符作为一个分组

使用()分组可以将()中表达式匹配的值取出来。

小场景：提取html标签中的内容。在做网页爬虫时，比如某网页HTML中有这样的内容：<h1>content</h1>。如何把把<h1>content</h1>中的content提取出来？

提取的内容用()括起来就可以了。<h1> </h1>是固定标签，这是不变的，变的是content。可以这样写： r'<h1>(.*)</h1>'。匹配解释是匹配<h1></h1>这样的字符串，分组中匹配任意字符串0次～无数次

import re

string = '<h1>博客园让分享更easy<h1>'

pattern = re.compile(r'<h1>(.*)<h1>')

res = pattern.search(string)

>>>res

<re.Match object; span=(0, 19), match='<h1>博客园让分享更easy<h1>'>

>>>

>>> res.group()

'<h1>博客园让分享更easy<h1>'

>>>

>>> res.group(0)

'<h1>博客园让分享更easy<h1>'

>>>

>>> res.group(1)

'博客园让分享更easy'

注意：以上分组的匹配写法是贪婪模式，python匹配默认为贪婪模式，但在项目中使用非贪婪模式更多，毕竟要更准确。如果想改成非贪婪模式，可以写成这样：r'<h1>(.*?)</h1>'。更多详情参见文末贪婪匹配。

分组的进阶使用技巧还有如下：

\num 引用分组num匹配到的字符串
(?P<name>) 分组起别名
(?P=name) 引用别名为name分组匹配到的字符串

可参考：https://blog.csdn.net/m0_37673307/article/details/81607986

匹配范围规则

re模块的一般使用步骤如下：
1.使用compile()函数将正则表达式的字符串形式编译为一个Pattern对象

2.通过Pattern对象提供的一系列方法对文本进行匹配查找，获得匹配结果，一个Match对象。

3.最后使用Match 对象提供的属性和方法获得信息，根据需要进行其他的操作

compile 函数

compile 函数用于编译正则表达式，生成一个 Pattern 对象，它的一般使用形式如下：

import re

# 将正则表达式编译成 Pattern 对象

pattern = re.compile(r'\d+')

在上面，我们已将一个正则表达式编译成Pattern对象，接下来，我们就可以利用pattern的一系列方法对文本进行匹配查找了。
Pattern 对象的一些常用方法主要有：

match 方法：从起始位置开始查找，一次匹配

search 方法：从任何位置开始查找，一次匹配

findall 方法：全部匹配，返回列表

finditer 方法：全部匹配，返回迭代器

split 方法：分割字符串，返回列表

sub 方法：替换

match方法

match 方法用于查找字符串的头部（也可以指定起始位置），它是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果。

import re

pattern = re.compile(r'\d+')  # 用于匹配至少一个数字

match = pattern.match('12twothree34four')  # 查找头部，匹配

在上面，当匹配成功时返回一个Match对象，其中：

group() 方法用于获得一个或多个分组匹配的字符串，当要获得整个匹配的子串时，可直接使用 group() 或 group(0)；
start() 方法用于获取分组匹配的子串在整个字符串中的起始位置（子串第一个字符的索引），参数默认值为 0；
end() 方法用于获取分组匹配的子串在整个字符串中的结束位置（子串最后一个字符的索引+1），参数默认值为 0；
span() 方法返回 (start(group), end(group))。

search方法

search 方法用于查找字符串的任何位置，它也是一次匹配，只要找到了一个匹配的结果就返回，而不是查找所有匹配的结果。

findall 方法

上面的 match 和 search 方法都是一次匹配，只要找到了一个匹配的结果就返回。然而，在大多数时候，我们需要搜索整个字符串，获得所有匹配的结果。

findall 以列表形式返回全部能匹配的子串，如果没有匹配，则返回一个空列表。

import re

pattern = re.compile(r'\d+')   # 查找数字

result1 = pattern.findall('hello 123456 789')

result2 = pattern.findall('one1two2three3four4', 0, 10)

print (result1)

['123456', '789']

print (result2)

['1', '2']

sub 方法

sub 方法用于替换。它的使用形式如下：

sub(repl, string[, count])

使用repl替换string中匹配到的字符

小场景：将字符串中所有数字替换成*号

import re

pattern = re.compile('\d')

string = 'abc123def456hij78xyz'

match = pattern.sub('*',string)

>>> match

'abc***def***hij**xyz'

去除html中的标签。

小场景：去除html标签，获得标签内容。`<h1>博客园让分享更easy</h1>` 去掉标签`<h1>` 和`</h1>`。

可以通过`r<[^>]+>`来实现。r'<>'表示匹配两个尖括号，`[^>]+`表示尖括号中内容不是>，并且内容可以有多个，即多个非>符号。

import re

string = '<h1>博客园让分享更easy<h1>'

pattern = re.compile(r'<[^>]+>')

res = pattern.findall(string)

>>> res

['<h1>', '</h1>']

>>> res = pattern.sub('', string)

>>> res

'博客园让分享更easy'

通过findall方法可以看出能够找到所有的标签，而sub则是用空字符串替换标签，所有最后得到的就是一个去掉标签的字符串。

贪婪模式与非贪婪模式

贪婪模式：在整个表达式匹配成功的前提下，尽可能多的匹配 ( * )；
非贪婪模式：在整个表达式匹配成功的前提下，尽可能少的匹配 ( ? )；
Python里数量词默认是贪婪的。

示例一：源字符串：abbbc

使用贪婪的数量词的正则表达式ab*，匹配结果：abbb。
决定了尽可能多匹配 b，所以a后面所有的 b 都出现了。
使用非贪婪的数量词的正则表达式ab*?，匹配结果：a。
即使前面有 *，但是 ? 决定了尽可能少匹配 b，所以没有 b。

示例二：源字符串：`aa<div>test1</div>bb<div>test2</div>cc`

使用贪婪的数量词的正则表达式：<div>.*</div>
匹配结果：<div>test1</div>bb<div>test2</div>

这里采用的是贪婪模式。在匹配到第一个""时已经可以使整个表达式匹配成功，但是由于采用的是贪婪模式，所以仍然要向右尝试匹配，查看是否还有更长的可以成功匹配的子串。匹配到第二个""后，向右再没有可以成功匹配的子串，匹配结束，匹配结果为<div>test1</div>bb<div>test2</div>

使用非贪婪的数量词的正则表达式：<div>.*?</div>
匹配结果：<div>test1</div>

正则表达式二采用的是非贪婪模式，在匹配到第一个""时使整个表达式匹配成功，由于采用的是非贪婪模式，所以结束匹配，不再向右尝试，匹配结果为<div>test1</div>。

非贪婪模式在匹配html结构化数据时非常有效，可以将最小html结构匹配出来

爬取网站，并使用正则匹配完成html解析

#coding:utf-8

import urllib.request

import os

import re

user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'

headers = { 'User-Agent' : user_agent }

url = 'https://baijiahao.baidu.com/s?id=1653631010620369314&wfr=spider&for=pc'

req = urllib.request.Request(url,headers=headers)

response = urllib.request.urlopen(req)

the_page = response.read().decode()

pattern = re.compile(r'<p>(.*?)</p>',re.S)

t = pattern.findall(the_page)

# pattern_two = re.compile(r'<span class="bjh-strong">.*</span>')

# t_two = pattern_two.findall()

file = open('baidu.txt','w+')

for x in t[0:7]:

    print('-------------------')

    # print(x)

    pattern_two = re.compile(r'<span class="bjh-p">(.*)</span>')

    t_two = pattern_two.findall(x)

    print(t_two)

    pattern_three = re.compile(r'<span class="bjh-strong">(.*?)</span>',re.S)

    t_three = pattern_three.sub(' ',t_two[0])

    pattern_four = re.compile(r'<span class="bjh-br">(.*?)</span>',re.S)

    t_four = pattern_four.sub(' ',t_three)

    print(t_four)

    file.write(t_four+'\n')

# print('-----------------------two')

# print(len(t))

# print(t)

最后写入到文本中的内容

老婆躺我怀里问：你要是有100亿，你想做的第一件事是什么？我脱口而出：把你休了。(当时没过脑，说完感觉要坏事)老婆微怒：那第二件事呢？“把你娶回来”“为什么？”“以前娶你时办得太简单，所以要再办一次，让你嫁的风光点。”老婆一脸感动。当时，我对自己说：我真是太机智了！

 今天同学问我：为什么冬天那么冷，女的要上装穿棉袄，下穿丝袜呢？这时旁边那位来了一句：鲜奶要保温，火腿要冷藏……

 去超市购物，一位美丽的少妇突然跟我打招呼。我很是吃惊，因为我想不起在哪里见过她了。

于是我问：“请问我认识你吗？”少妇回答：“我觉得我有个孩子的父亲是你。”

我顿时五雷轰顶，想起了自己一生中唯一一次对妻子不忠的那一刻，连忙否认道：不可能的，我当时明明采取了安全措施！

少妇疑惑地说：什么意思？我是想跟你谈谈你儿子的作业。原来她是我儿子的班主任老师。

 高中时喜欢一个女孩，却没勇气表白，所以我决定每天写一篇日记，笔记本写完之时就是我表白之日！有一天，我正写着日记，她却突然向我走来，拿起我的日记本看了一眼，然后把后面空白的纸全都撕了！那一刻，我就静静地看着她，仿佛做梦一般，就在我站起来准备大声表白时她却捂着肚子跑去了厕所！

python 正则表达式简单使用的更多相关文章

Python 正则表达式简单了解
match 从字符串的开始匹配如果开头不符合要求就会报错 search 用字符串里的每一个元素去匹配找的元素 1.匹配单个字符 \d 数字 \D 非数字 . 匹配任意字符除了\n [] ...
【Python】正则表达式简单教程
说明:本文主要是根据廖雪峰网站的正则表达式教程学习,并根据需要做了少许修改,此处记录下来以备后续查看. <Python正则表达式纯代码极简教程>链接:https://www.cnblogs ...
Python正则表达式的简单应用和示例演示
前一阵子小编给大家连续分享了十篇关于Python正则表达式基础的文章,感兴趣的小伙伴可以点击链接进去查看.今天小编给大家分享的是Python正则表达式的简单应用和示例演示,将前面学习的Python正则 ...
学会python正则表达式就是这么简单
一前言本篇文章带大家快速入门正则表达式的使用,正则表达式的规则不仅适用python语言,基本大多数编程语言都适用,在日常使用中极为广泛,读者们有必要学好正则表达式.看完这篇文章,读者们要理解什么是正 ...
Python正则表达式就是这么简单【新手必学】
一前言本篇文章带大家快速入门正则表达式的使用,正则表达式的规则不仅适用python语言,基本大多数编程语言都适用,在日常使用中极为广泛,读者们有必要学好正则表达式.看完这篇文章,读者们要理解什么是正则 ...
3.Python爬虫入门_正则表达式(简单例子)
#2019-11-23 import requests import time import re #Python正则表达式库 if __name__=='__main__': #海量爬取图片数据 # ...
Python 正则表达式入门（中级篇）
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
Python 正则表达式入门（初级篇）
Python 正则表达式入门(初级篇) 本文主要为没有使用正则表达式经验的新手入门所写. 转载请写明出处引子首先说正则表达式是什么? 正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达 ...
python正则表达式re
Python正则表达式: re 正则表达式的元字符有. ^ $ * ? { [ ] | ( )．表示任意字符［］用来匹配一个指定的字符类别,所谓的字符类别就是你想匹配的一个字符集,对于字符集中的字符可 ...
python实现简单爬虫功能
在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材. 我们最常规的做法就是通过鼠标右键,选择另存为.但有些图片鼠标右键的 ...

随机推荐

Java中的对象到底是什么
对象是现实世界中的一切物体(实体,或能够定义的东西) Smalltalk是第一个成功的面向对象的语言在编程世界中,对象通过类来实例化:同一个类型的对象可以接受相同的消息状态+行为+标识=对象每个 ...
设置使用mac 自带终端记住密码
厌倦了 mac上每次登录linux服务器或树莓派时总是需要输入用户名和密码. 使用下列方法, 可以减少上述操作. 新建一个 .ssh 文件 vim pi4.ssh 添加如下内容 #!/usr/bin/ ...
Qt源码解析——元对象系统热身
关键词:Qt 源码 QObject QMetaObject 元对象系统属性事件信号槽概述原系列文章地址官方文档第二章内容就是元对象系统,它在介绍里描述到: Qt的元对象系统提供了信号和槽 ...
编译wasm Web应用
刚学完WebAssembly的入门课,卖弄一点入门知识. 首先我们知道wasm是目标语言,是一种新的V-ISA标准,所以编写wasm应用,正常来说不会直接使用WAT可读文本格式,更不会用wasm字节码 ...
高效使用 PyMongo 进行 MongoDB 查询和插入操作
插入到集合中: 要将记录(在MongoDB中称为文档)插入到集合中,使用insert_one()方法.insert_one()方法的第一个参数是一个包含文档中每个字段的名称和值的字典. import ...
【HITCON 2017】SSRFme——最简单伪协议思路
[HITCON 2017]SSRFme 1. 看题代码: <?php if (isset($_SERVER['HTTP_X_FORWARDED_FOR'])) { $http_x_header ...
【GIT】学习day01 | 内嵌git安装教程【外包杯】
Git是一个开源的分布式版本控制系统,可以有效.高速地处理从很小到非常大的项目版本管理第一步:下载Git 下载地址https://git-scm.com/downloads 如果出现下面这种情况无法 ...
掌握这些，轻松管理BusyBox：inittab文件的配置和作用解析
BusyBox 是一个轻量级的开源工具箱,其中包含了许多标准的 Unix 工具,例如 sh.ls.cp.sed.awk.grep 等,同时它也支持大多数关键的系统功能,例如自启动.进程管理.启动脚本等 ...
国内 AI 成图第一案！你来你会怎么判？
我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识, ...
深入了解UUID：生成、应用与优势
一.引言在当今数字化时代,唯一标识一个对象的能力变得越来越重要.UUID(Universally Unique Identifier,通用唯一标识符)应运而生,作为一种保证全球唯一性的标识方法,广泛 ...

python 正则表达式简单使用

定义：

功能：

原理：