数据解析之re正则表达式

1. 正则基础

1.1 为什么使用正则

需求

判断一个字符串是否是手机号
解决

编写一个函数，给函数一个字符串，如果是手机号则返回True，否则返回False
代码

def isPhone(phone):

    # 长度为11

    # 全部都是数字字符

    # 以1开头

    pass

if isPhone("13812345678"):

    print("是手机号")

else:

    print("不是手机号")

注意

如果使用正则会让这个问题变得简单

1.2 正则与re模块简介

概述： 正则表达式，又称规则表达式

正则表达式(regular expression)描述了一种字符串匹配的模式（pattern）

正则匹配是一个模糊的匹配(不是精确匹配)

re：python自1.5版本开始增加了re模块，该模块提供了perl风格的正则表达式模式，re模块是python语言拥有了所有正则表达式的功能

如下四个方法经常使用
- match()
- search()
- findall()
- finditer()

2. 正则表达式

2.1 匹配单个字符与数字

匹配	说明
.	匹配除换行符以外的任意字符，当flags被设置为re.S时，可以匹配包含换行符以内的所有字符
[]	里面是字符集合，匹配[]里任意一个字符
[0123456789]	匹配任意一个数字字符
[0-9]	匹配任意一个数字字符
[a-z]	匹配任意一个小写英文字母字符
[A-Z]	匹配任意一个大写英文字母字符
[A-Za-z]	匹配任意一个英文字母字符
[A-Za-z0-9]	匹配任意一个数字或英文字母字符
[^lucky]	[]里的^称为脱字符，表示非，匹配不在[]内的任意一个字符
^[1]	以[]中内的某一个字符作为开头
\d	匹配任意一个数字字符，相当于[0-9]
\D	匹配任意一个非数字字符，相当于`[^0-9]`
\w	匹配字母、下划线、数字中的任意一个字符，相当于[0-9A-Za-z_]
\W	匹配非字母、下划线、数字中的任意一个字符，相当于`[^0-9A-Za-z_]`
\s	匹配空白符(空格、换页、换行、回车、制表)，相当于[ \f\n\r\t]
\S	匹配非空白符(空格、换页、换行、回车、制表)，相当于`[^ \f\n\r\t]`

2.2 匹配锚字符

锚字符:用来判定是否按照规定开始或者结尾

匹配	说明
^	行首匹配，和[]里的^不是一个意思
$	行尾匹配

2.3 限定符

限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有 * 或 + 或 ? 或 {n} 或 {n,} 或 {n,m} 共6种。

匹配	说明
(xyz)	匹配括号内的xyz，作为一个整体去匹配一个单元子存储
x?	匹配0个或者1个x，非贪婪匹配
x*	匹配0个或任意多个x
x+	匹配至少一个x
x	确定匹配n个x，n是非负数
x	至少匹配n个x
x	匹配至少n个最多m个x
x\|y	\|表示或的意思，匹配x或y

3. re模块中常用函数

通用flags（修正符）

值	说明
re.I	是匹配对大小写不敏感
re.S	使.匹配包括换行符在内的所有字符

通用函数

获取匹配结果
- 使用group()方法获取到匹配的值
- groups() 返回一个包含所有小组字符串的元组(也就是自存储的值)，从 1 到所含的小组号。

3.1 match()函数

原型
```
def match(pattern, string, flags=0)
```
功能

匹配成功返回匹配的对象

匹配失败返回 None

获取匹配结果
- 使用group()方法获取到匹配的值
- groups() 返回一个包含所有小组字符串的元组，从 1 到所含的小组号。
注意：从第一位开始匹配只匹配一次

参数

参数说明

pattern 匹配的正则表达式(一种字符串的模式)

string 要匹配的字符串

flags 标识位，用于控制正则表达式的匹配方式
代码

参数	说明
pattern	匹配的正则表达式(一种字符串的模式)
string	要匹配的字符串
flags	标识位，用于控制正则表达式的匹配方式

import re

res = re.match('\d{2}','123')

print(res.group())

#给当前匹配到的结果起别名

s = '3G4HFD567'

re.match("(?P<value>\d+)",s)

print(x.group(0))

print(x.group('value'))

3.2 searce()函数

原型
```
def search(pattern, string, flags=0)
```
功能

扫描整个字符串string，并返回第一个pattern模式成功的匹配

匹配失败返回 None
参数

参数说明

pattern 匹配的正则表达式(一种字符串的模式)

string 要匹配的字符串

flags 标识位，用于控制正则表达式的匹配方式
注意：

只要字符串包含就可以

只匹配一次
示例

参数	说明
pattern	匹配的正则表达式(一种字符串的模式)
string	要匹配的字符串
flags	标识位，用于控制正则表达式的匹配方式

import re

res = re.search('[a-z]', '131A3ab889s')

print(res)

print(res.group()

注意: 与search的区别

相同点：都只匹配一次
不同点：
- search是在要匹配的字符串中包含正则表达式的内容就可以
- match 必须第一位就开始匹配否则匹配失败

3.3 findall()函数（返回列表）

原型
```
def findall(pattern, string, flags=0)
```
功能

扫描整个字符串string，并返回所有匹配的pattern模式结果的字符串列表
参数

参数说明

pattern 匹配的正则表达式(一种字符串的模式)

string 要匹配的字符串

flags 标识位，用于控制正则表达式的匹配方式
示例

参数	说明
pattern	匹配的正则表达式(一种字符串的模式)
string	要匹配的字符串
flags	标识位，用于控制正则表达式的匹配方式

myStr = """

<a href="http://www.baidu.com">百度</a>

<A href="http://www.taobao.com">淘宝</A>

<a href="http://www.id97.com">电

影网站</a>

<i>我是倾斜1</i>

<i>我是倾斜2</i>

<em>我是倾斜2</em>

"""

# html里是不区分大小写

# （1）给正则里面匹配的 加上圆括号 会将括号里面的内容进行 单独的返回

res = re.findall("(<a href=\"http://www\.(.*?)\.com\">(.*?)</a>)",myStr) #[('<a href="http://www.baidu.com">百度</a>', 'baidu', '百度')]

# 括号的区别

res = re.findall("<a href=\"http://www\..*?\.com\">.*?</a>",myStr) #['<a href="http://www.baidu.com">百度</a>']

#(2) 不区分大小写的匹配

res = re.findall("<a href=\"http://www\..*?\.com\">.*?</a>",myStr,re.I) #['<a href="http://www.baidu.com">百度</a>', '<A href="http://www.taobao.com">淘宝</A>']

res = re.findall("<[aA] href=\"http://www\..*?\.com\">.*?</[aA]>",myStr) #['<a href="http://www.baidu.com">百度</a>']

# (3) 使.支持换行匹配

res = re.findall("<a href="http://www..?.com">.?</a>",myStr,re.S) #

# (4) 支持换行 支持不区分大小写匹配

res = re.findall("<a href="http://www..?.com">.?</a>",myStr,re.S|re.I) #

print(res)

3.4 finditer()函数

原型
```
def finditer(pattern, string, flags=0)
```
功能

与findall()类似，返回一个迭代器
参数

参数说明

pattern 匹配的正则表达式(一种字符串的模式)

string 要匹配的字符串

flags 标识位，用于控制正则表达式的匹配方式
代码

参数	说明
pattern	匹配的正则表达式(一种字符串的模式)
string	要匹配的字符串
flags	标识位，用于控制正则表达式的匹配方式

import re

res = re.finditer('\w', '12hsakda1')

print(res)

print(next(res))

for i in res:

    print(i)

3.5 split()函数

作用：切割字符串

原型：

def split(patter, string, maxsplit=0, flags=0)

参数

pattern 正则表达式

string 要拆分的字符串

maxsplit 最大拆分次数默认拆分全部

flags 修正符
示例

import re

myStr = "asdas\rd&a\ts12d\n*a3sd@a_1sd"

#通过特殊字符 对其进行拆分 成列表

res = re.split("[^a-z]",myStr)

res = re.split("\W",myStr)

3.6 修正符

作用

对正则进行修正
使用

search/match/findall/finditer 等函数 flags参数的使用
修正符

re.I 不区分大小写匹配

re.S 使.可以匹配换行符匹配任意字符
使用

re.I

print(re.findall('[a-z]','AaBb'))

print(re.findall('[a-z]','AaBb', flags=re.I))

re.S

print(re.findall('<b>.*?</b>','<b>b标签</b>'))

print(re.findall('<b>.*?</b>','<b>b标\n签</b>', flags=re.S))

4. 正则高级

4.1 分组&起名称

概念

处理简单的判断是否匹配之外，正则表达式还有提取子串的功能，用()表示的就是要提取的分组
代码

#给当前匹配到的结果起别名

s = '3G4HFD567'

re.match("(?P<value>\d+)",s)

print(x.group(0))

print(x.group('value'))

说明
- 正则表达式中定义了组，就可以在Match对象上用group()方法提取出子串来
- group(0)永远是原始字符串，group(1)、group(2)……表示第1、2、……个子串

4.2 编译

概念

当在python中使用正则表达式时，re模块会做两件事，一件是编译正则表达式，如果表达式的字符串本身不合法，会报错。另一件是用编译好的正则表达式提取匹配字符串
编译优点

如果一个正则表达式要使用几千遍，每一次都会编译，出于效率的考虑进行正则表达式的编译，就不需要每次都编译了，节省了编译的时间，从而提升效率

compile()函数

原型
```
def compile(pattern, flags=0)
```
作用

将pattern模式编译成正则对象
参数

参数说明

pattern 匹配的正则表达式(一种字符串的模式)

flags 标识位，用于控制正则表达式的匹配方式
flags

值说明

re.I 是匹配对大小写不敏感

re.S 使.匹配包括换行符在内的所有字符
返回值

编译好的正则对象

参数	说明
pattern	匹配的正则表达式(一种字符串的模式)
flags	标识位，用于控制正则表达式的匹配方式

示例

import re

re_phone = re.compile(r"(0\d{2,3}-\d{7,8})")

print(re_phone, type(re_phone))

编译后其他方法的使用

原型

	def match(self, string, pos=0, endpos=-1)

	def search(self, string, pos=0, endpos=-1)

	def findall(self, string, pos=0, endpos=-1)

	def finditer(self, string, pos=0, endpos=-1)

参数

参数	说明
string	待匹配的字符串
pos	从string字符串pos下标开始
endpos	结束下标

示例

s1 = "lucky's phone is 010-88888888"

s2 = "kaige's phone is 010-99999999"

ret1 = re_phone.search(s1)

print(ret1, ret1.group(1))

ret2 = re_phone.search(s2)

print(ret2, ret2.group(1))

4.3 贪婪与非贪婪

贪婪模式

贪婪概念：匹配尽可能多的字符
- .+ 匹配换行符以外的字符至少一次
- .* 匹配换行符以外的字符任意次
实例
```
res = re.search('.+', 'b标签')

res = re.search('.*', 'b标签b标签b标签b标签')
```
非贪婪模式

非贪婪概念：尽可能少的匹配称为非贪婪匹配，*?、+?即可

.+? 匹配换行符以外的字符至少一次拒绝贪婪

.*? 匹配换行符以外的字符任意次拒绝贪婪

实例

res = re.search('<b>.+?</b>', '<b>b标签</b><b>b标签</b>')

res = re.search('<b>.*?</b>', '<b>b标签</b><b>b标签</b><b>b标签</b><b>b标签</b>')

lucky ︎

数据解析之re正则表达式的更多相关文章

精通 Oracle+Python，第 3 部分：数据解析
进行数据解析的理由不计其数,相关的工具和技巧也同样如此.但是,当您需要用这些数据做一些新的事情时,即使有“合适的”工具可能也是不够的.这一担心对于异类数据源的集成同样存在.用来做这项工作的合适工具迟早 ...
Python网络爬虫之三种数据解析方式
1. 正则解析正则例题 import re # string1 = """<div>静夜思 # 窗前明月光 # 疑是地上霜 # 举头望明月 # 低头思故乡 ...
05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Request模块—数据解析工具
一.爬虫基本步骤指定URL信息发起请求获取响应数据对响应数据进行数据解析持久化存储二.数据解析 1. 正则表达式 (1) 基本语法 1. 单字符: . : 除换行以外所有字符 [] :[a ...
python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1)
一.数据类型及解析方式一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的数据. 非结构化数据:先有数据,再有结构, 结构化数 ...
Python爬虫之三种数据解析方式
一.引入二.回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
数据解析,懒加载,代理ip
在前面的requests流程中,还缺少了一步重要的流程,就是在持久化存储之前需要进行制定的数据解析.因为在大多数情况下,我们都会使用聚焦爬虫,也就是爬取页面中的指定部分数据值,而不是整个页面的数据. ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
python网络爬虫数据中的三种数据解析方式
一.正则解析常用正则表达式回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线 ...

随机推荐

编译 windows 上的 qt 静态库
记录命令行编译过程: 针对 Qt 5.15.2 版本, 只需要 Source 文件就行打开 x86 Native Tools Command Prompt for VS 2019,如果需要编译 x6 ...
win32 - 关于GDI的RGB的数据分析
此文章为小结,仅供参考. 第一种情况,从桌面DC获取RGBA的数据. 32位 HDC hdc, hdcTemp; RECT rect; BYTE* bitPointer; int x, y; int ...
urllib模块常用方法
import urllib.parse ## urlparse() 对url进行解析,并对url按照一定格式进行拆分,返回一个包含6个字符串的元组(协议,位置,路径,参数,查询,判断), 可以将获得的 ...
com.fasterxml.jackson.databind.exc.InvalidDefinitionException
@JsonIgnoreProperties 此注解是类注解,作用是json序列化时将Java bean中的一些属性忽略掉,序列化和反序列化都受影响. 写法将此标签加在model 类的类名上 ,可以多个 ...
Redisson 框架中的分布式锁
实现分布式锁通常有三种方式:数据库.Redis 和 Zookeeper.我们比较常用的是通过 Redis 和 Zookeeper 实现分布式锁.Redisson 框架中封装了通过 Redis 实现的分 ...
从 HPC 到 AI：探索文件系统的发展及性能评估
随着 AI 技术的迅速发展,模型规模和复杂度以及待处理数据量都在急剧上升,这些趋势使得高性能计算(HPC)变得越来越必要.HPC 通过集成强大的计算资源,比如 GPU 和 CPU 集群,提供了处理和分 ...
Codeforces Round 787 (Div. 3)D. Vertical Paths
题目链接题意:给定一棵树,将这棵树划分成几天互不相交的链,要求最小化链的数量思路:每个叶子节点一定在一条链中,所以链的数量就是叶子节点的数量,从叶子节点往上跳直到根节点,边跳边标记,路径上所有点都 ...
php-fpm进程过多，导致CPU过高
今天发现服务器的php-fpm进程突然过多,导致CPU过高,其他项目的访问受到影响.我通过以下三个基本步骤定位到了问题,发现了其原因. 基本步骤: 先用top命令查看进程情况,找出cpu最高的进程pi ...
vscode 自定义当前行转大写快捷键 alt + shift + U
vscode 自定义当前行转大写快捷键 alt + shift + U
[VueJsDev] 基础知识 - CommonJs VS ES Module
[VueJsDev] 目录列表 https://www.cnblogs.com/pengchenggang/p/17037320.html CommonJs VS ES Module ::: deta ...

数据解析之re正则表达式

数据解析之re正则表达式

1. 正则基础

1.1 为什么使用正则

1.2 正则与re模块简介

2. 正则表达式

2.1 匹配单个字符与数字

2.2 匹配锚字符

2.3 限定符

3. re模块中常用函数

3.1 match()函数

3.2 searce()函数

3.3 findall()函数（返回列表）

3.4 finditer()函数

3.5 split()函数

3.6 修正符

4. 正则高级

4.1 分组&起名称

4.2 编译

4.3 贪婪与非贪婪

数据解析之re正则表达式的更多相关文章

随机推荐

热门专题