python正则表达式笔记1

最近工作中经常用到正则表达式处理数据，慢慢发现了正则表达式的强大功能，尤其在数据处理工作中，记录下来分享给大家。

一、正则表达式语法介绍

正则表达式（或 RE）指定了一组与之匹配的字符串；模块内的函数可以检查某个字符串是否与给定的正则表达式匹配（或者正则表达式是否匹配到字符串，这两种说法含义相同）。

正则表达式可以拼接；如果 A 和 B 都是正则表达式，则 AB 也是正则表达式。通常，如果字符串 p 匹配 A，并且另一个字符串 q 匹配 B，那么 pq 可以匹配 AB。
除非 A 或者 B 包含低优先级操作，A 和 B 存在边界条件；或者命名组引用。所以，复杂表达式可以很容易的从这里描述的简单源语表达式构建。

正则表达式可以包含普通或者特殊字符。绝大部分普通字符，比如 'A', 'a', 或者 '0'，都是最简单的正则表达式。它们就匹配自身。
你可以拼接普通字符，所以 last 匹配字符串 'last'。通常正则表达式都会用到特殊字符匹配规则。

正则表达式，查找匹配字符串常用于以下几种场景：

1，去除匹配数据。
2，提取匹配数据。
3，替换匹配数据。
4，检测匹配数据。

二、正则表达式常用方法
Python 基于正则表达式提供了不同的原始操作:
--这3个方法更多用于检测判断
re.match(pattern, string) 只在字符串的开头位置检测匹配。
re.search(pattern, string) 在字符串中的任何位置检测匹配。
re.fullmatch(pattern, string) 检测整个字符串是否匹配。

--这2个方法更多用于查找匹配数据，提取或替换获取目标结果数据。
re.findall(pattern, string) 在字符串中的任何位置检测匹配的字符并返回匹配的字符列表。
re.sub(pattern, repl, string) 在字符串中的任何位置匹配替换的字符并返回结果字符串。

print('============================')

rst1 = re.match("c", "abcdef")    # No match

print(rst1)

rst2 = re.search("c", "abcdef")   # Match

print(rst2)

# <re.Match object; span=(2, 3), match='c'>

rst3 = re.fullmatch("p.*n", "python") # Match

print(rst3)

# <re.Match object; span=(0, 6), match='python'>

rst4 = re.fullmatch("r.*n", "python") # No match

print(rst4)

rst5 = re.findall(r"\d+", "12pyt34hon56")

print(rst5)

# ['12', '34', '56']

rst6 = re.sub(r"\d+", "", "12pyt34hon56")

print(rst6)

# python

print('============================')

三、正则表达式常用特殊字符
.
(点) 在默认模式，匹配除了换行的任意字符。如果指定了标签 DOTALL ，它将匹配包括换行符的任意字符。

print('============================')

# 全部替换成统一数据

str_list1 = ['万安县', '万方县', '万在县', '万义县']

for i in range(len(str_list1)):

    # 匹配替换的字符

    str_list1[i] = re.sub("万.县", "万安县", str_list1[i])

print(str_list1)

# ['万安县', '万安县', '万安县', '万安县']

print('============================')

^
(插入符号) 匹配字符串的开头，并且在 MULTILINE 模式也匹配换行后的首个符号。

$
匹配字符串尾或者在字符串尾的换行符的前一个字符，在 MULTILINE 模式下也会匹配换行符之前的文本。
foo 匹配 'foo' 和 'foobar'，但正则表达式 foo$ 只匹配 'foo'。
更有趣的是，在 'foo1\nfoo2\n' 中搜索 foo.$，通常匹配 'foo2'，
但在 MULTILINE 模式下可以匹配到 'foo1'；在 'foo\n' 中搜索 $ 会找到两个（空的）匹配：
一个在换行符之前，一个在字符串的末尾。

*
对它前面的正则式匹配0到任意次重复，尽量多的匹配字符串。
ab* 会匹配 'a'，'ab'，或者 'a' 后面跟随任意个 'b'。
ab* 会匹配 : 'a','ab','abb','abbb' 等等.

+
对它前面的正则式匹配1到任意次重复，尽量多的匹配字符串。
ab+ 会匹配 'a' 后面跟随1个以上到任意个 'b'，它不会匹配 'a'。
ab+ 会匹配 : 'ab','abb','abbb' 等等.

?
对它前面的正则式匹配0到1次重复。
ab? 会匹配 'a' 或者 'ab'。

\
转义特殊字符（允许你匹配 '*', '?', 或者此类其他），或者表示一个特殊序列.

print('============================')

# 保留数字 和 ¥数字 的金额格式数据，其他数据排除

str_list2 = ['5005', '200.85', '¥12450', '¥100.50', '张三', '2023.08.09']

get_list2 = []

for ss in str_list2:

    # 查找匹配的字符，下面3个方法等价匹配

    if re.search(r'(^¥?\d+\.?\d*$)', ss):

        # if re.search(r'^¥?\d+\.?\d*$', ss):

        # if re.fullmatch(r'¥?\d+\.?\d*', ss):

        print('保留')

        get_list2.append(ss)

    else:

        print('去除')

        continue

print(get_list2)

# ['5005', '200.85', '¥12450', '¥100.50']

print('============================')

{m}
对其之前的正则式指定匹配 m 个重复；少于 m 的话就会导致匹配失败。
比如， a{6} 将匹配6个 'a' , 但是不能是5个。

{m,n}
对正则式进行 m 到 n 次匹配，在 m 和 n 之间取尽量多。
比如，a{3,5} 将匹配 3 到 5个 'a'。忽略 m 意为指定下界为0，忽略 n 指定上界为无限次。
比如，a{4,}b 将匹配 'aaaab' 或者1000个 'a' 尾随一个 'b'，但不能匹配 'aaab'。
逗号不能省略，否则无法辨别修饰符应该忽略哪个边界。

print('============================')

# 保留8位带符号格式的日期数据，其他数据排除

str_list3 = ['2023年08月09日', '2023-08-09', '2023/08/09', '20230809', '2023/8/9']

get_list3 = []

for ss in str_list3:

    # 查找匹配的字符，下面3个方法等价匹配

    if re.search(r'[\d年月日]{11}', ss) or re.search(r'[\d\-\/]{9,10}', ss):

        print('保留')

        get_list3.append(ss)

    else:

        print('去除')

        continue

print(get_list3)

# ['2023年08月09日', '2023-08-09', '2023/08/09']

print('============================')

[]
用于表示一个字符集合。在一个集合中：
1, 字符可以单独列出，比如 [amk] 匹配 'a'， 'm'，或者 'k'。
2, 可以表示字符范围，通过用 '-' 将两个字符连起来。
比如 [a-z] 将匹配任何小写ASCII字符，
[0-9] 将匹配从 0到9 的1位数字，
[0-5][0-9] 将匹配从 00 到 59 的两位数字，
[0-9A-Fa-f] 将匹配任何十六进制数位。
如果-进行了转义（比如 [a\-z]）或者它的位置在首位或者末尾（如 [-a] 或 [a-]），它就只表示普通字符 '-'。
3, 特殊字符在集合中会失去其特殊意义。比如 [(+*)] 只会匹配这几个字面字符之一 '(', '+', '*', or ')'。
4, 字符类如 \w 或者 \S (如下定义) 在集合内可以接受，它们可以匹配的字符由 ASCII 或者 LOCALE 模式决定。
5, 不在集合范围内的字符可以通过'取反'来进行匹配。
如果集合首字符是 '^' ，所有不在集合内的字符将会被匹配，
比如 [^5] 将匹配所有字符，除了 '5'，
[^^] 将匹配所有字符，除了 '^'. ^ 如果不在集合首位，就没有特殊含义。
6, 要在集合内匹配一个 ']' 字面值，可以在它前面加上反斜杠，或是将它放到集合的开头。
例如，[()[\]{}] 和 []()[{}] 都可以匹配右方括号，以及左方括号，花括号和圆括号。

(...)
（组合），匹配括号内的任意正则表达式，并标识出组合的开始和结尾。
匹配完成后，组合的内容可以被获取，并可以在之后用 \number 转义序列进行再次匹配，之后进行详细说明。
要匹配字符 '(' 或者 ')', 用 $ 或 $, 或者把它们包含在字符集合里: [(], [)].

print('============================')

# 保留8位带符号格式的日期数据，其他数据排除

str_list3 = ['2023年08月09日', '2023-08-09', '2023/08/09', '20230809', '2023/8/9']

get_list3 = []

for ss in str_list3:

    # 查找匹配的字符，下面3个方法等价匹配

    if re.search(r'[\d年月日]{11}|[0-9\-\/]{9,10}', ss):

        print('保留')

        get_list3.append(ss)

    else:

        print('去除')

        continue

print(get_list3)

# ['2023年08月09日', '2023-08-09', '2023/08/09']

print(re.search(r'(¥\d+)', '¥12450'))

# <re.Match object; span=(0, 6), match='¥12450'>

print('============================')

python正则表达式笔记1的更多相关文章

python 正则表达式笔记
#!usr/bin/env python3 #-*- coding:utf-8 -*- #正则表达式 #在正则表达式中,如果直接给出字符,就是精确匹配.用\d可以匹配一个数字,\w可以匹配一个字母.数 ...
python3.4学习笔记(十二) python正则表达式的使用，使用pyspider匹配输出带.html结尾的URL
python3.4学习笔记(十二) python正则表达式的使用,使用pyspider匹配输出带.html结尾的URL实战例子:使用pyspider匹配输出带.html结尾的URL:@config(a ...
[Python学习笔记]正则表达式总结
常用缩写字符及其含义表格查询缩写字符分类含义 \d 0-9的任意数字 \D 除0-9的数字以外的任何字符 \w 任何字母.数字或下划线字符(可以认为是匹配"单词"字符) \W ...
Python 正则表达式学习笔记
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程 ...
python学习笔记----正则表达式
正则: regular expression 常用的场景: #正则的包 >>> import re #match:开头匹配,匹配到,返回一个匹配对象,否则返回None >> ...
7.Python 正则表达式学习笔记
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程 ...
Python正则表达式学习笔记
python第一个正则表达式 1. import re : python正则表达式模块 2. 第一个正则表达式 re.compile(r'imooc') pattern.match('imooc py ...
Python学习笔记：re模块（正则表达式）
本文是部分内容参考自:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html,虽然这篇博客是基于Python2.4的老版本,但是基础的P ...
Web Scraping with Python读书笔记及思考
Web Scraping with Python读书笔记标签(空格分隔): web scraping ,python 做数据抓取一定一定要明确:抓取\解析数据不是目的,目的是对数据的利用一般的数据 ...
[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...

随机推荐

Vue3项目运行时报错误：TypeError Cannot read properties of undefined (reading 'filter')
let matched = this.$route.mached.filter(item => item.name);方法报错:TypeError Cannot read properties ...
[转]EasyUI 搭建后台登录界面和管理系统主界面
原文链接: EasyUI 搭建后台登录界面和管理系统主界面
React 应用的 Nginx 缓存控制
典型 React 应用面临的缓存问题,可通过 Nginx 配置进行解决通用部署构建应用后,只需使用 Nginx 指向静态文件即可 server { listen 80; root /PATH/TO ...
JVM实战—4.JVM垃圾回收器的原理和调优
大纲 1.JVM的新生代垃圾回收器ParNew如何工作 2.JVM老年代垃圾回收器CMS是如何工作的 3.线上部署系统时如何设置垃圾回收相关参数 4.新生代垃圾回收参数如何优化 5.老年代的垃圾回收参 ...
为什么在 Windows 下用 Ctrl+Z 退出 Python 而 Linux 下用 Ctrl+D 呢？
打开我们的命令行,输入 python ,我们会进入 python 的交互模式. 当我们想退出 python ,返回我们的 shell 时,你将如何退出? 如上,两个行之有效的方法是输入 exit() ...
C# mysql 带参数语句
带参数语句通常用于批量操作,例如批量插入. 截取一小段代码,修改后做一个简单的示例: 1. 表结构: CREATE TABLE `数据` ( `createtime` datetime NOT NUL ...
在SOUI中将自定义配置信息写到布局文件中
SOUI的布局XML文件保存布局必须的信息.特定场合中,用户可能会需要在布局中指定业务需要处理的属性. 比如启程输入法的皮肤.有的皮肤支持高分屏,有的皮肤不支持.对于这个场景,比较理想的方案是直接在皮 ...
[记录点滴]Ionic编译过程的研究
[记录点滴]Ionic编译过程的研究 0x00 摘要之前研究Ionic编译过程的笔记,发出来做个记录.当时是因为有些图片没有拷贝到应用中,所以需要调试编译过程. 0x01 入口编译的入口在plat ...
Flink监控看板Dashboard解析
一. 二.常见问题排查 1.数据反压背压(Backpressure)机制排查点击JobName 点击某个算子点击Backpressure查看,状态为HIGH时,则存在数据反压问题注:若流程为A ...
FreeSql学习笔记——5.删除
前言对于FreeSql来说,删除的支持并不强大,只有在Where条件不为空的时候才执行,否则返回0或默认值,不执行删除操作: 语法 fsql.Delete<Class>( ...

python正则表达式笔记1

python正则表达式笔记1的更多相关文章

随机推荐

热门专题