python正则表达式笔记2

由 '\' 和一个字符组成的特殊序列在以下列出。
如果普通字符不是ASCII数位或者ASCII字母，那么正则样式将匹配第二个字符。比如，\$ 匹配字符 '$'.

\number
匹配数字代表的组合。每个括号是一个组合，组合从1开始编号。
比如 (.+) \1 匹配 'the the' 或者 '55 55', 但不会匹配 'thethe' (注意组合后面的空格)。
这个特殊序列只能用于匹配前面99个组合。
如果 number 的第一个数位是0，或者 number 是三个八进制数，它将不会被看作是一个组合，而是八进制的数字值。
在 '[' 和 ']' 字符集合内，任何数字转义都被看作是字符。

print('============================')

# 保留中间空格，左右重复字符串，其他数据排除

str_list1 = ['python python', 'python java', 'helloworld', '2023 2023', '20221212']

get_list1 = []

for ss in str_list1:

    # 查找匹配的字符, 注意组合后面的空格, \1 代表重复前面括号组合规则(.+)

    if re.search(r"(.+) \1", ss):

        print('保留')

        get_list1.append(ss)

    else:

        print('去除')

        continue

print(get_list1)

# ['python python', '2023 2023']

print('============================')

\A
只匹配字符串开始。

\Z
只匹配字符串结尾。

print('============================')

# 保留数字或小数的金额格式数据，其他数据排除

str_list2 = ['5005', '200.85', '¥12450', '¥100.50', '张三', '2023.08.09']

get_list2 = []

for ss in str_list2:

    # 查找匹配的字符，下面方法等价匹配

    if re.search(r'\A\d+\.?\d*\Z', ss):

        # if re.search(r'(\A\d+\.?\d*\Z)', ss):

        # if re.search(r'(^\d+\.?\d*$)', ss):

        # if re.search(r'^\d+\.?\d*$', ss):

        # if re.fullmatch(r'\d+\.?\d*', ss):

        print('保留')

        get_list2.append(ss)

    else:

        print('去除')

        continue

print(get_list2)

# ['5005', '200.85', '¥12450', '¥100.50']

print('============================')

\b
匹配空字符串，但只在单词开始或结尾的位置。一个单词被定义为一个单词字符的序列。
注意，通常 \b 定义为 \w 和 \W 字符之间，或者 \w 和字符串开始/结尾的边界，
意思就是 r'\bfoo\b' 匹配 'foo', 'foo.', '(foo)', 'bar foo baz' 但不匹配 'foobar' 或者 'foo3'。

默认情况下，Unicode字母和数字是在Unicode样式中使用的，但是可以用 ASCII 标记来更改。
如果 LOCALE 标记被设置的话，词的边界是由当前语言区域设置决定的，\b 表示退格字符，以便与Python字符串文本兼容。

print('============================')

str_list3 = ['foo', 'foo.', '(foo)', 'bar foo baz', 'foobar', 'foo3']

for ss in str_list3:

    # 查找匹配的字符

    print(re.search(r'\bfoo\b', ss))

print('============================')

'''

<re.Match object; span=(0, 3), match='foo'>

<re.Match object; span=(0, 3), match='foo'>

<re.Match object; span=(1, 4), match='foo'>

<re.Match object; span=(4, 7), match='foo'>

None

None

'''

\B
匹配空字符串，但不能在词的开头或者结尾。
意思就是 r'py\B' 匹配 'python', 'py3', 'py2', 但不匹配 'py', 'py.', 或者 'py!'.
\B 是 \b 的取非，所以Unicode样式的词语是由Unicode字母，数字或下划线构成的，
虽然可以用 ASCII 标志来改变。如果使用了 LOCALE 标志，则词的边界由当前语言区域设置。

print('============================')

str_list3 = ['python', 'py3', 'py2', 'py', 'py.', 'py!']

for ss in str_list3:

    # 查找匹配的字符

    print(re.search(r'py\B', ss))

print('============================')

'''

<re.Match object; span=(0, 2), match='py'>

<re.Match object; span=(0, 2), match='py'>

<re.Match object; span=(0, 2), match='py'>

None

None

None

'''

\d
1, 对于 Unicode (str) 样式：
匹配任何Unicode十进制数（就是在Unicode字符目录[Nd]里的字符）。
这包括了 [0-9] ，和很多其他的数字字符。如果设置了 ASCII 标志，就只匹配 [0-9] 。

2, 对于8位(bytes)样式：
匹配任何十进制数，就是 [0-9]。

\D
匹配任何非十进制数字的字符。
就是 \d 取非。如果设置了 ASCII 标志，就相当于 [^0-9] 。

print('============================')

string = '(python)-12345'

# 提取全部数字字符

nums_str = ''.join(re.findall(r'\d', string))

print(nums_str)

# 12345

# 提取全部非数字字符

char_str = ''.join(re.findall(r'\D', string))

print(char_str)

# (python)-

print('============================')

\s
1, 对于 Unicode (str) 样式：
匹配任何Unicode空白字符（包括 [ \t\n\r\f\v] ，还有很多其他字符，比如不同语言排版规则约定的不换行空格）。
如果 ASCII 被设置，就只匹配 [ \t\n\r\f\v] 。

2, 对于8位(bytes)样式：
匹配ASCII中的空白字符，就是 [ \t\n\r\f\v] 。

\S
匹配任何非空白字符。
就是 \s 取非。如果设置了 ASCII 标志，就相当于 [^ \t\n\r\f\v] 。

\w
1, 对于 Unicode (str) 样式：
匹配 Unicode 单词类字符；这包括字母数字字符 (如 str.isalnum() 所定义的) 以及下划线 (_)。
如果使用了 ASCII 旗标，则将只匹配 [a-zA-Z0-9_]。

2, 对于8位(bytes)样式：
匹配ASCII字符中的数字和字母和下划线，就是 [a-zA-Z0-9_] 。
如果设置了 LOCALE 标记，就匹配当前语言区域的数字和字母和下划线。

\W
匹配非单词字符的字符。
这与 \w 正相反。如果使用了 ASCII 旗标，这就等价于 [^a-zA-Z0-9_]。
如果使用了 LOCALE 旗标，则会匹配当前区域中既非字母数字也非下划线的字符。
'''

r'''
绝大部分Python的标准转义字符也被正则表达式分析器支持。:
\a \b \f \n
\N \r \t \u
\U \v \x \\
'''

print('============================')

string = '(python)-12345\t \n \r|张三'

# 提取全部空白字符

blank_str = re.findall(r'\s', string)

print(blank_str)

# ['\t', ' ', '\n', ' ', '\r']

# 提取全部非空白字符

no_blank_str = ''.join(re.findall(r'\S', string))

print(no_blank_str)

# (python)-12345|张三

# 匹配 Unicode 单词类字符

un_str = ''.join(re.findall(r'\w', string))

print(un_str)

# python12345张三

# 匹配非单词字符的字符

no_un_str = re.findall(r'\W', string)

print(no_un_str)

# ['(', ')', '-', '\t', ' ', '\n', ' ', '\r', '|']

print('============================')

正则表达式实战笔记

print('=============正则表达式实战笔记===============')

string1 = 'home/workspace/python/test.py'

# 去除最后/后面文件名，只保留路径，以下几个方法等价匹配

# print(re.sub(r'test.py', '', string1))

# print(re.sub(r'([a-z]{4}.py$)', '', string1))

print(re.sub(r'(\b[a-z]{4}.py\b)', '', string1))

# 只保留文件名

print(''.join(re.findall(r'(\b[a-z]{4}.py\b)',string1)))

url_str = 'https://www.abcxyz.com/861091450/28240726.html'

# 去除最后/后面数字+.html，保留前面的url地址

print(re.sub(r'(\d+\.html\b)', '', url_str))

string2 = "5,000.00伍仟元整"

# 提取数字金额

amount = re.findall(r'\d+\.?\d*', string2)

amount = ''.join(amount)

print("数字金额:", amount)

# 提取中文

ch_amount = re.findall(r'[\u4e00-\u9fa5]', string2)

ch_amount = ''.join(ch_amount)

print("中文金额:", ch_amount)

# 下面列表元素有1-2个字错误，现在全部替换成统一数据

str_list3 = ['铜鼓县', '刚鼓县', '钢鼓县', '同古县', '铜古县', '铜故县']

for i in range(len(str_list3)):

    # 匹配替换的字符

    str_list3[i] = re.sub(r"(.鼓县)|(同古县)|(铜.县)", "铜鼓县", str_list3[i])

print(str_list3)

# ['铜鼓县', '铜鼓县', '铜鼓县', '铜鼓县', '铜鼓县', '铜鼓县']

print('============================')

work_date = '610012 星期二 : 2023-06-12 14:23:30 1.0212'

# 只取日期数据 : 2023-06-12

work_date = re.findall(r'\d{4}-\d{1,2}-\d{1,2}',work_date)[0]

print(work_date)

str_url = 'https://www.abcxyz.com/60abc12.html'

# 提取url中间的代码数据 : 60abc12

str_code = re.findall(r'https://www.abcxyz.com/(.*?).html', str_url)[0]

print(str_code)

python正则表达式笔记2的更多相关文章

python 正则表达式笔记
#!usr/bin/env python3 #-*- coding:utf-8 -*- #正则表达式 #在正则表达式中,如果直接给出字符,就是精确匹配.用\d可以匹配一个数字,\w可以匹配一个字母.数 ...
python3.4学习笔记(十二) python正则表达式的使用，使用pyspider匹配输出带.html结尾的URL
python3.4学习笔记(十二) python正则表达式的使用,使用pyspider匹配输出带.html结尾的URL实战例子:使用pyspider匹配输出带.html结尾的URL:@config(a ...
[Python学习笔记]正则表达式总结
常用缩写字符及其含义表格查询缩写字符分类含义 \d 0-9的任意数字 \D 除0-9的数字以外的任何字符 \w 任何字母.数字或下划线字符(可以认为是匹配"单词"字符) \W ...
Python 正则表达式学习笔记
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程 ...
python学习笔记----正则表达式
正则: regular expression 常用的场景: #正则的包 >>> import re #match:开头匹配,匹配到,返回一个匹配对象,否则返回None >> ...
7.Python 正则表达式学习笔记
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程 ...
Python正则表达式学习笔记
python第一个正则表达式 1. import re : python正则表达式模块 2. 第一个正则表达式 re.compile(r'imooc') pattern.match('imooc py ...
Python学习笔记：re模块（正则表达式）
本文是部分内容参考自:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html,虽然这篇博客是基于Python2.4的老版本,但是基础的P ...
Web Scraping with Python读书笔记及思考
Web Scraping with Python读书笔记标签(空格分隔): web scraping ,python 做数据抓取一定一定要明确:抓取\解析数据不是目的,目的是对数据的利用一般的数据 ...
[Python爬虫笔记][随意找个博客入门(一)]
[Python爬虫笔记][随意找个博客入门(一)] 标签(空格分隔): Python 爬虫 2016年暑假来源博客:挣脱不足与蒙昧 1.简单的爬取特定url的html代码 import urllib ...

随机推荐

[转]Error: Node Sass does not yet support your current environment: Windows 64-bit
错误日志:Error: Node Sass does not yet support your current environment: Windows 64-bit with Unsupported ...
IM技术分享：万人群聊消息投递方案的思考和实践
本文由融云技术团队原创分享,原题"技术实践丨万人群聊的消息分发控速方案",为使文章更好理解,内容有修订. 1.引言传统意义上的IM群聊,通常都是像微信这样的500人群,或者QQ的 ...
《深入理解Mybatis原理》MyBatis配置解析过程
配置解析主体方法 public Configuration parse() { if (parsed) { throw new BuilderException("Each XMLConfi ...
三步把asp.net core 3.1应用部署到centos7
一.编译发布Asp.net core 应用直接使用vs2019编译发布后,通过ftp上传到centos的 /www/ 目录下,不再赘述. 二.centos安装asp.net core runtime ...
今天记录一下管理系统中预览pdf的方法
在管理系统中,有很多需要预览文件的操作,既方便用户查看又可以不用打开新的页面,我发现一个不错的方法,记录一下 <el-dialog title="" :visible.syn ...
Appium_ios自动化问题汇总
1.使用Xcode遇到的问题 xcode-select: error: tool 'instruments' requires Xcode, but active developer director ...
Solution Set - “女孩是瑰宝我心动一丝不苟”
目录 0.「NOI Simu.」静态顶树 1.「NOI Simu.」祖先 2.「NOI Simu.」睡眠 3.「JLOI 2008」「洛谷 P3881」CODES 4.「ARC 163A」Divide ...
第二章 dubbo源码解析目录
6.1 如何在spring中自定义xml标签 dubbo自定义了很多xml标签,例如<dubbo:application>,那么这些自定义标签是怎么与spring结合起来的呢?我们先看一个 ...
Mysql存储引擎Innodb和MyISAM的区别
一.mysql架构 mysql是一个单进程多线程架构的数据库. 二.存储引擎 InnoDB: 支持事务行锁读操作无锁 4种隔离级别,默认为repeatable 自适应hash索引每张表的存储都是 ...
工作流程调度器-DolphinScheduler
1.DolphinScheduler简介 Apache DolphinScheduler](https://dolphinscheduler.apache.org/)(目前处在孵化阶段)是一个分布式. ...

python正则表达式笔记2

python正则表达式笔记2的更多相关文章

随机推荐

热门专题