python3.x 正则表达式的应用

　　正则表达式是我认为比较难的一个东西，今天忽然又学到了这个，想到写下来，以后作为参考手册使用。

　　python如果想使用python需要引用re方法，在文件开始进行引用。

import re

　　接下来说一下re包含的函数的用法。

　　re.__all__

　　返回一个包含re函数名的列表

print(re.__all__)

　　结果如下：

['match', 'fullmatch', 'search', 'sub', 'subn', 'split', 'findall', 'finditer', 'compile', 'purge', 'template', 'escape', 'error', 'A', 'I', 'L', 'M', 'S', 'X', 'U', 'ASCII', 'IGNORECASE', 'LOCALE', 'MULTILINE', 'DOTALL', 'VERBOSE', 'UNICODE']

　　re.__version__

　　返回re的版本

print(re.__version__)

　　结果如下：

2.2.1

　　match(pattern, string, flags=0)

　　判断pattern是否在string开始位置，如果有，返回匹配的对象，否则返回None

　　（为了演示方便以及照顾不是特别了解正则表达式的童鞋，这里使用简单的字符串匹配来观察效果，具体的正则表达式写法下章会说明。flags是一个标志变量，文章最后会进行说明，默认为0，没有效果，其他的方法相同。）

　　能匹配上时：

source='qq14717287xx@qq.com'

item='qq1'

res=re.match(item,source)

if res:

    print(res)

    print(res.group())

else:

    print(res)

    print('No match!')

　　结果如下：

<_sre.SRE_Match object; span=(0, 3), match='qq1'>

qq1

　　可以看到，如果只是打印es会输出匹配项，匹配多长字符，匹配的字符。

　　匹配之后res有group方法，能够输出匹配了哪些字符。

　　不能匹配上时：

source='qq14717287xx@qq.com'

item='qq2'

res=re.match(item,source)

if res:

    print(res)

    print(res.group())

else:

    print(res)

    print('No match!')

　　结果如下：

None

No match!

　　没有匹配上的时候res没有group方法，如果使用的话会报错。

　　fullmatch(pattern, string, flags=0)

　　判断pattern是否是string的全部，如果是，返回匹配的对象，否则返回None

　　能匹配上时：

source='qq14717287xx@qq.com'

item='qq14717287xx@qq.com'

res=re.fullmatch(item,source)

if res:

    print(res)

    print(res.group())

else:

    print(res)

    print('No match!')

　　结果如下：

<_sre.SRE_Match object; span=(0, 19), match='qq14717287xx@qq.com'>

qq14717287xx@qq.com

　　不能匹配上时：

source='qq14717287xx@qq.com'

item='qq14717287'

res=re.fullmatch(item,source)

if res:

    print(res)

    print(res.group())

else:

    print(res)

    print('No match!')

　　结果如下：

None

No match!

　　不是全部的字符串就不能匹配上，同样的，没有匹配上就没有group方法。

　　search(pattern, string, flags=0)

　　判断string里面是否包含pattern，如果有，返回匹配的对象，否则返回None

　　能匹配上时：

source='qq14717287xx@qq.com'

item='xx'

res=re.search(item,source)

if res:

    print(res)

    print(res.group())

else:

    print(res)

    print('No match!')

　　结果如下：

<_sre.SRE_Match object; span=(10, 12), match='xx'>

xx

　　不能匹配上时：

source='qq14717287xx@qq.com'

item='xz'

res=re.search(item,source)

if res:

    print(res)

    print(res.group())

else:

    print(res)

    print('No match!')

　　结果如下：

None

No match!

　　与match函数相同，如果不能匹配上时就没有group方法，否则会报错。

　　sub(pattern, repl, string, count=0, flags=0)

　　判断string里面是否含有pattern，如果含有则使用repl替换，返回新字符串。不改变原有字符串。count定义替换的次数，如果不填写默认替换字符串中全部匹配的项。

　　能匹配上时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.sub(item,'n',source,4)

print(res)

print(source)

　　结果如下：

qqn47n7287xx@qq.com&n00n0/10086

qq14717287xx@qq.com&10010/10086

　　可以看出，原字符串中的‘1’被替换成了‘n’四次，同时没有改变源字符串。

　　不能匹配上时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.sub(item,'n',source,4)

print(res)

print(source)

　　结果如下：

qq14717287xx@qq.com&10010/10086

qq14717287xx@qq.com&10010/10086

　　由结果可以看出，此函数如果没有匹配上也不会报错。

　　subn(pattern, repl, string, count=0, flags=0)

　　同sub函数，但是返回一个元组，包含修改后的字符串以及修改的次数。

　　能匹配上时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.subn(item,'n',source,4)

print(res)

print(source)

　　结果如下：

('qqn47n7287xx@qq.com&n00n0/10086', 4)

qq14717287xx@qq.com&10010/10086

　　可以看到，函数返回了一个数组，包括新字符串以及修改的次数。函数并没有修改原字符串。

　　不能匹配上时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.subn(item,'n',source,4)

print(res)

print(source)

　　结果如下：

('qq14717287xx@qq.com&10010/10086', 0)

qq14717287xx@qq.com&10010/10086

　　可以看到，函数返回的修改次数为0

　　split(pattern, string, maxsplit=0, flags=0)

　　以pattern作为分隔符给string进行分隔，返回一个列表。maxsplit定义最多分几次，不写默认全部进行分隔。

　　能够匹配上时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.split(item,source,4)

print(res)

print(source)

　　结果如下：

['qq', '', '7287xx@qq.com&', '', '0/10086']

qq14717287xx@qq.com&10010/10086

　　以‘1’作为分隔符分了四次，可以看到，并没有改变原字符串。

　　不能匹配时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.split(item,source,4)

print(res)

print(source)

　　结果如下：

['qq14717287xx@qq.com&10010/10086']

qq14717287xx@qq.com&10010/10086

　　可以看到，此函数没有匹配上也不会报错。

　　findall(pattern, string, flags=0)

　　查找string中全部匹配pattern的项，返回一个列表

　　能够匹配时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.findall(item,source)

print(res)

print(source)

　　结果如下：

['', '']

qq14717287xx@qq.com&10010/10086

　　不能匹配时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.findall(item,source)

print(res)

print(source)

　　结果如下：

[]

qq14717287xx@qq.com&10010/10086

　　finditer(pattern, string, flags=0)

　　效果与findall相似，只不过finditer返回一个迭代器，拥有group方法（匹配的字符串）和span方法（匹配字符串的位置）

　　能够匹配时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.finditer(item,source)

for i in res:

    print(i.group(),i.span())

print(res)

print(source)

　　结果如下：

100 (20, 23)

100 (26, 29)

<callable_iterator object at 0x0111B4F0>

qq14717287xx@qq.com&10010/10086

　　遍历迭代器使用group方法和span方法可以得到匹配的字符和字符匹配的位置。

　　不能匹配时：

source='qq14717287xx@qq.com&10010/10086'

item=''

res=re.finditer(item,source)

for i in res:

    print(i.group(),i.span())

print(res)

print(source)

　　结果如下：

<callable_iterator object at 0x018FB4F0>

qq14717287xx@qq.com&10010/10086

　　可以看到，如果不匹配的话，迭代器就没有输出

　　compile(pattern, flags=0)

　　预编译正则表达式。以上的方法都是在进行调用的时候开始编译正则表达式，如果查找条目较多，比如说5亿个数据，每次都编译的话，效率必然会受到影响。而使用compile函数则可以预编译正则表达式，这样就不必每次都编译正则表达式，提高效率。

　　用法：

source='qq14717287xx@qq.com&10010/10086'

res=re.compile('')

print(res.findall(source))

print(source)

　　结果如下：

['', '']

qq14717287xx@qq.com&10010/10086

　　purge()

　　清除缓存中的正则表达式。这个，没有明白具体用法。

　　template(pattern, flags=0)

　　编译一个模版表达式，返回一个表达式对象。没有明白用法。

　　escape(pattern)

　　对字符串中的非字母数字进行转义，将字符串转义为python能够识别的正则表达式。

　　用法：

source='qq14717287xx@qq.com&10010/10086'

print(re.escape(source))

　　结果如下：

qq14717287xx\@qq\.com\&10010\/10086

　　编译标志位解释：

　　编译标志位就是函数后面的flags参数，通过设置能够改变正则表达式匹配规则，具有更大的灵活性。多个标志位可以通过按位OR进行设定，如I|M被设置为I标志和M标志。

　　A　　ASCII　　字符串模式中匹配ASCII字符类，而且是默认模式。字节模式中则是唯一可以使用的模式，不需要进行指定。

　　I　　IGNORECASE　　匹配时忽略大小写的变化。

　　L　　LOCALE　　影响 \w, \W, \b和\B，取决于当前的本地化设置。

　　locales 是 C 语言库中的一项功能，是用来为需要考虑不同语言的编程提供帮助的。举个例子，如果你正在处理法文文本，你想用 "w+ 来匹配文字，但 "w 只匹配字符类 [A-Za-z]；它并不能匹配 "é" 或 "?"。如果你的系统配置适当且本地化设置为法语，那么内部的 C 函数将告诉程序 "é" 也应该被认为是一个字母。当在编译正则表达式时使用 LOCALE 标志会得到用这些 C 函数来处理 "w 後的编译对象；这会更慢，但也会象你希望的那样可以用 "w+ 来匹配法文文本。

　　M　　MULTILINE　　“^”只匹配每一行的开头，如果之前有换行符，则不考虑换行符之前的内容，“$”只匹配每一行的结尾，如果之后有换行符，不考虑换行符之后的内容。

　　S　　DOTALL　　使 "." 完全匹配任何字符，包括换行；如果没有这个标志， "."只会匹配除了换行外的任何字符。

　　X　　VERBOSE　　允许将正则表达式写为多行，忽略空白字符（字符类或者反斜杠之后的不忽略）。可以添加注释，注释使用“#”号标识（不能在字符串或者反斜杠之后）。

　　U　　UNICODE　　仅用于兼容性。忽略字符串模式（默认），并禁止字节模式。

　　用法如下（以I为例，其它标志位用法相同）：

source='QQ14717287xx@qq.com&10010/10086'

item='qq14717287xx@QQ'

res=re.findall(item,source,re.I)

print(res)

print(source)

　　运行结果是：

['QQ14717287xx@qq']

QQ14717287xx@qq.com&10010/10086

python3.x 正则表达式的应用的更多相关文章

python3.5 正则表达式
我们平时上网的时候,经常需要在一些网站上注册帐号,而注册帐号的时候对帐号名称会有一些要求. 比如: 上面的图片中,输入的邮件地址.密码.手机号才可以注册成功. 我们需要匹配用户输入的内容,判断用户输 ...
python3的正则表达式（regex）
正则表达式提供了一种紧凑的表示法,可用于表示字符串的组合,一个单独的正则表达式可以表示无限数量的字符串.常用的5种用途:分析.搜索.搜索与替代.字符串的分割.验证. (一)正则表达式语言python中 ...
python3之正则表达式
1.正则表达式基础正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不然str自带方法,但功能十分强大. 正则表达式的大致匹配流程:依次拿出表达式和文本中的字 ...
Python3之正则表达式详解
正则表达式本节我们看一下正则表达式的相关用法,正则表达式是处理字符串的强大的工具,它有自己特定的语法结构,有了它,实现字符串的检索.替换.匹配验证都不在话下. 当然对于爬虫来说,有了它,我们从HTM ...
Python3(七) 正则表达式与JSON
一. 初识正则表达式 1.定义:是一个特殊的字符序列,可以帮助检测一个字符串是否与我们所设定的字符序列相匹配. 2.作用:可以实现快速检索文本.实现替换文本的操作. 3.场景: 1.检测一串数字是否是 ...
自己动手实现html去标签和文本提取
随意观看 [TOC] 工具 python3.6 正则表达式(别的语言思路一样,容易借鉴) python正则表达式:flags的应用这里主要介绍一下re.compile(pattern[, flags ...
537. Complex Number Multiplication
题目大意: 给出a, b两个用字符串表示的虚数,求a*b 题目思路: 偷了个懒,Python3的正则表达式匹配了一下,当然acm里肯定是不行的 class Solution: def complexN ...
Python爱好者社区历史文章列表（每周append更新一次）
2月22日更新: 0.Python从零开始系列连载: Python从零开始系列连载(1)——安装环境 Python从零开始系列连载(2)——jupyter的常用操作 Python从零开始系列连载( ...
Python3 如何优雅地使用正则表达式（详解一）
注:本文翻译自 Regular Expression HOWTO,小甲鱼童鞋对此做了一些注释和修改. 正则表达式介绍正则表达式(Regular expressions 也称为 REs,或 regex ...

随机推荐

Spring Boot + Spring Cloud 实现权限管理系统（集成 Shiro 框架）
Apache Shiro 优势特点它是一个功能强大.灵活的,优秀开源的安全框架. 它可以处理身份验证.授权.企业会话管理和加密. 它易于使用和理解,相比Spring Security入门门槛低. 主 ...
css中的position属性值的探究
css的position属性指定了元素的定位类型,然后通过top,botton,left,right来具体定位. 在具体定位之前必须使用position属性,否则所有的具体定位属性都无法生效. pos ...
Unity3D在C#编程中的一些命名空间的引用及说明
System包含用于定义常用值和引用数据类型.事件和事件处理程序.接口.属性和处理异常的基础类和基类.其他类提供支持下列操作的服务:数据类型转换,方法参数操作,数学计算,远程和本地程序调用,应用程序环 ...
main.jsbundle 脱离掉本地服务
我们在本地调试的时候,可以使用index.js来开启本地服务,在局域网内运行app. 但是你会发现一旦你脱离了这个局域网就会造成app无法显示这时候我们使用main.jsbundle 1.在Reac ...
eclipse配置和使用memory Analyse分析内存
1. 安装在Eclipse help -> Eclipse Marketplace下搜索Memory: 图 1-1 搜索MAT插件按照步骤安装完成重启即可. 2. 测试代码准备测试代码 ...
MySQL 必知必会学习笔记
SHOW DATABASES;USE LangLibCEE;SHOW TABLES;SHOW COLUMNS FROM customers;DESC customers; SHOW STATUS WH ...
Sass 混合宏、继承、占位符详解
混合宏-声明混合宏如果你的整个网站中有几处小样式类似,比如颜色,字体等,在 Sass 可以使用变量来统一处理,那么这种选择还是不错的.但当你的样式变得越来越复杂,需要重复使用大段的样式时,使用变量就无 ...
L256 阅读理解
1主旨题 2细节题题干关键词人名,地名,专有名词,时间,和主题相关的核心词汇,带特殊标点的词汇干扰项词意猜测
python flask 小项目
0 开始之前网上看了很多教程,都不是很满意,因此自己写一个大型教程,从入门到做出一个比较完整的博客.此次教程不是直接把整个博客直接代码整理出来然后运行一遍就完事,我会从flask的各个模块讲起.所以 ...
Python 爬虫的工具列表大全
Python 爬虫的工具列表大全这个列表包含与网页抓取和数据处理的Python库.网络通用 urllib -网络库(stdlib). requests -网络库. grab – 网络库(基于pyc ...

python3.x 正则表达式的应用

python3.x 正则表达式的应用的更多相关文章

随机推荐

热门专题