在使用正则搜索内容时遇到一个小坑,百度搜了一下,遇到这个坑的还不少,特此记录一下。

比如说有一个字符串  "123@qq.comaaa@163.combbb@126.comasdf111@asdfcom"

想匹配出里面所有的邮箱地址,该怎么实现呢?

写了个正则,测试一下:

>>> import re
>>> s = "123@qq.comaaa@163.combbb@126.comasdf111@asdfcom"
>>> pattern1 = "\w+@(qq|163|126)\.com"
>>> m1 = re.search(pattern1,s)
>>> m1.group()
'123@qq.com'

可以看到,能够正确搜索到第一个结果,正则写得没问题,如果我想得到所有结果,自然而然就想到了用findall()方法。来试试看:

>>> m2 = re.findall(pattern1,s)
>>> m2
['qq', '163', '126']

这时候估计很多人就觉得奇怪了,使用search方法能搜索到,说明正则写得没问题呀,为什么使用findall的时候结果是这个样子的?为什么结果不是整个邮箱字符串?

查了资料才清楚一个概念,叫做捕获分组

简单说,就是正则表示式里出现括号的时候,括号里的内容匹配到的部分是会被作为结果输出的,而不是把整个正则表达式匹配到的内容作为结果输出。

所以,就出现了上面的结果了。

那怎么得到想要的结果呢?在Python里,当一个分组的头部出现"?:"时,表示这是一个非捕获分组,意思就是它只是正常参与匹配过程,但不作为独立的结果进行输出。

那么按这个写法来试试:

>>> pattern2 = "\w+@(?:qq|163|126)\.com"
>>> m2 = re.findall(pattern2,s)
>>> m2
['123@qq.com', 'aaa@163.com', 'bbb@126.com']

取消了这个捕获分组,那么就是把整个表达式作为一个结果输出,这样才是我们预期想要的效果。

这种情况在使用正则中的“或”匹配时是特别需要注意的,因为这时候通常会加括号,很多初学者很容易掉进这个坑,得到一个不知所谓的结果。

当然,捕获分组这个功能本来是正常有用的,只是要用对了才行。

比如,同样是刚才这个例子,如果只想要邮箱中的用户名部分,该怎么写正则表达式呢?

显然就是把用户名部分加括号作为一个捕获分组就可以了。

>>> pattern3 = "(\w+)@(?:qq|163|126)\.com"
>>> m3 = re.findall(pattern3,s)
>>> m3
['123', 'aaa', 'bbb']

对于findall()函数,其帮助是这么说明的:

findall函数,就是说在正则匹配里,如果有分组,就仅仅匹配分组里面的内容,然后返回这个组的列表; 如果有多个分组,那就把每一个分组看成一个单位,组合为一个元组,然后返回一个含有多个元组的列表。

分组这个功能还是比较强大的,以后会继续学习更多的部分。

参考文章:https://blog.csdn.net/qq_42739440/article/details/81117919

Python中正则匹配使用findall时的注意事项的更多相关文章

  1. Python中正则匹配使用findall,捕获分组(xxx)和非捕获分组(?:xxx)的差异

    转自:https://blog.csdn.net/qq_42739440/article/details/81117919 下面是我在用findall匹配字符串时遇到的一个坑,分享出来供大家跳坑. 例 ...

  2. python中正则匹配之re模块

    Python中正则表达式 re:re是提供正则表达式匹配操作的模块 一.什么是正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某个模式匹配,Python 自1.5版本起 ...

  3. 在python中使用print()时,raw write()返回无效的长度:OSError: raw write() returned invalid length 254 (should have been between 0 and 127)

    写出一个不是code的bug,很烦恼,解决了挺长时间,都翻到外文来看,不过还是解决了,只尝试了一种简单可观的方法,希望对大家有用 我正在使用Django与Keras(tensorflow)来训练一个模 ...

  4. python - 手机号正则匹配

    Python 手机号正则匹配 # -*- coding:utf-8 -*- import re def is_phone(phone): phone_pat = re.compile('^(13\d| ...

  5. Python中正则模块re.compile、re.match及re.search函数用法

    import rehelp(re.compile)'''输出结果为:Help on function compile in module re: compile(pattern, flags=0) C ...

  6. 关于php中正则匹配包括换行符在内的任意字符的问题总结

    要使用正则匹配任意字符的话,通常有以下几种方法,这里我分别对每一种方法在使用的过程中做一个总结: 第一种方式:[.\n]*? 示例 ? PHP preg_match_all('/<div cla ...

  7. python re 正则匹配 split sub

    import re 编译: motif='([ST])Q' seq="SQAAAATQ" regrex=re.compile(motif) #编译成正则对象 regrex=re.c ...

  8. html中正则匹配img

    1.正则匹配html中的img标签,取出img的url并进行图片文件下载: /// <summary> /// 将image标签的src属性的url替换为base64 /// </s ...

  9. python - re正则匹配模块

    re模块 re 模块使 Python 语言拥有全部的正则表达式功能. compile 函数根据一个模式字符串和可选的标志参数生成一个正则表达式对象.该对象拥有一系列方法用于正则表达式匹配和替换. re ...

随机推荐

  1. Python学习总结之四 -- 这就是Python的字典

    字典原来是这么回事儿 Python学习到现在,我们已经知道,如果想将值分组到结构中,并且通过编号对其进行引用,列表就可以派上用场.不过,今天,我们将学到一种通过名字引用值的数据结构,应该知道这种数据类 ...

  2. Oracle学习第二篇—单行函数

    1字符函数 length  字符长度 lengthb 字节长度 lower 变为小写 upper 变为大写 initcap 首字母大写 select Lower('xun Ying') 小写,Uppe ...

  3. Oracle exp使用正則表達式导出部分表

    假设数据库中有许多张表,而我们又仅仅想导出须要的那几张能够使用例如以下命令 --仅仅导出test1.test2表 exp myname/mypassword@orcl file = d:\my.dmp ...

  4. android shareSDK 微博分享案例

    android shareSDK 微博分享案例 ShareSDK APP_KEY 219b1121fc68 腾讯微博 key 801517904 secret bfba83ae253c8f38dabe ...

  5. [nio]dawn的基本概念

    1.dawn是单线程的: 为什么单线程?现实中非常多程序都是单线程的.比方redis,memcache,nodejs.mmorpgserver..... . 採用单线程有两大优点,首先,不须要使用锁, ...

  6. yum 安装 mysql5.5 mysql 5.6 mysql5.7

      一. yum 安装mysql5.6 1. 安装仓库 要使用yum 安装mysql,需要使用mysql的yum 仓库,先从官网下载适合你的系统仓库 http://dev.mysql.com/down ...

  7. l两张图片轮播

    在head里面加 <script language="javascript"> function scroll(spanlevel) { if (spanlevel.s ...

  8. windows下的常用命令

    net start ... 启动某个服务 net stop ... 停止某个服务 net start     查看所有启动的服务 services.msc  打开服务的界面 ipconfig     ...

  9. Kubernetes TensorFlow 默认 特定 集群管理器

    Our goal is to foster an ecosystem of components and tools that relieve the burden of running applic ...

  10. 将众多小文件输入Hadoop的解决方案 可挂载的HDFS

    配置HDFS为可挂载后: 1-可挂载后才支持非完整POSIX语义: 2-仍然不支持随机写入,仍然为“一次写入,多次读取”: 3-可能误用,导致众多小文件: : 1-使用Solr存储和检索小文件: 2- ...