python之re正则简单够用
0.
1.参考
https://docs.python.org/2/library/re.html
https://docs.python.org/2/howto/regex.html
https://docs.python.org/3/library/re.html
| string | re | 备注 |
| re.match(pattern, string, flags=0) | at the start of the string | |
| S.find(sub [,start [,end]]) -> int | re.search(pattern, string, flags=0) | Scan through string looking for a match |
| S.replace(old, new[, count]) -> string | re.findall(pattern, string, flags=0) | re.finditer |
2.分组 m.group()
xx
In [560]: m.group?
Docstring:
group([group1, ...]) -> str or tuple.
Return subgroup(s) of the match by indices or names.
For 0 returns the entire match.
Type: builtin_function_or_method In [542]: m=re.search(r'(-{1,2}(gr))','pro---gram-files') In [543]: m.group() #自带
Out[543]: '--gr' In [544]: m.group(0) #自带,返回整个匹配到的字符串 For 0 returns the entire match. 注意 m.string 是被检索的完整原文。。。
Out[544]: '--gr' In [545]: m.group(1)
Out[545]: '--gr' In [546]: m.group(2)
Out[546]: 'gr' In [547]: m.group(3) #加的 ( 不满足则报错
---------------------------------------------------------------------------
IndexError Traceback (most recent call last)
<ipython-input-547-71a2c7935517> in <module>()
----> 1 m.group(3) IndexError: no such group In [548]: m.group(1,2) #选择多个分组,返回tuple
Out[548]: ('--gr', 'gr') In [549]: m.groups() #选择所有分组
Out[549]: ('--gr', 'gr')
m.groupdict 用于命名分组
In [557]: m.groupdict?
Docstring:
groupdict([default=None]) -> dict.
Return a dictionary containing all the named subgroups of the match,
keyed by the subgroup name. The default argument is used for groups
that did not participate in the match
Type: builtin_function_or_method In [558]: m=re.search(r'(-{1,2}(?P<GR>gr))','pro---gram-files') In [559]: m.groupdict()
Out[559]: {'GR': 'gr'}
3.提取 re.findall()
re.findall(pattern, string, flags=0)
In [97]: text = "He was carefully disguised but captured quickly by police." In [98]: re.findall(r"\w+ly", text) #相当于 m.group(0)
Out[98]: ['carefully', 'quickly'] In [99]: re.findall(r"(\w+)ly", text) #手动加单个括号限定内容,相当于返回 m.group(1)
Out[99]: ['careful', 'quick'] In [100]: re.findall(r"((\w+)(ly))", text) #多个括号,从左到右数 (,相当于返回 m.groups()
Out[100]: [('carefully', 'careful', 'ly'), ('quickly', 'quick', 'ly')]
In [102]: re.findall(r"((1\w+)(ly))", text)
Out[102]: []
4.替换 re.sub()
re.sub(pattern, repl, string, count=0, flags=0)
repl 里面的 前向引用 Backreferences, such as \6, are replaced with the substring matched by group 6 in the pattern. 也可以通过 func 实现。
注意 mysql regexp 不支持 \1
https://stackoverflow.com/questions/4122393/negative-backreferences-in-mysql-regexp 提到 unless you can install/use LIB_MYSQLUDF_PREG.
https://stackoverflow.com/questions/7058209/reference-to-groups-in-a-mysql-regex
In [158]: def func(m):
...: return m.group('DEF')+' '+m.group(2) #别名
...: In [159]: re.sub(r'(?P<DEF>def)\s+([a-z]+)\s*\(\s*\):', func, 'def func(): def f():')
Out[159]: 'def func def f' In [160]: re.sub(r'(?P<DEF>def)\s+([a-z]+)\s*\(\s*\):', r'\1 \2', 'def func(): def f():') #不支持 \别名
Out[160]: 'def func def f'
5. Backreferences 前向引用在 pattern
5.1扑克牌找对子
In [204]: re.search(r'(.).*\1','ab123') In [205]: re.search(r'(.).*\1','ab121')
Out[205]: <_sre.SRE_Match at 0x71ca120> In [206]: _.group()
Out[206]: ''
5.2连续多个相同
In [207]: re.search(r'.{3}','') #错误
Out[207]: <_sre.SRE_Match at 0x71b94a8>
In [208]: re.search(r'(.){3}','') #错误
Out[208]: <_sre.SRE_Match at 0x71ca198>
In [209]: re.search(r'(.)\1\1','') #正确
In [210]: re.search(r'(.)\1\1','')
Out[210]: <_sre.SRE_Match at 0x71ca210>
In [211]: re.search(r'(.)\1{2}','')
Out[211]: <_sre.SRE_Match at 0x71ca288>
In [212]: _.group()
Out[212]: ''
python之re正则简单够用的更多相关文章
- Python正则简单实例分析
Python正则简单实例分析 本文实例讲述了Python正则简单用法.分享给大家供大家参考,具体如下: 悄悄打入公司内部UED的一个Python爱好者小众群,前两天一位牛人发了条消息: 小的测试题: ...
- python浅谈正则的常用方法
python浅谈正则的常用方法覆盖范围70%以上 上一次很多朋友写文字屏蔽说到要用正则表达,其实不是我不想用(我正则用得不是很多,看过我之前爬虫的都知道,我直接用BeautifulSoup的网页标签去 ...
- python匹配ip正则
python匹配ip正则 #!/usr/bin/env python # -*- coding:utf-8 -*- import re ip_str = "asdad1.1.1.1sdfwe ...
- python 多线程就这么简单(续)
之前讲了多线程的一篇博客,感觉讲的意犹未尽,其实,多线程非常有意思.因为我们在使用电脑的过程中无时无刻都在多进程和多线程.我们可以接着之前的例子继续讲.请先看我的上一篇博客. python 多线程就这 ...
- python模块介绍- HTMLParser 简单的HTML和XHTML解析器
python模块介绍- HTMLParser 简单的HTML和XHTML解析器 2013-09-11 磁针石 #承接软件自动化实施与培训等gtalk:ouyangchongwu#gmail.comqq ...
- 基于Python使用SVM识别简单的字符验证码的完整代码开源分享
关键字:Python,SVM,字符验证码,机器学习,验证码识别 1 概述 基于Python使用SVM识别简单的验证字符串的完整代码开源分享. 因为目前有了更厉害的新技术来解决这类问题了,但是本文作 ...
- Python的变量及简单数据类型
Python的变量及简单类型 1. 变量 在Python编程中,变量是用来存放值或对像的容器.变量的名称可以自定义,但需遵循一定的规范,否则可能会引发一些错误.Python的变量可以分为数字.字符和 ...
- Python与C的简单比较(Python3.0)
Python可以说是目前最火的语言之一了,人工智能的兴起让Python一夜之间变得家喻户晓,Python号称目前最最简单易学的语言,现在有不少高校开始将Python作为大一新生的入门语言.本萌新也刚开 ...
- Python 基于Python及zookeeper实现简单分布式任务调度系统设计思路及核心代码实现
基于Python及zookeeper实现简单分布式任务调度系统设计思路及核心代码实现 by:授客 QQ:1033553122 测试环境 功能需求 实现思路 代码实践(关键技术点实现) 代码模块组织 ...
随机推荐
- MySQL 中触发器的应用
在一个教育系统里面,有 科目表 ,章节表(每一科目对应若干大章节),小节表(每一大章节下面有若干小节),习题表(每一小节对应若干习题), 在后台管理系统中 有这样几个功能要实现,在 科目列表页面中 ...
- fedora上安装ffmpeg
环境 fedora26 1. 安装 yasm sudo dnf install yasm yasm-devel -y 2.安装 ffmpeg 官方下载ffmpeg源码 ( http://ffmpeg ...
- 爬虫简介与request模块
一 爬虫简介 概述 近年来,随着网络应用的逐渐扩展和深入,如何高效的获取网上数据成为了无数公司和个人的追求,在大数据时代,谁掌握了更多的数据,谁就可以获得更高的利益,而网络爬虫是其中最为常用的一种从网 ...
- 【设计模式】【应用】使用模板方法设计模式、策略模式 处理DAO中的增删改查
原文:使用模板方法设计模式.策略模式 处理DAO中的增删改查 关于模板模式和策略模式参考前面的文章. 分析 在dao中,我们经常要做增删改查操作,如果每个对每个业务对象的操作都写一遍,代码量非常庞大. ...
- <Android基础>(三) UI开发 Part 3 RecyclerView
RecyclerView 1)RecyclerView的基本用法 2)横向滚动和瀑布流滚动 3)注册点击事件 3.6 强大的滚动控件 RecyclerView ListView缺点: 1.不使用技巧优 ...
- Java【第三篇】基本语法之--选择结构
Java分支语句分类 分支语句根据一定的条件有选择地执行或跳过特定的语句,分为两类: if-else 语句 switch 语句 if-else语句语法格式 if(布尔表达式){ 语句或语句块; } i ...
- 初识 go 语言:语法
目录 语法 for 循环 if 语句 switch 语句 defer 语句 defer 栈 结束 前言: go语言系列第二篇,主要讲述go语言的语法,如循环,if判断,swich语句,defer语句, ...
- [FJOI2018]领导集团问题
[FJOI2018]领导集团问题 dp[i][j],i为根子树,最上面的值是j,选择的最大值 观察dp方程 1.整体Dp已经可以做了. 2.考虑优美一些的做法: dp[i]如果对j取后缀最大值,显然是 ...
- 分布式监控系统开发【day38】:报警策略设计(二)
一.策略和动作多对多的好处坏处 1.好处: 相同服务,相同策略的服务可以不用重复写好多次触发器 2.坏处: 1.策略A给小李和小罗发邮件2.策略B给小胡和小崔发邮件3.策略A是第三部发邮件4.策略B是 ...
- 第三节:ThreadPool的线程开启、线程等待、线程池的设置、定时功能
一. ThreadPool简介 ThreadPool简介:ThreadPool是一个线程池,当你需要开启n个线程时候,只需把这个指令抛给线程池,它将自动分配线程进行处理,它诞生于.Net 2.0时代. ...