python 的正则表达式指北

正则表达式用来拆分字符串

>>> s = 'one1two2three3four4'

>>> pattern =  re.compile(r'\d+')

>>> for v in pattern.split(s):

...     print(v)

...

one

two

three

four

正则表达式查找看上去是跟 split 相反的功能

pattern = re.compile(r'\d+')

for match in pattern.findall('one1two2three3four4'):

    print(match)

正则表达式查找返回迭代器

pattern = re.compile(r'\d+')

for index,match in enumerate(pattern.finditer('one1two2three3four4')):

    print(index,'--->',match.group())

暂时这样写

>>> pattern = re.compile(r'([a-zA-Z]+)(\d{3})([bcd]{3})',0)

>>> match = re.match(pattern,s)

>>> if match:

...     for m in match.groups():

...         print(m)

match 与 search 的区别， match 从 0 下标开始匹配模式没匹配上则返回 None ，而 search 则会遍历完整个字符串并返回第一个匹配到的值

## 这里是可以返回 234 的， 而把 search 替换为 match 则会报错

import re

>>> s = 'abc234bdli23243afsdf'

>>> p1 = re.compile('(\d+)')

>>> match1 = re.search(p1,s)

>>> for m in match1.groups():

...     print(m)

正则拆分字符串

>>> s = 'ab   c   d e'

>>> str_list = re.split('\s+',s)

>>> for str in str_list:

...     print(str)

...

ab

c

d

e

邮件拆分

>>> email = 'bill.gates@microsoft.com'

>>> pattern = re.compile('([\w]+)(\.?)([\w]+)@([\w\.]+)')

>>> match = re.match(pattern,email)

>>> print(match.groups())

('bill', '.', 'gates', 'microsoft.com')

邮件地址拆分二

# <Tom Paris> tom@voyager.org => Tom Paris

# bob@example.com => bob

# -*- coding: utf-8 -*-

import re

def name_of_email(addr):

    pattern = re.compile(r'<?([a-zA-Z\s]+)>?.*@[\w\.]+')

    match = re.match(pattern,addr)

    rs = None

    if match:

        rs = match.group(1)

    return rs

print(name_of_email('<Tom Paris> tom@voyager.org'))

# 测试:

assert name_of_email('<Tom Paris> tom@voyager.org') == 'Tom Paris'

assert name_of_email('tom@voyager.org') == 'tom'

print('ok')

向前向后查找

import re

key = r"<html><body><h1>hello world</h1></body></html>"#这段是你要匹配的文本

p1 = r"(?<=<h1>).*?(?=</h1>)"#这是我们写的正则表达式规则，你现在可以不理解啥意思

pattern1 = re.compile(p1)#我们在编译这段正则表达式

matcher1 = re.search(pattern1,key)#在源文本中搜索符合正则表达式的部分

print(matcher1.group(0))#打印出来

回溯查找

import re

key = r"<h1>hello world</h1>"

pattern = re.compile(r'(?<=<h([1-6])>).*?(?=</h\1>)')   # 综合理解

match = re.search(pattern,key)

if match:

    print(match.group(0))

手机号查找

import re

txt = 'abc13975041239ljlboou'

phone_pattern = re.compile(r'1[39|38|58]\d{8}')

grp = re.findall(phone_pattern,txt)

grp2 = phone_pattern.findall(txt)

print(grp)

print(grp2)

拆分电话号码2

import re

txt = 'abc13975041239ljlboou'

phone_pattern = re.compile(r'1[39|38|58]\d{8}')

grp = re.findall(phone_pattern,txt)

grp2 = phone_pattern.findall(txt)

grp3 = phone_pattern.search(txt)

grp4 = phone_pattern.finditer(txt)

print(grp)

print(grp2)

print(grp3.group(0))

grp5 = [g for g in grp4]

print(grp5)

分组

import re

contactInfo = 'Doe, John: 555-1212'

pattern = re.compile(r'(?P<first>[a-zA-Z]+),\s+(?P<second>\w+):\s+([\d-]+)')

match = pattern.match(contactInfo)

if match:

    print(match.group())

    print(match.group(1))

    print(match.group(2))

    print(match.group(3))

仅起到分组取别名作用 ?P

import re

contactInfo = 'Doe, John: 555-1212'

pattern = re.compile(r'(?P<first>[a-zA-Z]+),\s+(?P<second>\w+):\s+(?P<phone>[\d-]+)')

match = pattern.match(contactInfo)

if match:

    print(match.group())

    print(match.group('first'))

    print(match.group('second'))

    print(match.group('phone'))

>>> contactinfo = 'Doe, John: 555-1212'

>>> pattern = r'(?P<first>\w+),\s+(?P<second>\w+):\s+(?P<phone>[\d-]+)'

>>> match = re.match(pattern,contactinfo)

>>> match.groups()

('Doe', 'John', '555-1212')

>>> pattern = r'([a-zA-Z]+),\s+([a-zA-Z]+):\s+([\d-]+)'

>>> match = re.match(pattern,contactinfo)

>>> match.groups()

('Doe', 'John', '555-1212')

python 的正则表达式指北的更多相关文章

Python 简单入门指北(二)
Python 简单入门指北(二) 2 函数 2.1 函数是一等公民一等公民指的是 Python 的函数能够动态创建,能赋值给别的变量,能作为参传给函数,也能作为函数的返回值.总而言之,函数和普通变量 ...
Python 简单入门指北(一)
Python 简单入门指北(一) Python 是一门非常容易上手的语言,通过查阅资料和教程,也许一晚上就能写出一个简单的爬虫.但 Python 也是一门很难精通的语言,因为简洁的语法背后隐藏了许多黑 ...
写给前端的Python依赖管理指北
概述在Python的项目中,我们可以通过pip来安装依赖包,但是不像npm install,pip默认安装的依赖包会挂在全局上,不利于项目工程协作. 这时候需要一款类似npm的工具记录我们的项目依赖 ...
python的正则表达式 re
python的正则表达式 re 本模块提供了和Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索的字符串,都可以是Unicode字符,这点不用担心,python会处理地和Ascii字符一 ...
python 历险记(六）— python 对正则表达式的使用（上篇）
目录引言什么是正则表达式? 正则表达式有什么用? 正则表达式的语法及使用实例正则表达式语法有哪些? 这些正则到底该怎么用? 小结参考文档系列文章列表引言刚接触正则表达式,我也曾被它们天书 ...
Python的正则表达式与JSON
Python的正则表达式需要导入re模块菜鸟教程:http://www.runoob.com/python/python-reg-expressions.html 官方文档:https://docs ...
后端API入门到放弃指北
后端API入门学习指北了解一下一下概念. RESTful API标准] 所有的API都遵循[RESTful API标准]. 建议大家都简单了解一下HTTP协议和RESTful API相关资料. 阮一 ...
Mac 软件包管理器Homebrew使用指北
Homebrew Homebrew由开发者 Max Howell 开发,并基于 BSD 开源,是一个非常方便的软件包包管理器工具. Homebrew 官网 Homebrew 的几个核心概念在正式介绍 ...
msf stagers开发不完全指北(二)
采用 Golang 开发stagers 上一篇文章 msf stagers开发不完全指北(一)中我们谈到如何采用 c 进行 msf 的 stagers 开发,这篇文章我们探讨一下如何使用 Golang ...

随机推荐

jQuery中click事件多次触发解决方案
jQuery 中元素的click事件中绑定其他元素的click事件. 因为jQuery中的click事件会累计绑定,导致事件注册越来越多. 解决方案: 1.能够避开,避免把click事件绑定到其他元素 ...
Oracle数据库SQLPLUS 连接显示 ??? 的解决
linux下安装了中文版本的,造成sqlplus 连接时出现了乱码如图一开始以为是LANG 变量的问题后来发现是NLS_LANG的问题解决方法: export NLS_LANG=" ...
ELK日志框架（1）：安装Elasticsearch组建单服务器多节点集群
ELK简介最近有个需求搭建一套日志系统用于集成几个业务系统的日志提供快速的检索功能,目前是用Log4net存数据库+Error级别发邮件方式,也算简单暴力好用,但历史日志的模糊查询确实很慢,所以使用 ...
获取或操作DOM元素特性的几种方式
1. 通过元素的属性可以直接通过元素属性获取或操作特性,但是只有公认的特性(非自定义的特性),例如id.title.style.align.className等,注意,因为在ECMAScript中, ...
ceph 安装过程
安装依赖: yum install -y yum-utils && yum-config-manager --add-repo https://dl.fedoraproject.org ...
BZOJ3963 WF2011MachineWorks（动态规划+斜率优化+cdq分治）
按卖出时间排序后,设f[i]为买下第i台机器后的当前最大收益,则显然有f[i]=max{f[j]+gj*(di-dj-1)+rj-pi},且若此值<0,应设为-inf以表示无法购买第i台机器. ...
BZOJ4455 ZJOI2016小星星（容斥原理+树形dp）
相当于给树上的每个点分配一个编号使父亲和儿子间都有连边. 于是可以考虑树形dp:设f[i][j][k]为i号点的编号为j,其子树中编号集合为k的方案数.转移显然.然而复杂度3n·n3左右,具体我也不知 ...
css修改input表单默认样式重置与自定义大全
链接地址: 伪元素表单控件默认样式重置与自定义大全 http://www.zhangxinxu.com/wordpress/?p=3381 Chrome 现在不支持通过伪元素修改 meter 元素样式 ...
java 使用 WebUploader
参考: http://blog.csdn.net/finalAmativeness/article/details/54668090 最近项目需要多文件上传. 所以使用了 baidu的 webuplo ...
自学Linux Shell18.1-sed编辑器基础特性
点击返回自学Linux命令行与Shell脚本之路 18.1-sed编辑器基础特性 linux世界中最广泛使用的两个命令行编辑器: sed gawk 1. sed概念 sed是stream edito ...

python 的正则表达式指北

正则表达式用来拆分字符串

正则表达式查找看上去是跟 split 相反的功能

正则表达式查找返回迭代器

暂时这样写

match 与 search 的 区别， match 从 0 下标开始匹配模式没匹配上则 返回 None ， 而 search 则会遍历完整个字符串并返回第一个匹配到的值

正则拆分字符串

邮件拆分

邮件地址拆分二

向前向后查找

回溯查找

手机号 查找

拆分电话号码2

分组

python 的正则表达式指北的更多相关文章

随机推荐

热门专题

match 与 search 的区别， match 从 0 下标开始匹配模式没匹配上则返回 None ，而 search 则会遍历完整个字符串并返回第一个匹配到的值

手机号查找