python_91_正则表达式
常用的正则表达式:
'.' 默认匹配除\n之外的任意一个字符,若指定flag DOTALL,则匹配任意字符,包括换行
'^' 匹配字符开头,若指定flags MULTILINE,这种也可以匹配上(r"^a","\nabc\neee",flags=re.MULTILINE)
'$' 匹配字符结尾,或e.search("foo$","bfoo\nsdfsf",flags=re.MULTILINE).group()也可以
'*' 匹配*号前的字符0次或多次,re.findall("ab*","cabb3abcbbac") 匹配a,ab,abb 结果为['abb', 'ab', 'a']
'+' 匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
'?' 匹配前一个字符1次或0次
'{m}' 匹配前一个字符m次
'{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
'|' 匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
'(...)' 分组匹配,re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c '\A' 只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的
'\Z' 匹配字符结尾,同$
'\d' 匹配数字0-9
'\D' 匹配非数字
'\w' 匹配[A-Za-z0-9]
'\W' 匹配非[A-Za-z0-9]
's' 匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t' '(?P<name>...)' 分组匹配 re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict() 结果{'province': '3714', 'city': '81', 'birthday': '1993'}
最常用的匹配语法
re.match 从头开始匹配
re.search 匹配包含
re.findall 把所有匹配到的字符放到以列表中的元素返回
re.splitall 以匹配到的字符当做列表分隔符
re.sub 匹配字符并替换
反斜杠的困扰
与大多数编程语言相同,正则表达式里使用"\"作为转义字符,这就可能造成反斜杠困扰。假如你需要匹配文本中的字符"\",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\":前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r"\\"表示。同样,匹配一个数字的"\\d"可以写成r"\d"。有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。
import re
print(re.match('^Chen',"ChenRonghau123"))#只要有结果,就代表匹配的到,^代表匹配字符开头
print(re.match('Chen',"ChenRonghau123"))#re.match代表从开头开始匹配,不需要用^,所以不能支持只匹配中间的,比如只匹配Rong
print(re.match('Rong',"ChenRonghau123"))
print(re.match('qi',"ChenRonghau123"))#没有匹配到
res=re.match('^Chen',"ChenRonghau123")
print(res.group())#查看匹配结果
res=re.match('^Chen\d',"Chen456Ronghau123")#  \代表后边是正则语法,d代表的是一个数字
print(res.group())#查看匹配结果
res=re.match('^Chen\d+',"Chen456Ronghau123")#  +号代表一个或多个,'\d'匹配数字0-9
print(res.group())#查看匹配结果
print(re.match('.',"ChenRonghau123"))#默认匹配除\n之外的任意一个字符
print(re.match('.+','ChenRonghau123'))
print(re.search('R.+','ChenRonghau123'))#re.serach是从整个文本里搜索
print(re.search('R.+u','ChenRonghau123'))#匹配R到u
print(re.search('b$','ChenRonghau123b'))# 匹配字符结尾
print(re.search('R[a-z]','ChenRonghau123b'))#[a-z]只匹配一个字符
print(re.search('R[a-z]+u','ChenRonghau123b'))#匹配的是Ronghau
print(re.search('R[a-z]+u','ChenRonghauRonghau123b'))#多个Ronghau,只匹配第一个
print(re.search('R[a-z]+u','ChenRonGhauRonghau123b'))#匹配的是后边那个,前边那个大写了,不是正确的
print(re.search('R[a-zA-Z]+u','ChenRonGhauRonghau123b'))#匹配的是RonGhauRonghau
print(re.search('g.+l','112g#efgs345lwe%')) # '+'匹配前一个字符1次或多次,re.findall("ab+","ab+cd+abb+bba") 结果['ab', 'abb']
print(re.search('aal?','aalexaaa'))#'?'     匹配前一个字符1次或0次
print(re.search('aal?','aaexaaa'))
print(re.search('[0-9]{3}','aalx2a2345aa'))#'{m}'   匹配前一个字符m次
print(re.search('[0-9]{1,3}','aalx2a234aa'))#'{n,m}' 匹配前一个字符n到m次,re.findall("ab{1,3}","abb abc abbcbbb") 结果'abb', 'ab', 'abb']
#re.findall 把所有匹配到的字符放到以列表中的元素返回
print(re.findall('[0-9]{1,3}','aalx2a234a98a'))#匹配到所有数字
print(re.search('abc|ABC','ABCabcSD').group())
print(re.findall('abc|ABC','ABCabcSD'))#findall没有.group()方法
print(re.search('abc{2}','alexabccc'))#'|'     匹配|左或|右的字符,re.search("abc|ABC","ABCBabcCD").group() 结果'ABC'
print(re.search('(abc){2}','alexabcabc'))#'(...)' 分组匹配,re.search("(abc){2}a(123|456)c", "abcabca456c").group() 结果 abcabca456c
print(re.search('(abc){2}\|','alexabcabc|'))#匹配两次abc和一次管道符
print(re.search('(abc){2}(\|\|=){2}','alexabcabc||=||='))
print(re.search('\A[0-9]+[a-z]\Z','123a'))
# '\A'  只从字符开头匹配,re.search("\Aabc","alexabc") 是匹配不到的
# '\Z'  匹配字符结尾,同$
print(re.search('\D+','123%\n $a'))#'\D'    匹配非数字
print(re.search('\w+','aAz123%\n $a'))#匹配[A-Za-z0-9]
print(re.search('\W+','aAz123%\n $a'))# '\W'    匹配非[A-Za-z0-9]
print(re.search('\s+','aAz123%\n \r \t$a'))#'s'   匹配空白字符、\t、\n、\r , re.search("\s+","ab\tc1\n3").group() 结果 '\t'
# '(?P<name>...)' 分组匹配
print(re.search('(?P<id>[0-9]+)','abcd1234daf23'))
print(re.search('(?P<id>[0-9]+)','abcd1234daf23').group())
print(re.search('(?P<id>[0-9]+)','abcd1234daf23').groupdict())
a=re.search('(?P<id>[0-9]+)(?P<name>[a-zA-Z])','abcd1234daf23').groupdict()
print(a)
print(a['id'])
print(re.search('(?P<id>[0-9]+)(?P<name>[a-zA-Z])','abcd1234daf23').group('name'))
print(re.search("(?P<province>[0-9]{4})(?P<city>[0-9]{2})(?P<birthday>[0-9]{4})","371481199306143242").groupdict())# 结果{'province': '3714', 'city': '81', 'birthday': '1993'}
# re.splitall 以匹配到的字符当做列表分隔符
print(re.split('[0-9]','abc12de3f356gh'))
print(re.split('[0-9]+','abc12de3f356gh'))
# re.sub      匹配字符并替换
print(re.sub('[0-9]','*','abc12de3f356gh'))#结果:abc**de*f***gh
print(re.sub('[0-9]','*','abc12de3f356gh',count=2))#结果:abc**de3f356gh
'''仅需轻轻知道的几个匹配模式:
re.I(re.IGNORECASE): 忽略大小写(括号内是完整写法,下同)
M(MULTILINE): 多行模式,改变'^'和'$'的行为(有点搞不懂)
S(DOTALL): 点任意匹配模式,改变'.'的行为
'''
print(re.search('[a-z]+','abcxdSA'))#结果:abcxd
print(re.search('[a-z]+','abcxdSA',flags=re.I))#结果:abcxdSA
print(re.search('.+','\nabc\nee'))#结果:abc
print(re.search('.+','\nabc\nee',flags=re.S))#结果:\nabc\nee
'''
反斜杠的困扰
与大多数编程语言相同,正则表达式里使用"\"作为转义字符,这就可能造成反斜杠困扰。
假如你需要匹配文本中的字符"\",那么使用编程语言表示的正则表达式里将需要4个反斜杠"\\\\":
前两个和后两个分别用于在编程语言里转义成反斜杠,转换成两个反斜杠后再在正则表达式里转义成一个反斜杠。
Python里的原生字符串很好地解决了这个问题,这个例子中的正则表达式可以使用r"\\"表示。
同样,匹配一个数字的"\\d"可以写成r"\d"。
有了原生字符串,你再也不用担心是不是漏写了反斜杠,写出来的表达式也更直观。
'''
print(re.search(r'\\','abd\\fd\\rfa'))
print(re.search('[a-z]+h$','abc\ndef\ngh'))
python_91_正则表达式的更多相关文章
- JS正则表达式常用总结
		
正则表达式的创建 JS正则表达式的创建有两种方式: new RegExp() 和 直接字面量. //使用RegExp对象创建 var regObj = new RegExp("(^\\s+) ...
 - Python高手之路【五】python基础之正则表达式
		
下图列出了Python支持的正则表达式元字符和语法: 字符点:匹配任意一个字符 import re st = 'python' result = re.findall('p.t',st) print( ...
 - C# 正则表达式大全
		
文章导读 正则表达式的本质是使用一系列特殊字符模式,来表示某一类字符串.正则表达式无疑是处理文本最有力的工具,而.NET提供的Regex类实现了验证正则表达式的方法.Regex 类表示不可变(只读)的 ...
 - C#基础篇 - 正则表达式入门
		
1.基本概念 正则表达式(Regular Expression)就是用事先定义好的一些特定字符(元字符)或普通字符.及这些字符的组合,组成一个“规则字符串”,这个“规则字符串”用来判断我们给定的字符串 ...
 - JavaScript正则表达式,你真的知道?
		
一.前言 粗浅的编写正则表达式,是造成性能瓶颈的主要原因.如下: var reg1 = /(A+A+)+B/; var reg2 = /AA+B/; 上述两个正则表达式,匹配效果是一样的,但是,效率就 ...
 - Python 正则表达式入门(中级篇)
		
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
 - 【JS基础】正则表达式
		
正则表达式的() [] {}有不同的意思. () 是为了提取匹配的字符串.表达式中有几个()就有几个相应的匹配字符串. (\s*)表示连续空格的字符串. []是定义匹配的字符范围.比如 [a-zA-Z ...
 - JavaScript 正则表达式语法
		
定义 JavaScript定义正则表达式有两种方法. 1.RegExp构造函数 var pattern = new RegExp("[bc]at","i"); ...
 - [jquery]jquery正则表达式验证(手机号、身份证号、中文名称)
		
数字判断方法:isNaN()函数 test()方法 判断字符串中是否匹配到正则表达式内容,返回的是boolean值 ( true / false ) // 验证中文名称 function isChin ...
 
随机推荐
- 2014-9-13 NOIP模拟赛
			
NOIP2014模拟赛 ——lwher 题目名 环上的游戏 舞蹈课 数位和乘积 源文件 cycle.cpp/c/pas dancingLessons.pas/cpp digit.cpp.cpp/c/p ...
 - node学习(2)-路由读取图片
			
通常我们开发项目的时候都要用到图片,那么nodejs是如何读取图片的呢? 我们来看一下,因为一个网页中图片的数量是不确定的,而我们不能每一张图片都去写它的src路径,这时候最好的方法就是写一个专门读取 ...
 - 分布式集群环境下,如何实现session共享一(应用场景)
			
在web应用中,由于http的请求响应式,无状态.要记录用户相关的状态信息,比如电商网站的购物车,比如用户是否登录等,都需要使用session.我们知道session是由servlet容器创建和管理, ...
 - APP携参安装技术怎样帮助APP推广
			
APP 如何自动实现携带参数安装?这是许多开发者感兴趣的问题,毕竟在 APP 开发的许多逻辑上常常不可避免的需要判断安装来源,比如:广告投放.用户邀请.用户行为.社交分享等 APP 推广环节,国内的 ...
 - EF升级 反射重载方法ApplyConfiguration
			
protected override void OnModelCreating(ModelBuilder builder) { base.OnModelCreating(builder); //var ...
 - 解决sublime text无法安装插件问题
			
解决sublime text无法安装插件问题最近在sublime text3中使用命令ctrl+shift+p命令安装插件发现不能安装了,一会儿报错 这个错误表示没有可用的安装包,经过一番探索发现是配 ...
 - JS高级学习历程-9
			
昨天内容回顾 1. 作用域链(执行环境.AO.作用.变量性质顺序) 执行环境:最外部有window全局环境,每个函数内部也代表一个环境 每个执行环境内部都有AO活动对象 在函数内部访问的变量信息就是A ...
 - css各种水平垂直居中
			
css各种水平垂直居中,网上查了一下,总结以下几种 line-height垂直居中 缺点,仅限于单行文字 .item{ text-align: center; height: 100px; line- ...
 - 洛谷2444(Trie图上dfs判环)
			
要点 并没问具体方案,说明很可能不是构造. 思考不断读入这个文本串,然后中间不出现某些文法的串.啊,这就是个自动机. 将不合法串使用ac自动机构成一个Trie图,我们需要的字符串就是在这个自动机上无限 ...
 - 项目协作管理平台-teambition和tapd--深度体验
			
 一.分析目的 通过分析2B产品中的团队协作管理软件的对比分析,用于为公司团队协作软件的选型做产考. 二.竞品归属市场概况 2.1.目标用户群及需求 主要面向企业用户,用于解决企业不同地域以及不同职 ...