re 模块

正则表达式与re模块的关系

1:正则表达式是一门独立的技术。

2:正则在任何语言中均可以使用。

3:python中要想使用正则表达式需要通过re模块。

正则表达式

正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配。

  • 元字符
元字符 匹配内容
. 匹配除换行符意外的任意字符
\w 匹配字母或数字或下划线
\s 匹配任意空白符
\d 匹配数字
\n 匹配一个换行符
\t 匹配一个制表符
\b 匹配一个单词的结尾
^ 匹配字符串的开始
$ 匹配字符串的结尾
\W 匹配非字符或数字或下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符 a 或 字符 b
() 匹配括号内的表达式,也表示一个组
[...] 匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符
  • 量词
量词 用法说名
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复 n 次
{n,} 重复 n 次或更多次
{n,m} 重复 n 次到 m 次

有无正则校验的区别

# 纯python代码校验
while True:
phone_number = input('请输入你的手机号码>>>:').strip()
if len(phone_number) == 11 \
and phone_number.isdigit() \
and(phone_number.startswith('13')) \
or(phone_number.startswith('14')) \
or(phone_number.startswith('15')) \
or(phone_number.startswith('16')) \
or(phone_number.startswith('17')) \
or(phone_number.startswith('18')):
print('手机号码格式正确')
else:
print('手机号码格式不正确') # 正则表达式校验
import re
phone_number = input('请输入你的手机号码>>>:').strip()
if re.match('^(13|14|15|16|17|18)[0-9]{9}$',phone_number):
print('手机号码格式正确')
else:
print('手机号码格式不正确')

正则表达式在线测试

仅仅是测试正则表达式:http://tool.chinaz.com/regex/

正则表达式应用场景:爬虫,数据分析

正则表达式符号:
  • 字符组 []

一个字符串里面的表达式都是域的关系

  • ^ 与 $ 符连用

两者中间写什么,匹配的字符串就必须是什么,多一个不行少一个也别想,会精准限制配置的内容。

  • abc|ab

用 | 的时候一定要将长的放前面。

  • ,[]

直接写在外面,限制字符串的开头,[]取反。

  • 分组 ()

当多个正则符号需要重复多次的时候或者当作一个整体进行其他操作,那么就可以用分组的形式。

了解:
  • \w,\s,\d 与 \W,\S,\D 相反的匹配关系(两者结合就是匹配全部)
  • \t 匹配制表符(Tab)
  • \b 匹配结尾idea指定单词
量词:
  • +:在 \d 中,如果有 123456 ,\d 只能匹配到一个数字,但是加上 + 后,就可以一次性全部匹配。+ 表示重复一次或者多次,在正则中默认都是贪婪匹配(越多越好)。
  • *:匹配 0 次或多次
  • ?:匹配 0 次或一次
  • {n}:明确指定可匹配的个数

注意:

1:正则在匹配的时候默认都是贪婪匹配(尽量匹配多的)。可以通过符号 ? 就可以将贪婪匹配变成非贪婪匹配(惰性匹配)。

2:量词必须跟在正则符号的后面。

3:量词只能够限制紧挨着它的那一个正则符号。

re 模块的基本使用

正则表达式是用来匹配处理字符串的,python中使用正则表达式需要引入 re 模块

  • findall
import re

res = re.findall('a','apple apple apple')  # 返回所有满足匹配条件的结果,放在列表里。
print(res)
# ['a', 'a', 'a']
  • search
import re

res = re.search('a','Apple apple apple')  # 函数会在字符串中查找匹配,找到第一个匹配和返回一个包含匹配信息的对象。
print(res)
print(res.group()) # 如调用 group 可以取出返回的对象,如果返回的是None就会直接报错 if res: # 当返回值为 None 时,就不会执行 group,不会报错
print(ret.group())
# <_sre.SRE_Match object; span=(5, 6), match='a'>
# a
  • match
import re

res = re.match('a','apple apple apple')
print(res)
print(res.group())
# match是从头开始匹配,如果正则规则从头开始可以匹配上,就返回一个对象,需要用group才能显示,如果没匹配上就返回None,调用group()就会报错
# <_sre.SRE_Match object; span=(0, 1), match='a'>
# a

其他方法

  • split
import re

res = re.split('[ab]','abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割
print(res)
# ['', '', 'cd']
  • sub
import re

res = re.sub('\d','A','apple1apple2apple3')  # 将字符串中的数字替换成'A'
res1 = re.sub('\d','A','apple1apple2apple3',1) # 参数1表示替换1个
print(res)
print(res1)
# appleAappleAappleA
# appleAapple2apple3
  • subn
import re

res = re.subn('\d','A','apple1apple2apple3')  # 将数字替换成'A'后,返回元组(替换结果,替换个数)
print(res)
# ('appleAappleAappleA', 3)
  • compile
import re

obj = re.compile('\d{3}')  # 将正则表达式编译成一个正则表达式对象,规定要匹配的是3个数字
res = obj.search('app111app') # 正则表达式对象调用 search,参数为待匹配的字符串
print(res.group())
# 111
  • finditer
import re

res = re.finditer('\d','1apple2apple3456') # finditer 返回一个存放匹配结果的迭代器
print(res)
print(next(res).group()) # 查看第一个结果
print(next(res).group()) # 查看第二个结果
print([i.group() for i in res]) # 查看剩余的结果
# <callable_iterator object at 0x00000070AA9CC438>
# 1
# 2
# ['3', '4', '5', '6']

re 模块与正则表达式的更多相关文章

  1. re模块(正则表达式)

    re 模块:正则表达式import re 内置模块: 1> re.match(pattern,string) pattern:就是正则表达式 string:被操作的对象 match,search ...

  2. python常用模块(1):collections模块和re模块(正则表达式详解)

    从今天开始我们就要开始学习python的模块,今天先介绍两个常用模块collections和re模块.还有非常重要的正则表达式,今天学习的正则表达式需要记忆的东西非常多,希望大家可以认真记忆.按常理来 ...

  3. 20、collections模块和re模块(正则表达式详解)

    从今天开始我们就要开始学习python的模块,今天先介绍两个常用模块collections和re模块.还有非常重要的正则表达式,今天学习的正则表达式需要记忆的东西非常多,希望大家可以认真记忆.按常理来 ...

  4. python模块部分 re模块 之正则表达式

    python 全栈开发 1.什么是模块 2.正则表达式 一.什么是模块? 1.模块: 是一组功能的集合 你要和一个东西打交道,但是这个东西本身和python没有关系,这个东西本身就存在, 这时,pyt ...

  5. Python的re模块,正则表达式书写方法

    Python的re模块,正则表达式 #导入re模块 import  re 1.match方法的使用: result = re.match(正则表达式,待匹配的字符串) 正则表达式写法: 第一部分: 字 ...

  6. Python的re模块,正则表达式用法详解,正则表达式中括号的用法

    Python的re模块,正则表达式 #导入re模块 import  re 1.match方法的使用: result = re.match(正则表达式,待匹配的字符串) 正则表达式写法: 第一部分: 字 ...

  7. re模块,正则表达式起别名和分组机制,collections模块,time与datetime模块,random模块

    re模块和正则表达式别名和分组机制 命名分组 (1)分组--可以让我们从文本内容中提取指定模式的部分内容,用()来表示要提取的分组,需要注意的是分组 是在整个文本符合指定的正则表达式前提下进行的进一步 ...

  8. Python 之 【re模块的正则表达式学习】

    摘要: re模块包括操作正则表达式的函数,一些工作中都需要用到,现在说明下使用方法. 使用说明: 一,re模块下的函数:            函数             描述 compile(pa ...

  9. python中的re模块和正则表达式基础

    1.正则匹配基础知识 (1)通配符. .只匹配一个字符 >>> re.findall("p.ckname","piiickname-pockname&q ...

随机推荐

  1. ros资料记录,详细阅读

    ROS源码分析--子话题-catkin:https://blog.csdn.net/sukha/article/details/52460492 ROS源码分析:https://blog.csdn.n ...

  2. elasticsearch自定义动态映射

    https://www.elastic.co/guide/cn/elasticsearch/guide/current/custom-dynamic-mapping.html如果你想在运行时增加新的字 ...

  3. 【python代码】linux 登陆网关

    #!/usr/bin/env python import urllib2 url="http://10.3.8.211" data="DDDDD=2010111222&a ...

  4. HashMap 在高并发下引起的死循环

    HashMap 基本实现(JDK 8 之前) HashMap 通常会用一个指针数组(假设为 table[])来做分散所有的 key,当一个 key 被加入时,会通过 Hash 算法通过 key 算出这 ...

  5. regasm注册com组件

    注意: regasm.exe在不同framework版本下的系统路径 一般存储的路径为:C:\Windows\Microsoft.NET\Framework\v2.0.50727\ 系统的版本不同,运 ...

  6. Git .gitignore中已添加文件路径,但仍未被忽略

    当文件之前已经被提交到仓库后,后面即使将文件路径添加到 .gitignore ,使用 git status 命令,依然会看到文件被修改. $ git status 位于分支 master 您的分支与上 ...

  7. Linux单独打包工具-Ubuntu

    Electron-Packager 使用electron-packager打包:https://github.com/electron/electron-packagerelectron-packag ...

  8. java 抽象类为什么不能被实例化?

    我把CSDN论坛里面的一个帖子内容list到下面,自己看着理解,东家一言,西家一语,杂合起来,基本上也就理解了java中的抽象类为什么不能被实例化了. 因篇幅有限,只能罗列部分留言 以下内容不分先后顺 ...

  9. Git<一> 手工编辑冲突

    一:背景 Neo君之前在写东西时,都是自己负责各自的模块,没有出现代码拉下来冲突的情况.最近Neo君在搞一搞前端的东东,跟同事功能有些冲突,所以就难免会冲突. 所以简单总结下,这次针对的情况是不同的用 ...

  10. selenium WebDriver 清空input的方式

    做自动测试时,经常会出现某些文本框带有默认值的形式,此时我们为了输入我们预期的数据,就需要我们对默认值清楚后做处理.本文章提供四种方法 //方法1 public static void setElem ...