正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re

正则表达式前戏
正则表达式之字符组
正则表达式之特殊符号
正则表达式之量词
贪婪匹配与非贪婪匹配
转义符
正则表达式实战建议
re模块
re模块补充说明
作业

正则表达式前戏

案例:京东注册手机号校验

基本需求:手机号必须是11位、手机号必须以13 15 17 18 19开头、必须是纯数字

'''纯python代码实现'''

while True:

    # 1.获取用户输入的手机号

    phone_num = input('请输入您的手机号>>>:').strip()

    # 2.先判断是否是十一位

    if len(phone_num) == 11:

        # 3.再判断是否是纯数字

        if phone_num.isdigit():

            # 4.判断手机号的开头

            if phone_num.startswith('13') or phone_num.startswith('15') or phone_num.startswith(

                    '17') or phone_num.startswith('18') or phone_num.startswith('19'):

                print('手机号码输入正确')

            else:

                print('手机号开头不对')

        else:

            print('手机号必须是纯数字')

    else:

        print('手机号必须是11位')

'''python结合正则实现'''

import re

phone_number = input('please input your phone number: ')

if re.match('^(13|14|15|18)[0-9]{9}$', phone_number):

    print('是合法的手机号码')

else:

    print('不是合法的手机号码')

"""

正则表达式是一门独立的技术  所有编程语言都可以使用

它的作用可以简单的概括为:利用一些特殊符号(也可以直接写需要查找的具体字符)的组合产生一些特殊的含义然后去字符串中筛选出符合条件的数据

	>>>:筛选数据(匹配数据)

"""

正则表达式之字符组

'''字符组默认匹配方式是挨个挨个匹配'''

[0123456789]		匹配0到9任意一个数(全写)

[0-9]			   匹配0到9任意一个数(缩写)

[a-z]		      匹配26个小写英文字母

[A-Z]			   匹配26个大写英文字母

[0-9a-zA-Z]			匹配数字或者小写字母或者大写字母

ps:字符组内所有的数据默认都是或的关系

正则表达式之特殊符号

'''特殊符号默认匹配方式是挨个挨个匹配'''

.			匹配除换行符以外的任意字符

\w			匹配数字、字母、下划线

\W			匹配非数字、非字母、非下划线

\d			匹配数字

^			匹配字符串的开头

$			匹配字符串的结尾

		两者组合使用可以非常精确的限制匹配的内容

a|b			匹配a或者b(管道符的意思是或)

()			给正则表达式分组 不影响表达式的匹配功能

[]			字符组 内部填写的内容默认都是或的关系

[^]			取反操作 匹配除了字符组里面的其他所有字符

		注意上尖号在中括号内和中括号意思完全不同

正则表达式之量词

'''正则表达式默认情况下都是贪婪匹配>>>:尽可能多的匹'''

* 		匹配零次或多次   默认是多次(无穷次)

+		匹配一次或多次   默认是多次(无穷次)

?		匹配零次或一次	  作为量词意义不大主要用于非贪婪匹配

{n}		重复n次

{n,}	重复n次或更多次	默认是多次(无穷次)

{n,m}	重复n到m次		  默认是m次

ps:量词必须结合表达式一起使用 不能单独出现 并且只影响左边第一个表达式

    jason\d{3} 只影响\d

贪婪匹配与非贪婪匹配

"""所有的量词都是贪婪匹配如果想要变为非贪婪匹配只需要在量词后面加问号"""

待匹配的文本

	<script>alert(123)</script>

待使用的正则(贪婪匹配)

	<.*>

请问匹配的内容

	<script>alert(123)</script> 一条

# .*属于典型的贪婪匹配 使用它 结束条件一般在左右明确指定

待使用的正则(非贪婪匹配)

	<.*?>

转义符

"""斜杠与字母的组合有时候有特殊含义"""

\n     	   匹配的是换行符

\\n			匹配的是文本\n

\\\\n		匹配的是文本\\n

ps:如果是在python中使用 还可以在字符串前面加r取消转义

正则表达式实战建议

1.编写校验用户身份证号的正则

	 ^[1-9]\d{13,16}[0-9x]$

    ^[1-9]\d{14}(\d{2}[0-9x])?$

    ^([1-9]\d{16}[0-9x]|[1-9]\d{14})$

2.编写校验邮箱的正则

3.编写校验用户手机号的正则(座机、移动)

4.编写校验用户qq号的正则

'''很多时候 很多问题 前人已经弄好了 你只需要花点时间找一找就可以'''

ps:能够写出简单的正则 能够大致看懂复杂的正则

re模块

在python中如果想要使用正则 可以考虑re模块  

import re

# 常见操作方法

# res = re.findall('a', 'jason apple eva')

# print(res)  # 查找所有符合正则表达式要求的数据 结果直接是一个列表

# res = re.finditer('a', 'jason apple eva')

# print(res)  # 查找所有符合正则表达式要求的数据 结果直接是一个迭代器对象

# res = re.search('a', 'jason apple eva')

# print(res)  # <re.Match object; span=(1, 2), match='a'>

# print(res.group())  # a  匹配到一个符合条件的数据就立刻结束

# res = re.match('a', 'jason apple eva')

# print(res)  # None  匹配字符串的开头 如果不符合后面不用看了

# print(res.group())  # 匹配开头符合条件的数据 一个就结束

# obj = re.compile('\d{3}')  # 当某一个正则表达式需要频繁使用的时候 我们可以做成模板

# res1 = obj.findall('23423422342342344')

# res2 = obj.findall('asjdkasjdk32423')

# print(res1, res2)

ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割

print(ret)  # ['', '', 'cd']

ret = re.sub('\d', 'H', 'eva3jason4yuan4', 1)  # 将数字替换成'H'，参数1表示只替换1个

print(ret)  # evaHjason4yuan4

ret = re.subn('\d', 'H', 'eva3jason4yuan4')  # 将数字替换成'H'，返回元组(替换的结果,替换了多少次)

print(ret)  # ('evaHjasonHyuanH', 3)

re模块补充说明

1.分组优先

	 # res = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')

    # print(res)  # ['oldboy']

    # findall分组优先展示:优先展示括号内正则表达式匹配到的内容

    # res = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')

    # print(res)  # ['www.oldboy.com']

    # res = re.search('www.(baidu|oldboy).com', 'www.oldboy.com')

    # print(res.group())  # www.oldboy.com

    # res = re.match('www.(baidu|oldboy).com', 'www.oldboy.com')

    # print(res.group())  # www.oldboy.com

2.分组别名

    res = re.search('www.(?P<content>baidu|oldboy)(?P<hei>.com)', 'www.oldboy.com')

    print(res.group())  # www.oldboy.com

    print(res.group('content'))  # oldboy

    print(res.group(0))  # www.oldboy.com

    print(res.group(1))  # oldboy

    print(res.group(2))  # .com

    print(res.group('hei'))  # .com

作业

"""

网络爬虫没有我们现在接触的那么简单

	有时候页面数据无法直接拷贝获取

	有时候页面还存在防爬机制 弄得不好ip会被短暂拉黑

"""

1.直接拷贝页面数据到本地文件

2.读取文件内容当做字符串处理

3.编写正则筛选内容

import re

# 1.文件操作读取文本内容

with open(r'redbull.html', 'r', encoding='utf8') as f:

    # 2.直接读取全部内容 无需优化

    data = f.read()

# 3.研究各部分数据的特征 编写相应的正则表达式

"""

思路1:

    一次性获取每个公司全部的数据

    分部分挨个获取最后统一整合

"""

# res = re.findall("<h2>(.*?)</h2><p class='mapIco'>(.*?)</p><p class='mailIco'>(.*?)</p><p class='telIco'>(.*?)</p>",

#                  data)

# print(res)  # [(),(),(),()]

comp_title_list = re.findall('<h2>(.*?)</h2>', data)

# print(comp_title_list)

comp_address_list = re.findall("<p class='mapIco'>(.*?)</p>", data)

# print(comp_address_list)

comp_email_list = re.findall("<p class='mailIco'>(.*?)</p>", data)

# print(comp_email_list)

comp_phone_list = re.findall("<p class='telIco'>(.*?)</p>", data)

# print(comp_phone_list)

res = zip(comp_title_list, comp_address_list, comp_email_list, comp_phone_list)

# print(list(res))  # [(),(),(),(),()]

with open(r'comp_info.txt', 'w', encoding='utf8') as f:

    for data_tuple in res:

        print(

            """

            公司名称:%s

            公司地址:%s

            公司邮编:%s

            公司电话:%s

            """ % data_tuple)

        f.write( """

            公司名称:%s

            公司地址:%s

            公司邮编:%s

            公司电话:%s\n

            """ % data_tuple)

正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re的更多相关文章

python正则表达式贪婪与非贪婪模式
之前做程序的时候看到过正则表达式的贪婪与非贪婪模式,今天用的时候就想不起来了,现在这里总结一下,以备自己以后用到注意. 1.什么是正则表达式的贪婪与非贪婪匹配如:String str="a ...
19 Python 正则模块和正则表达式
什么是模块? 常见的场景:一个模块就是一个包含了python定义和声明的文件,文件名就是模块名字加上.py的后缀. 但其实import加载的模块分为四个通用类别: 1 使用python编写的代码(.p ...
正则表达式——POSIX字符组
前面介绍了常用的字符组,但是在某些文档中,你可能会发现类似[:digit:].[:lower:]之类的字符组,看起来不难理解(digit就是"数字",lower就是"小写 ...
python 正则表达式与JSON-正则表达式匹配数字、非数字、字符、非字符、贪婪模式、非贪婪模式、匹配次数指定等
1.正则表达式:目的是为了爬虫,是爬虫利器. 正则表达式是用来做字符串匹配的,比如检测是不是电话.是不是email.是不是ip地址之类的 2.JSON:外部数据交流的主流格式. 3.正则表达式的使用 ...
JavaScript 正则表达式——预定义类，边界，量词，贪婪模式，非贪婪模式，分组，前瞻
㈠预定义类示例:匹配一个ab+数字+任意字符的字符串:ab\d. ㈡边界正则表达式常用的边界匹配字符 ⑴示例1:第一个是没写单词边界第二个是加上字符边界的效 ...
python里使用正则表达式的非贪婪模式
在正则表达式里,什么是正则表达式的贪婪与非贪婪匹配如:String str="abcaxc"; Patter p="ab*c"; 贪婪匹配:正则表达式一般趋向 ...
Delphi 正则表达式语法(6): 贪婪匹配与非贪婪匹配
Delphi 正则表达式语法(6): 贪婪匹配与非贪婪匹配 //贪婪匹配 var reg: TPerlRegEx; begin reg := TPerlRegEx.Create(nil); ...
第11.9节 Python正则表达式的贪婪模式和非贪婪模式
在使用正则表达式时,匹配算法存在贪婪模式和非贪婪模式两种模式,在<第11.8节 Pytho正则表达式的重复匹配模式及元字符"?". "*". " ...
【python】正则表达式-正则表达式常见的字符和符号表
正则表达式常见的字符和符号表:
VIM 用正则表达式,非贪婪匹配,匹配竖杠,竖线, 匹配中文,中文正则,倒数第二列, 匹配任意一个字符 :
VIM 用正则表达式批量替换文本,多行删除,复制,移动在VIM中用正则表达式批量替换文本,多行删除,复制,移动 :n1,n2 m n3 移动n1-n2行(包括n1,n2)到n3行之下: ...

随机推荐

函数索引引用的函数必须是immutable类型
用户在使用中,可能会用到基于函数的索引,但是函数是非 immutable 类型的,导致函数索引无法创建.如: test=# create index ind_t1 on t1(to_char(crea ...
KFS replicator安装（Mysql-KES）
源端mysql 一.安装前置配置 1.创建安装用户 groupadd flysync useradd flysync -g flysync -G mysql passwd flysync 2.上传安装 ...
Webdriver安装记
和之前的博文对照,这是一篇不一样的博文因为终于开始实际应用啦! 首先,要安装Python Python在哪找--官网有链接的:Python Release Python 3.6.3 | Python ...
使用C#编写一个.NET分析器（一）
译者注这是在Datadog公司任职的Kevin Gosse大佬使用C#编写.NET分析器的系列文章之一,在国内只有很少很少的人了解和研究.NET分析器,它常被用于APM(应用性能诊断).IDE.诊断 ...
[Golang] GO 语言工作环境的基本概念
1. GOPATH 和 GOROOT(环境变量) 1. GOROOT go 编译器.标准库等安装的地方,所有我们写的代码其实都是文本文件而已,需要编译器等工具将其加工成可执行文件或者库文件才能使用,每 ...
云原生之旅 - 3）Terraform - Create and Maintain Infrastructure as Code
前言工欲善其事,必先利其器.本篇文章我们介绍下 Terraform,为后续创建各种云资源做准备,比如Kubernetes 关键词:IaC, Infrastructure as Code, Terra ...
在logstash中启动X-Pack Management功能后配置logstash的情况说明
开启X-Pack Management功能后,启动logstsh的时候就不用再配置logstash.conf文件了,启动的时候也不用再使用-f指定这个文件进行启动了一旦启动了logstash的集中管 ...
kibana安装安装插件
命令语法:bin/kibana-plugin install <package name or URL> 当您指定的插件名没有带 URL,插件工具将会尝试去下载 Elastic 官方插件. ...
Spring Boot 使用 Micrometer 集成 Prometheus 监控 Java 应用性能
转载自:https://cloud.tencent.com/developer/article/1508319 文章目录1.Micrometer 介绍2.环境.软件准备3.Spring Boot 工程 ...
手把手教你使用LabVIEW人工智能视觉工具包快速实现图像读取与采集（含源码）
目录前言一.工具包位置二.图像采集与色彩空间转换 1.文件读写 2.实现图片读取 3.使用算子cvtColor实现颜色空间转换三.从摄像头采集图像 1.Camera类 2.属性节点 3.实现摄 ...

正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re

正则表达式前戏

正则表达式之字符组

正则表达式之特殊符号

正则表达式之量词

贪婪匹配与非贪婪匹配

转义符

正则表达式实战建议

re模块

re模块补充说明

作业

正则表达式之前戏、字符组、量词、特殊符号、贪婪与非贪婪匹配等，python正则模块之re的更多相关文章

随机推荐

热门专题