正则表达式

应用场景

特定规律字符串的查找替换切割等
邮箱格式、URL、IP等的校验
爬虫项目中，特定内容的提取

使用原则

只要是能够使用字符串函数解决的问题，就不要使用正则
正则的效率较低，还会降低代码的可读性
世界上最难理解的三样东西：医生的处方、道士的神符、码农的正则
提醒：正则是用来写的，不是用来读的；在不知道功能的情况下，不要试图阅读别人的正则。

基本使用

说明：正则的解析处理是由re模块完成

正则规则

单个字符：

普通字符：简单来说就是一对一的完全匹配

[]：中间的任意一个字符

    [a-z]：a~z之间的字符(所有小写字母)

    [0-9]：0~9之间的字符(所有数字)

    [A-Z0-9]：所有的大写字母和数字

    [^abc]：除abc外的所有字符

. ：匹配'\n'以外的任意字符

\d：所有的数字，等价于[0-9]

\D：所有的非数字，等价于[^0-9]

\w：所有的数字、字母(中文)、下划线等(就是字)

\W：所有的非字字符(\w的取反)

\s：所有的空白字符(\n、\t、\t、空格等)

\S：所有的非空白字符

\b：词边界匹配(开头、结尾、标点、空格)

\B：非词边界匹配

次数控制

*：前面的字符出现任意次

+：前面的字符出现至少一次

?：前面的字符出现至多一次

{m}：指定次数，m表示出现的次数

{m,}：至少指定次数

{m,n}：指定范围内的次数，m到n次之间

{,n}：至多n次，相当于{0,n}

正则的匹配默认都是贪婪的(最大限度的匹配)

边界限定

^：以指定的内容开头
$：以指定的内容结尾
示例

import re

# 以指定的内容开头

# c = re.compile(r'^abc')

# 以指定的内容结尾

c = re.compile(r'kas$')

s = c.search('abcsdhkas')

if s:

    print(s.group())

优先级控制
- |：表示或，它拥有最低的优先级
- ()：用于表示一个整体，明确的指定优先级
- 示例：
```
import re

c = re.compile(r'a(hello|world)b')

s = c.search('aworldb')

if s:

    print(s.group())
```

分组匹配

说明：()不但可以作为一个整体，还可以进行分组匹配
示例1:

import re

c = re.compile(r'(\d+)([a-z]+)(\d+)')

s = c.search('shd327sjahdajhsd87892ehawksd')

if s:

    print(s.group())

    # 默认就是全部的匹配内容，等价于上式

    print(s.group(0))

    # 第一个()匹配到的内容

    print(s.group(1))

    print(s.group(2))

    print(s.group(3))

    print(s.span())

    print(s.span(0))

    print(s.span(1))

    print(s.span(2))

    print(s.span(3))

示例2：给分组起名字

import re

# 固定匹配

# c = re.compile(r'<div><a>\w+</a></div>')

# \1表示前面第一个小括号匹配的内容

# c = re.compile(r'<([a-z]+)><([a-z]+)>\w+</\2></\1>')

# 给()起名字

c = re.compile(r'<(?P<goudan>[a-z]+)><(?P<ergou>[a-z]+)>\w+</(?P=ergou)></(?P=goudan)>')

s = c.search('<div><a>百度一下</a></div>')

if s:

    print(s.group())

贪婪匹配
- 贪婪：最大限度的匹配叫贪婪。正则的匹配默认是贪婪。
- 非贪婪：只要满足匹配条件，能少匹配就少匹配；通过可以使用'?'进行取消贪婪
- 示例：
```
import re

# 取消任意多次的贪婪

# c = re.compile(r'a.*?b')

# 取消至少一次的贪婪

c = re.compile(r'a.+?b')

s = c.search('abdhsadjbsdjabs')

if s:

    print(s.group())
```

匹配模式

说明：所谓模式就是对匹配的原则进行整体的修饰
示例：

import re

# 忽略大小写的匹配

# c = re.compile(r'hello', re.I)

# s = c.search('Hello world')

# 进行多行匹配，默认单行匹配

# c = re.compile(r'^hello', re.M)

# s = c.search('world \nhello')

# 做为单行处理 或 让 . 能够匹配 \n

c = re.compile(r'<div>.*?</div>', re.S)

# string = '<div>hello</div>'

string = '''<div>

hello

</div>'''

s = c.search(string)

if s:

    print(s.group())

字符转义
- 若匹配正则语法中的特定字符都需要进行转义
- 正则字符串会被处理两次，python中处理一次，re模块会在处理一次
- 若不想考虑字符的转义问题，可以在书写正则字符串时前面加一个字符'r'
- 添加'r'之后，在python不会再进行任何转义，只需在与正则语法相关的字符前加''即可让其使用原有意义

Python基础—15-正则表达式的更多相关文章

十七. Python基础(17)--正则表达式
十七. Python基础(17)--正则表达式 1 ● 正则表达式定义: Regular expressions are sets of symbols that you can use to cr ...
十五. Python基础(15)--内置函数-1
十五. Python基础(15)--内置函数-1 1 ● eval(), exec(), compile() 执行字符串数据类型的python代码检测#import os 'import' in c ...
Python基础之正则表达式指南
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程 ...
python基础之正则表达式
正则表达式语法正则表达式 (或 RE) 指定一组字符串匹配它;在此模块中的功能让您检查一下,如果一个特定的字符串匹配给定的正则表达式 (或给定的正则表达式匹配特定的字符串,可归结为同一件事). 正则 ...
Python高手之路【五】python基础之正则表达式
下图列出了Python支持的正则表达式元字符和语法: 字符点:匹配任意一个字符 import re st = 'python' result = re.findall('p.t',st) print( ...
python基础之正则表达式和re模块
正则表达式就其本质而言,正则表达式(或 re)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 ...
python基础之正则表达式，re模块
1.正则表达式正则表达式:是字符串的规则,只是检测字符串是否符合条件的规则而已 1.检测某一段字符串是否符合规则 2.将符合规则的匹配出来re模块:是用来操作正则表达式的 2.正则表达式组成字符组 ...
python基础-RE正则表达式
re 正则表示式正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 C 编写 ...
python基础之正则表达式。
简介就其本质而言,正则表达式是内嵌在python内,由re模块实现,小型的专业化语言,最后由c写的匹配引擎执行.正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来 ...
Python开发【第一篇】Python基础之正则表达式补充
正则表达式一简介:就其本质而言,正则表达式(或RE)是一种小型的.高度专业化的标称语言,(在Python中)它内嵌在Python中,并通过re模块实现.正则表达式模式被编译成一系列的字节码,然后由用 ...

随机推荐

UiPath进阶
最近RPA比较火,UiPath工具排名前几位并且免费试用,很多朋友们都选择了学习自动化工具UiPath,今天我就向大家介绍一下UiPath的学习过程,希望对后来的学习这个工具的人有所帮助. UiPat ...
关于IQueryable和IEnumerable
园里对这两个已经有很多文章作了深入的介绍,我总结些,当成笔记用. 一.具体判断用哪个上,如果是运行在本地内存中的,用IEnumerable,枚举该对象时,会立即反应查询结果. 如果是远程数据源,比如数 ...
MyBatis 中 sqlmapconfig核心标签typeAliases配置说明
标签说明在 MyBatis 的 sql 映射配置文件中,需要使用 paramterType.resultType 来设置 sql 语句的输入输出参数,一般参数都是基本的数据类型或封装类型,但都需要声 ...
javascript: iframe switchSysBar 左欄打開關閉，兼容各瀏覽器操作
<html> <head> <meta content="text/html; charset=utf-8" http-equiv="Con ...
node的版本控制之nvm的安装与使用
NVM的安装 windows下的安装: windows下的离线安装: nvm 的windows下载地址:https://github.com/coreybutler/nvm-windows/relea ...
ArcGIS软件操作——地图制图
ArcGIS软件操作系列二(地图制图) 2016年毕业,参加工作,除了平时出差,大部分时间都在使用ArcGIS处理数据.制图,在此,先将一些制图的小心得撰写出来,希望能与各位共同交流. 1 数据准备: ...
android launcher
1.android_launcher的源码详细分析 2.android---launcher 3.Android 4.4 Launcher3桌面源码分析 4.通过深度剖析Android之Launche ...
sql server中将自增长列归零
一个项目完成后数据库中会有很多无用的测试数据,可以使用delete * 将数据全部删除,但自增长列(一般是主键)基数不会归零,使用TRUNCATE函数可以将表中数据全部删除,并且将自增长列基数归零.一 ...
matlab练习程序（模拟退火SA）
模拟退火首先从某个初始候选解开始,当温度大于0时执行循环. 在循环中,通过随机扰动产生一个新的解,然后求得新解和原解之间的能量差,如果差小于0,则采用新解作为当前解. 如果差大于0,则采用一个当前温度 ...
day007-线程池、Lambda
1. 线程池就好生活中的游泳池,可以容纳多人在池子里游泳.戏水.线程池里可以有多个正在运行的线程,同时执行已经提交了的多个任务. 什么是线程池?一个用来创建和管理线程的容器. 线程池的原理线程复用 ...

Python基础—15-正则表达式

正则表达式

应用场景

使用原则

基本使用

正则规则

Python基础—15-正则表达式的更多相关文章

随机推荐

热门专题