Python基础—15-正则表达式
正则表达式
应用场景
- 特定规律字符串的查找替换切割等
- 邮箱格式、URL、IP等的校验
- 爬虫项目中,特定内容的提取
使用原则
- 只要是能够使用字符串函数解决的问题,就不要使用正则
- 正则的效率较低,还会降低代码的可读性
- 世界上最难理解的三样东西:医生的处方、道士的神符、码农的正则
- 提醒:正则是用来写的,不是用来读的;在不知道功能的情况下,不要试图阅读别人的正则。
基本使用
说明:正则的解析处理是由
re
模块完成相关函数:
- match:从开头进行匹配,匹配到就返回正则结果对象,没有就返回None
- search:从任意位置匹配,匹配到一次就返回,没有就返回None
import re # 只从开头匹配,找到返回一个正则结果对象,没有找到返回None
# m = re.match('abc', 'abcsdhasdasjabcweuqo')
# 全部匹配,只要找到就停止并返回
m = re.search('abc', 'sdhabcsdasjabcweuqo') if m:
# 提取匹配到的内容
print(m.group())
# 获取匹配位置
print(m.span())- findall:全局匹配,返回匹配到的结果列表,没有时返回空列表
# 匹配所有内容,返回匹配结果组成的列表,若没有则返回空列表
f = re.findall('abc', 'qwsdhaslabcsadjlasdoiabcdakls')
if f:
print(f)
print(type(f))- compile:生成正则表达式对象
# 生成正则表达式对象,用于正则匹配
c = re.compile('hello') # 从开头进行匹配
# m = c.match('hellosdsjldkabc')
# 从任意位置匹配
m = c.search('shdjkhelloaskjdha')
if m:
print(m.group())
# 匹配所有
f = c.findall('helloasjdhakhello')
if f:
print(f)将正则的匹配分两步完成:先创建正则对象,然后通过对象的match、search、findall方法完成匹配
正则规则
单个字符:
普通字符:简单来说就是一对一的完全匹配
[]:中间的任意一个字符
[a-z]:a~z之间的字符(所有小写字母)
[0-9]:0~9之间的字符(所有数字)
[A-Z0-9]:所有的大写字母和数字
[^abc]:除abc外的所有字符
. :匹配'\n'以外的任意字符
\d:所有的数字,等价于[0-9]
\D:所有的非数字,等价于[^0-9]
\w:所有的数字、字母(中文)、下划线等(就是字)
\W:所有的非字字符(\w的取反)
\s:所有的空白字符(\n、\t、\t、空格等)
\S:所有的非空白字符
\b:词边界匹配(开头、结尾、标点、空格)
\B:非词边界匹配次数控制
*:前面的字符出现任意次
+:前面的字符出现至少一次
?:前面的字符出现至多一次
{m}:指定次数,m表示出现的次数
{m,}:至少指定次数
{m,n}:指定范围内的次数,m到n次之间
{,n}:至多n次,相当于{0,n}正则的匹配默认都是贪婪的(最大限度的匹配)
边界限定
- ^:以指定的内容开头
- $:以指定的内容结尾
- 示例
import re # 以指定的内容开头
# c = re.compile(r'^abc')
# 以指定的内容结尾
c = re.compile(r'kas$') s = c.search('abcsdhkas') if s:
print(s.group())优先级控制
- |:表示或,它拥有最低的优先级
- ():用于表示一个整体,明确的指定优先级
- 示例:
import re c = re.compile(r'a(hello|world)b') s = c.search('aworldb') if s:
print(s.group())分组匹配
- 说明:()不但可以作为一个整体,还可以进行分组匹配
- 示例1:
import re c = re.compile(r'(\d+)([a-z]+)(\d+)') s = c.search('shd327sjahdajhsd87892ehawksd') if s:
print(s.group())
# 默认就是全部的匹配内容,等价于上式
print(s.group(0))
# 第一个()匹配到的内容
print(s.group(1))
print(s.group(2))
print(s.group(3))
print(s.span())
print(s.span(0))
print(s.span(1))
print(s.span(2))
print(s.span(3))- 示例2:给分组起名字
import re # 固定匹配
# c = re.compile(r'<div><a>\w+</a></div>')
# \1表示前面第一个小括号匹配的内容
# c = re.compile(r'<([a-z]+)><([a-z]+)>\w+</\2></\1>')
# 给()起名字
c = re.compile(r'<(?P<goudan>[a-z]+)><(?P<ergou>[a-z]+)>\w+</(?P=ergou)></(?P=goudan)>') s = c.search('<div><a>百度一下</a></div>') if s:
print(s.group())贪婪匹配
- 贪婪:最大限度的匹配叫贪婪。正则的匹配默认是贪婪。
- 非贪婪:只要满足匹配条件,能少匹配就少匹配;通过可以使用'?'进行取消贪婪
- 示例:
import re # 取消任意多次的贪婪
# c = re.compile(r'a.*?b')
# 取消至少一次的贪婪
c = re.compile(r'a.+?b') s = c.search('abdhsadjbsdjabs') if s:
print(s.group())匹配模式
- 说明:所谓模式就是对匹配的原则进行整体的修饰
- 示例:
import re # 忽略大小写的匹配
# c = re.compile(r'hello', re.I)
# s = c.search('Hello world') # 进行多行匹配,默认单行匹配
# c = re.compile(r'^hello', re.M)
# s = c.search('world \nhello') # 做为单行处理 或 让 . 能够匹配 \n
c = re.compile(r'<div>.*?</div>', re.S)
# string = '<div>hello</div>'
string = '''<div>
hello
</div>'''
s = c.search(string) if s:
print(s.group())字符转义
- 若匹配正则语法中的特定字符都需要进行转义
- 正则字符串会被处理两次,python中处理一次,re模块会在处理一次
- 若不想考虑字符的转义问题,可以在书写正则字符串时前面加一个字符'r'
- 添加'r'之后,在python不会再进行任何转义,只需在与正则语法相关的字符前加''即可让其使用原有意义
Python基础—15-正则表达式的更多相关文章
- 十七. Python基础(17)--正则表达式
十七. Python基础(17)--正则表达式 1 ● 正则表达式 定义: Regular expressions are sets of symbols that you can use to cr ...
- 十五. Python基础(15)--内置函数-1
十五. Python基础(15)--内置函数-1 1 ● eval(), exec(), compile() 执行字符串数据类型的python代码 检测#import os 'import' in c ...
- Python基础之 正则表达式指南
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程 ...
- python基础之正则表达式
正则表达式语法 正则表达式 (或 RE) 指定一组字符串匹配它;在此模块中的功能让您检查一下,如果一个特定的字符串匹配给定的正则表达式 (或给定的正则表达式匹配特定的字符串,可归结为同一件事). 正则 ...
- Python高手之路【五】python基础之正则表达式
下图列出了Python支持的正则表达式元字符和语法: 字符点:匹配任意一个字符 import re st = 'python' result = re.findall('p.t',st) print( ...
- python基础之正则表达式和re模块
正则表达式 就其本质而言,正则表达式(或 re)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 ...
- python基础之 正则表达式,re模块
1.正则表达式 正则表达式:是字符串的规则,只是检测字符串是否符合条件的规则而已 1.检测某一段字符串是否符合规则 2.将符合规则的匹配出来re模块:是用来操作正则表达式的 2.正则表达式组成 字符组 ...
- python基础-RE正则表达式
re 正则表示式 正则表达式(或 RE)是一种小型的.高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现.正则表达式模式被编译成一系列的字节码,然后由用 C 编写 ...
- python基础之正则表达式。
简介 就其本质而言,正则表达式是内嵌在python内,由re模块实现,小型的专业化语言,最后由c写的匹配引擎执行.正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来 ...
- Python开发【第一篇】Python基础之正则表达式补充
正则表达式 一简介:就其本质而言,正则表达式(或RE)是一种小型的.高度专业化的标称语言,(在Python中)它内嵌在Python中,并通过re模块实现.正则表达式模式被编译成一系列的字节码,然后由用 ...
随机推荐
- [转]前端HTML-CSS规范
原文:http://www.cnblogs.com/whitewolf/p/4491707.html 黄金定律 一个项目应该永远遵循同一套编码规范! 不管有多少人共同参与同一项目,一定要确保每一行代码 ...
- [LeetCode]23. Merge k Sorted Lists合并K个排序链表
Merge k sorted linked lists and return it as one sorted list. Analyze and describe its complexity. E ...
- 移除script标签引起的兼容性问题
一.应用场景: 有时候我们需要动态创建script标签实现脚本的按需加载,我们会为script标签绑定onload或者onreadystatechange事件,用于检测动态脚本是否加载并执行完毕,在事 ...
- typeScript入门(三)接口
接口我感觉是很常用的一块 定义标准: 接口的作用:在面向对象的编程中,接口是一种规范的定义,它定义了行为和动作的规范,在程序设计里面,接口起到一种限制和规范的作用.接口定义了某一批类所需要遵守的规 ...
- Java集合篇六:Map中key值不可重复的测试
package com.test.collection; import java.util.HashMap; import java.util.Map; //Map中key值不可重复的测试 publi ...
- 洛谷P1970 花匠(dp)
题意 题目链接 Sol 直接用\(f[i][0/1]\)表示到第\(i\)个位置,该位置是以上升结尾还是以下降结尾 转移的时候只需枚举前一个即可 #include<cstdio> #inc ...
- Web站点如何防范XSS、CSRF、SQL注入攻击
XSS跨站脚本攻击 XSS跨站脚本攻击指攻击者在网页中嵌入客户端脚本(例如JavaScript),当用户浏览此网页时,脚本就会在用户的浏览器上执行,从而达到攻击者的目的,比如获取用户的Cookie,导 ...
- Python爬虫之requests模块(1)
一.引入 Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用. 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症.冗余代码症.重新发明轮子症.啃 ...
- 最新机动车行驶证模板PSD可编辑分层文件下载
机动车行驶证PSD模板下载地址: http://www.qijieworld.com/thread-1834752-1-1.html 模板为psd格式,内容可编辑修改,需使用 Photoshop CS ...
- Mac安装Gradle eclipse安装buildship插件
一直用的eclipse+mvn,现在需要导入别人的gradle项目,所以下载了gradle和在eclipse中安装了buildship插件. 一,mac下安装gradle 1,点击网页https:// ...