python基础之正则表达式 re模块
内容梗概:
1. 正则表达式
2. re模块的使⽤
3. 一堆练习
正则表达式是对字符串串操作的一种逻辑公式. 我们一般使用正则表达式对字符串进行匹配和过滤.
使用正则的优缺点:
优点: 灵活,功能性强,逻辑性强.
缺点: 上手难.一旦上手,会爱上这个东西
正则表达式由普通字符和元字符组成. 普通字符包含大小写字母,数字.\
在匹配普通字符的时候我们直接写就可以了
元字符(重点): 元字符才是正则表达式的灵魂. 元字符中的内容太多了了, 在这⾥里里我们只介绍⼀一些常⽤用的.
1. 字符组
字符组很简单⽤用[]括起来. 在[]中出现的内容会被匹配. 例例如:[abc] 匹配a或b或c
如果字符组中的内容过多还可以使⽤用- , 例例如: [a-z] 匹配a到z之间的所有字⺟母 [0-9]
匹配所有阿拉伯数字
2. 简单元字符
.常用的基本的元字符
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线
\s 匹配任意的空⽩白符
\d 匹配数字
\n 匹配一个换⾏行行符
\t 匹配一个制表符
\b 匹配一个单词的结尾
^ 匹配字符串的开始
$ 匹配字符串的结尾
\W 匹配非字母或数字或下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符a或字符b
() 匹配括号内的表达式,也表示一个组
[...] 匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符 3. 量词
我们到目前匹配的所有内容都是单一文字符号. 那如何一次性匹配很多个字符呢,
常用量词
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更更多次
{n,m} 重复n到m次 4. 惰性匹配和贪婪匹配
在量词中的*, +,{} 都属于贪婪匹配. 就是尽可能多的匹配到结果.
str: 麻花藤昨天让英雄联盟关服了了
reg: 麻花藤.*
此时匹配的是整句句话 在使⽤用.*后⾯面如果加了? 则是尽可能的少匹配. 表⽰示惰性匹配
str: 麻花藤昨天让英雄联盟关服了了
reg: 麻花藤.*?
此时匹配的是 麻花藤 2. re模块
re模块是python提供的一套关于处理理正则表达式的模块. 核心功能有四个:
1.re.findall()
2.re.finditer()
3.re.search()
4.re.match()
import re
lis = re.findall("\w+","alex is a bitch")
print(lis)
lis = re.finditer("\w+","alex is a bitch")
for el in lis:
print(el.group())
a = re.search("e","alex is a bitch").group()
print(a) c = re.match("alex","alex is a bitch").group()
print(c) 注意的点:
lis = re.findall("www.(baidu|oldboy).com", "www.baidu.com")
print(lis) #结果为baidu lis = re.findall("www.(?:baidu|oldboy).com", "www.baidu.com")
print(lis) #结果为"www.baidu.com" 5.其他模块
lis = re.split("(is)","alex is abs sb and a big sb")
print(lis) lis = re.sub("sb","goodman","alex is abs sb and a big sb")
print(lis) lis = re.subn("sb","goodman","alex is abs sb and a big sb")
# print(lis) 特别注意:compile 爬虫的时候用的会比较多,要掌握用法
obj = re.compile("sb")
lis = obj.sub("goodman","alex is a sb and a big sb")
print(lis) obj = re.compile("sb")
# lis = obj.split("alex is a sb and a big sb")
# print(lis) obj = re.compile(r"alex(?P<ID>\d+)a")
lis = obj.search("alex250a260sb300anda125big852sb")
print(lis.group())
print(lis.group("ID"))
python基础之正则表达式 re模块的更多相关文章
- 十七. Python基础(17)--正则表达式
十七. Python基础(17)--正则表达式 1 ● 正则表达式 定义: Regular expressions are sets of symbols that you can use to cr ...
- Python基础之 正则表达式指南
本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正则表达式标准库的完整介绍及使用示例.本文的内容不包括如何编写高效的正则表达式.如何优化正则表达式,这些主题请查看其他教程 ...
- Python基础(十)-模块
模块初识 一般把不同功能代码放到不同py文件,一个py文件就是一个模块 三种模块库: 1.Python标准库 2.第三方库 3.自定义库 导入模块:import 库名 (Python解释器只认识执行文 ...
- python基础(10)--模块
模块(module) 模块,用一坨代码实现了某个功能的代码集合 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来 ...
- Python基础(12)--模块
本文地址:http://www.cnblogs.com/archimedes/p/python-modules.html,转载请注明源地址. 模块简介 如果你退出 Python 解释器重新进入,以前创 ...
- python基础之正则表达式
正则表达式语法 正则表达式 (或 RE) 指定一组字符串匹配它;在此模块中的功能让您检查一下,如果一个特定的字符串匹配给定的正则表达式 (或给定的正则表达式匹配特定的字符串,可归结为同一件事). 正则 ...
- python基础之正则表达式。
简介 就其本质而言,正则表达式是内嵌在python内,由re模块实现,小型的专业化语言,最后由c写的匹配引擎执行.正则表达式(regular expression)描述了一种字符串匹配的模式,可以用来 ...
- 第六章:Python基础の反射与常用模块解密
本课主题 反射 Mapping 介绍和操作实战 模块介绍和操作实战 random 模块 time 和 datetime 模块 logging 模块 sys 模块 os 模块 hashlib 模块 re ...
- python记录_day23 正则表达式 re模块
一. 正则表达式 使用python的re模块之前应该对正则表达式有一定的了解 正则表达式是对字符串操作的一种逻辑公式.我们一般使用正则表达式对字符串进行匹配和过滤. 正则的优缺点: 优点:灵活, 功能 ...
随机推荐
- php编程疑难解决-1
全局变量和超全局变量 如果是php脚本script 或php代码, 一定要放在 php标签内<?php ?> 内. 这样apache才会把他当做php脚本内容来解析, 才会去调用php模块 ...
- 【ContextLoaderListener】Web项目启动报错java.lang.ClassNotFoundException: ContextLoaderListener
错误原因: 进入到tomcat的部署路径.metadata\.plugins\org.eclipse.wst.server.core\tmp0\wtpwebapps\下检查了一下,发现工程部署后在WE ...
- 【入门】Gradle的基本使用、在IDEA中的配置、常用命令
一.介绍 java的源码构建工具,大致经历了 ant -> maven -> gradle 这个过程,每一次进步,都是在解决之前的工具所带来的问题,简单来说: 1. ant 功能虽然也很强 ...
- c# 之继承、封装、多态
虽然理解了继承和封装,但是多态总是忘记其定义,很容易被忽略,通过这一次的查找资料和总结能帮助自己更好的理解 1/多态的概念: 同一操作作用于不通过的对象,可以有不同的解释,产生不同的执行结果,这就是多 ...
- [easyui] - 在easyui的table中展示提示框
因为在easyui的table中字段过多,而无法展示全时,被迫只能使用这个方法. 使用方式: 在 $('#dg').datagrid({ 后的 queryParams: form2Json('sear ...
- 【译】第18节---数据注解-ForeignKey
原文:http://www.entityframeworktutorial.net/code-first/foreignkey-dataannotations-attribute-in-code-fi ...
- 一、python (int & str 的方法)
1.变量:命名与使用 #!/usr/bin/env/ python # -*- coding:utf-8 -*- name = 'liQM' 只能包含字母.数字或下划线: 第一个字符不能是数字: 简短 ...
- border:none和border:0的区别
C:当定义border:none时,表示无边框样式,浏览器并不会对边框进行渲染,也就没有实际的宽度: D:定义边框时,除了设置宽度外,还必须设置边框的样式才能显示出来. border:0;浏 ...
- IIS7.5 错误代码0x8007007e HTTP 错误 500.19 - Internal Server Error
今天在win2008+IIS7.5的环境中部署WCF服务后,一直出现无法打开的页面.具体错误信息如下: HTTP 错误 500.19 - Internal Server Error 无法访问请求的页面 ...
- [从零开始搭网站四]CentOS配置Tomcat
点击下面连接查看从零开始搭网站全系列 从零开始搭网站 上一章带大家配置了JDK,那么现在就要来配置Tomcat容器了. 1:去 http://tomcat.apache.org/download-90 ...