re模块

正则表达式：

　　应用场景：　　

　　　　1、判断某一个字符串是否符合规则　　（注册时：判断手机号，身份证号，邮箱格式是否正确）

　　　　2、将符合规则的内容从一个庞大的字符串体系中提取出来　　（爬虫，日志分析）

　　什么是正则表达式：

　　　　只和字符串打交道，是一种规则，来约束字符串的规则

　　字符组：

　　　　在同一个位置可能出现的各种字符组成了一个字符组，在正则表达式中用 [ ] 表示。

　　　　字符分为很多类，比如数字，字母，标点等等。

　　　　[0123456789]　　表示0-9都可以匹配

　　　　[0-9]　　　　　　用 - 表示范围，[0-9] 和 [0123456789] 是一样的

　　　　[a-z]　　　　　　表示所有的小写字母

　　　　[A-Z]　　　　　　表示所有的大写字母

　　　　[0-9a-fA-F]　　　可以匹配数字，大小写形式的a~f，常用来验证十六进制字符

　　　　原理是通过ASCII编码，小的一个值指向大的一个值

　　元字符：　　　

　　　　\w　　匹配字母或数字或下划线

　　　　\W　匹配非字母或非数字或非下划线

　　　　\s　　匹配任意的空白符（空格、换行\n、制表符\t）

　　　　\S　　匹配非空白符

　　　　\d　　匹配数字

　　　　\D　　匹配非数字

　　　　\n　　匹配一个换行符

　　　　\t　　匹配一个制表符

　　　　\b　　匹配一个单词的边界

　　　　\A　　匹配以什么开头，与 ^ 的功能一样　　（\A匹配内容）

　　　　\Z　　匹配以什么结尾，与 $ 的功能一样　　（匹配内容\Z）

　　　　.　　匹配除换行符以外的任意字符

　　　　^　　匹配字符串的开始

　　　　$　　匹配字符串的结尾

　　　　a|b　匹配字符a或字符b　　（把长的放前面，如 abc|ab）

　　　　()　　匹配括号内的表达式，也表示一个组

　　　　[...]　匹配字符组中的字符

　　　　[^...]　匹配除了字符组中字符的所有字符

　　量词：

　　　　*　　重复零次或更多次

　　　　+　　重复一次或更多次

　　　　？　　重复零次或一次

　　　　{n}　重复n次

　　　　{n,}　重复n次货更多次

　　　　{n,m}　重复n到m次

　　.^$

　　*+?{}

　　注意：前面的 *，+，？等都是贪婪匹配，也就是尽可能多的匹配，后面加？使其变成惰性匹配

　　字符集 [ ] [ ^ ]

　　分组 ()与或 | [ ^ ]

身份证号码是一个长度为15或18个字符的字符串，如果是15位则全部由数字组成，首位不能为0；如果是18位的，则前17位全部是数字，末位可以是数字或x

　　转义符 \

在正则表达式中，有很多有特殊意义的是元字符，比如\n和\s等，如果要在正则中匹配正常的"\n"而不是"换行符"就需要对"\"进行转义，变成'\\'。

　　贪婪匹配

贪婪匹配：在满足匹配时，匹配尽可能长的字符串，默认情况下，采用贪婪匹配

　　几个常用的非贪婪匹配

　　　　*? 　　重复任意次，但尽可能少重复

　　　　+? 　　重复1次或更多次，但尽可能少重复

　　　　?? 　　重复0次或1次，但尽可能少重复

　　　　{n,m}? 重复n到m次，但尽可能少重复

　　　　{n,}? 　重复n次以上，但尽可能少重复

　　. * ?

　　　　.　　是任意字符

　　　　*　　是取 0 至无限长度

　　　　?　　是非贪婪模式

　　　　合在一起就是，取尽量少的任意字符，一般不会这么单独写，大多用在：

　　　　. * ? x　　就是取前面任意长度的字符，直到一个 x 出现

import re

# \w与\W

print(re.findall('\w', 'hello egon 123'))

# ['h', 'e', 'l', 'l', 'o', 'e', 'g', 'o', 'n', '1', '2', '3']

print(re.findall('\W', 'hello egon 123'))

# [' ', ' ']

# \s与\S

print(re.findall('\s', 'hello egon 123'))

# [' ', ' ']

print(re.findall('\S', 'hello egon 123'))

# ['h', 'e', 'l', 'l', 'o', 'e', 'g', 'o', 'n', '1', '2', '3']

# \n与\t都是空，都可以被\s匹配

print(re.findall('\s', 'hello \n egon \t 123'))

# [' ', '\n', ' ', ' ', '\t', ' ']

# \n与\t

print(re.findall(r'\n', 'hello egon \n123'))

# ['\n']

print(re.findall(r'\t', 'hello egon \t 123'))

# ['\t']

# \d与\D

print(re.findall('\d', 'hello egon 123'))

# ['1', '2', '3']

print(re.findall('\D', 'hello egon 123'))

# ['h', 'e', 'l', 'l', 'o', ' ', 'e', 'g', 'o', 'n', ' ']

# \A与\Z

print(re.findall('\Ahe', 'hello egon 123'))

# ['he']

print(re.findall('123\Z', 'hello egon 123'))

# ['123']

# ^与$

print(re.findall('^he', 'hello egon 123'))

# ['he']

print(re.findall('123$', 'hello egon 123'))

# ['123']

# 重复匹配：.  *  ?  .*  .*?  +  {n,m}  |

# .

print(re.findall('a.b', 'a1b'))

# ['a1b']

print(re.findall('a.b', 'a1b a*b a b aaab'))

# ['a1b', 'a*b', 'a b', 'aab']

print(re.findall('a.b', 'a\nb'))

# []

# *

print(re.findall('ab*', 'bbbbbbb'))

# []

print(re.findall('ab*', 'a'))

# ['a']

print(re.findall('ab*', 'abbbbbb'))

# ['abbbbbb']

# ?

print(re.findall('ab?', 'a'))

# ['a']

print(re.findall('ab?', 'abbbb'))

# ['ab']

# 匹配所有包含小数在内的数字

print(re.findall('\d+\.?\d*', 'sdfsdfs231sdsd1.123sdfsfas34jk23kj52k3jh4kj'))

# ['231', '1.123', '34', '23', '52', '3', '4']

# .*默认为贪婪匹配

print(re.findall('a.*b', 'a1b222222222b'))

# ['a1b222222222b']

# .*? 为非贪婪匹配：推荐使用

print(re.findall('a.*?b', 'a1b22222222b'))

# ['a1b']

# +

print(re.findall('ab+', 'a'))

# []

print(re.findall('ab+', 'abbb'))

# ['abbb']

# {n,m}

print(re.findall('ab{2}', 'abbbb'))

# ['abb']

print(re.findall('ab{2,4}', 'abbb'))

# ['abbb']

print(re.findall('ab{1,}', 'abbbbbb'))

# ['abbbbbb']

print(re.findall('ab{0,}', 'a'))

# ['a']

#[]

print(re.findall('a[1*-]b', 'a1b a*b a-b'))

# ['a1b', 'a*b', 'a-b']     []内的都为普通字符了，且如果-没有被转意的话，应该放到[]的开头或结尾

print(re.findall('a[^1*-]b', 'a1b a*b a-b a=b'))

# ['a=b']       []内的^代表的意思是取反，所以结果为['a=b']

print(re.findall('a[0-9]b', 'a1b a*b a-b a=b'))

# ['a1b']

print(re.findall('a[a-z]b', 'a1b a*b a-b a=b aeb'))

# ['aeb']

print(re.findall('a[a-zA-Z]b', 'a1b a*b a-b a=b aeb aEb'))

# ['aeb', 'aEb']

# 转义\

print(re.findall('a\\c', 'a\c'))

# 对于正则来说a\\c确实可以匹配到a\c,但是在python解释器读取a\\c时，会发生转义，然后交给re去执行，所以抛出异常

print(re.findall(r'a\\c', 'a\c'))

# ['a\\c']  r代表告诉解释器使用rawstring，即原生字符串，把我们正则内的所有符号都当普通字符处理，不要转义

print(re.findall('a\\\\c', 'a\c'))

# 同上面的意思一样，和上面的结果一样都是['a\\c']

# ()分组

print(re.findall('ab+', 'ababab123'))

# ['ab', 'ab', 'ab']

print(re.findall('(ab)+123', 'ababab123'))

# ['ab']，匹配到末尾的ab123中的ab

print(re.findall('(?:ab)+123', 'ababab123'))

# ['ababab123']  findall的结果不是匹配的全部内容，而是组内的内容,?:可以让结果为匹配的全部内容

re模块下的常用方法：

import re

# findall

print(re.findall('\d', 'sdfh34h2h423h2h23h'))

# ['3', '4', '2', '4', '2', '3', '2', '2', '3']

# 返回值是一个列表，里面的每个元素是所有匹配到的项

# search

ret = re.search('\d', 'sdfh34h2h423h2h23h')

print(ret)

# <re.Match object; span=(4, 5), match='3'>

print(ret.group())

#

ret = re.search('\d', 'sdhfsd')

print(ret)

# None

if ret:

    print(ret.group())

# search返回值：

#     返回一个re_Match对象

#     通过group取值

#     且只包含第一个匹配到值

import re

# findall 有一个特点，会优先显示分组中的内容

ret = re.findall('www.(baidu|oldboy).com', 'www.baidu.com')

print(ret)

# ['baidu']

ret = re.search('www.(baidu|oldboy).com', 'www.baidu.com')

print(ret)

# <re.Match object; span=(0, 13), match='www.baidu.com'>

print(ret.group())

# www.baidu.com

《Python》正则表达式的更多相关文章

Python 正则表达式入门（中级篇）
Python 正则表达式入门(中级篇) 初级篇链接:http://www.cnblogs.com/chuxiuhong/p/5885073.html 上一篇我们说在这一篇里,我们会介绍子表达式,向前向 ...
Python正则表达式中的re.S
title: Python正则表达式中的re.S date: 2014-12-21 09:55:54 categories: [Python] tags: [正则表达式,python] --- 在Py ...
Python 正则表达式入门（初级篇）
Python 正则表达式入门(初级篇) 本文主要为没有使用正则表达式经验的新手入门所写. 转载请写明出处引子首先说正则表达式是什么? 正则表达式,又称正规表示式.正规表示法.正规表达式.规则表达 ...
python正则表达式re
Python正则表达式: re 正则表达式的元字符有. ^ $ * ? { [ ] | ( )．表示任意字符［］用来匹配一个指定的字符类别,所谓的字符类别就是你想匹配的一个字符集,对于字符集中的字符可 ...
Python正则表达式详解
我用双手成就你的梦想 python正则表达式 ^ 匹配开始 $ 匹配行尾 . 匹配出换行符以外的任何单个字符,使用-m选项允许其匹配换行符也是如此 [...] 匹配括号内任何当个字符(也有或的意思) ...
比较详细Python正则表达式操作指南(re使用)
比较详细Python正则表达式操作指南(re使用) Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式.Python 1.5之前版本则是通过 regex 模块提供 E ...
Python正则表达式学习摘要及资料
摘要在正则表达式中,如果直接给出字符,就是精确匹配. {m,n}? 对于前一个字符重复 m 到 n 次,并且取尽可能少的情况在字符串'aaaaaa'中,a{2,4} 会匹配 4 个 a,但 a{2 ...
python正则表达式小例几则
会用到的语法正则字符释义举例 + 前面元素至少出现一次 ab+:ab.abbbb 等 * 前面元素出现0次或多次 ab*:a.ab.abb 等 ? 匹配前面的一次或0次 Ab?: A.Ab 等 ...
Python 正则表达式-OK
Python正则表达式入门一. 正则表达式基础 1.1. 简单介绍正则表达式并不是Python的一部分. 正则表达式是用于处理字符串的强大工具, 拥有自己独特的语法以及一个独立的处理引擎, 效率上 ...
Python天天美味(15) - Python正则表达式操作指南(re使用)(转)
http://www.cnblogs.com/coderzh/archive/2008/05/06/1185755.html 简介 Python 自1.5版本起增加了re 模块,它提供 Perl 风格 ...

随机推荐

记录结果再利用的"动态规划"
2018-09-24 15:01:37 动态规划(DP: Dynamic Programming)是算法设计方法之一,在程序设计竞赛中经常被选作题材.在此,我们考察一些经典的DP问题,来看看DP究竟是 ...
python中简单的递归（断点报错的小福利）
首先要先理解什么是递归? 在函数内部,可以调用其他函数.如果一个函数在内部调用自身本身,这个函数就是递归函数. 下面讲了一个很简单的递归函数 def clac(n): print(n) if int( ...
java ----> java.lang.NoClassDefFoundError
环境: centos 6.10,vim,jdk1.8_u72,zookeeper-3.4.6,maven3+ 正文: 使用zk的api操作创建节点发生java.lang.NoClassDefFound ...
有序广播和标准广播 --Android开发
一.标准广播和有序广播也很容易理解的. 标准广播: (1)通过sendBroadcast()方法发送 (2)通过异步方式发送,广播接收者的执行顺序是不明确的有序广播: (1)通过sendOrderB ...
LeetCode--292--Nim游戏
问题描述: 你和你的朋友,两个人一起玩 Nim游戏:桌子上有一堆石头,每次你们轮流拿掉 1 - 3 块石头. 拿掉最后一块石头的人就是获胜者.你作为先手. 你们是聪明人,每一步都是最优解. 编写一个函 ...
【洛谷p2669】【一本通p1100】金币
(今天高产) 金币[传送门] 洛谷上的算法标签自我感觉主要靠循环这道题是2015年NOIp普及组的题,其实还是很简单的.但为什么写这道题呢? 这道题第一次接触是在一本通刷题的时候,当时学循环结构, ...
python基础之循环语句,格式化输出以及编码
1.while循环语句 1.1 常见的几种结构 1. while+判断条件循环体 2. while+判断条件循环体 else 语句 tips:while循环如果满足条件的话,会一直循环循环体 ...
148. Sort List (java 给单链表排序)
题目:Sort a linked list in O(n log n) time using constant space complexity. 分析:给单链表排序,要求时间复杂度是O(nlogn) ...
Remove Duplicates From Sorted Array leetcode java
算法描述: Given a sorted array, remove the duplicates in place such that each element appear only once a ...
python-flask-路由匹配源码分析
@app.route('/') def hello_world(): return 'Hello World!' 第1步: class Flask(_PackageBoundObject): def ...

《Python》正则表达式

re模块

正则表达式：

字符组：

元字符：

量词：

.^$

*+?{}

字符集 [ ] [ ^ ]

分组 ()与 或 | [ ^ ]

转义符 \

贪婪匹配

. * ?

re模块下的常用方法：

《Python》正则表达式的更多相关文章

随机推荐

热门专题

　　字符组：

　　元字符：　　　

　　量词：

　　.^$

　　*+?{}

　　字符集 [ ] [ ^ ]

　　分组 ()与或 | [ ^ ]

　　转义符 \

　　贪婪匹配

　　. * ?