python正则匹配次数，贪婪和非贪婪

贪婪模式 {m,n}表示匹配子串的次数>=m and <=n,再此分为内匹配次数尽可能的多贪婪模式 {,n}表示 >=0 and <=n 贪婪模式 {m,} 表示>=m {m}表示示匹配子串m次贪婪模式 * 匹配子串0次或多次,相当于{0,} 贪婪模式 +匹配子串一次或多次{1,} ?匹配子串0次或1次{0,1} 非贪婪模式匹配次数解析:*? +? ??…

python基础：re模块匹配时贪婪和非贪婪模式

python贪婪和非贪婪正则表达式通常用于在文本中查找匹配的字符串.Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符:非贪婪则相反,总是尝试匹配尽可能少的字符.在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪. >>> s="This is a number 234-235-22-423" >>> r…

python中贪婪与非贪婪

Python里数量词默认是贪婪的(在少数语言里也可能是默认非贪婪),总是尝试匹配尽可能多的字符: 非贪婪则相反,总是尝试匹配尽可能少的字符. 在"*","?","+","{m,n}"后面加上?,使贪婪变成非贪婪. >>> s="This is a number 234-235-22-423" >>> r=re.match(".+(\d+-\d+-\d+-\d+)…

之前做程序的时候看到过正则表达式的贪婪与非贪婪模式,今天用的时候就想不起来了,现在这里总结一下,以备自己以后用到注意. 1.什么是正则表达式的贪婪与非贪婪匹配如:String str="abcaxc"; Patter p="ab.*c"; 贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配.如上面使用模式p匹配字符串str,结果就是匹配到:abcaxc(ab.*c). 非贪婪匹配:就是匹配到结果就好,最少的匹配字符.如上面使用模式p匹配字符串str,…

Python正则匹配字母大小写不敏感在读xml中的应用

需要解决的问题:要匹配字符串,字符串中字母的大小写不确定,如何匹配? 问题出现之前是使用字符串比较的方式,比如要匹配'abc',则用语句: if s == 'abc':#s为需要匹配的字符串 print '匹配成功\n' 现在的问题是s可能是Abc.ABC等等,所以需要大小写不敏感的匹配,如果把需要匹配的模式的大小写进行罗列,那即使是三个字母的短模式也是很麻烦,查了一下,正则表达式re模块中有个参数flags=re.I,这样就可以大小写不敏感的匹配了,示例如下: import re s = 'A…

Python正则的贪婪和非贪婪示例

贪婪匹配 import re info = """ saas12 [STREAM] codec_type=audio111 [/STREAM]-- [STREAM] codec_type=audio2222 [/STREAM] asas """ patten = r"\[STREAM\].*\[/STREAM\]" print re.findall(patten,info,re.S) ###### 结果 ###### ['[S…

js正则中的贪婪和非贪婪模式问题总结

var b="abeeee:eeeee:eeeeeab"; console.log(b.match(/e+\:e+/g));//["eeee:eeeee"]贪婪模式,只显示第一个匹配到的 console.log(b.match(/e+?\:e+?/g));//["eeee:e", "eeee:e"]非贪婪模式,从前向后查询 console.log(b.match(/e+\:(?=e+)/g));//["eeee:&q…

python 贪婪和非贪婪模式

这样的正则表达式: r'\*(.+)\*' 如果想要匹配*something*这样的一个串按道理说是没问题的但是如果文本是*this* is *something* 那么我们的正则表达式就会采取贪婪模式匹配第一个* 和最后一个* 而中间的两个*就当作是第一个分组里面的内容了要想采取非贪婪模式就只需在其后面加一个问号r'\*(.+?)\*' s1='hello,*something!* pattern1=re.compile('\*(.+)\*') print re.sub(patte…

python 正则匹配

正则表达式模式模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身.一个正则表达式模式中的字母和数字匹配同样的字符串. 多数字母和数字前加一个反斜杠时会拥有不同的含义. 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义. 反斜杠本身需要使用反斜杠转义. 由于正则表达式通常都包含反斜杠,所以你最好使用原始字符串来表示它们.模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符. 下表列出了正则表达式模式语法中的特殊元素.如果你使用模式的同时提供了可选的标志参数,…

python 正则匹配中文(unicode)(转)

由于需求原因,需要匹配提取中文,大量google下,并没有我需要的.花了一个小时大概测试,此utf8中文通过,特留文. 参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html 首先,确保所有编码都为 unicode …

python正则匹配——中文字符的匹配

# -*- coding:utf-8 -*- import re '''python 3.5版本正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大学' regex_str = ".*?([\u4E00-\u9FA5]+大学)" match_obj = re.match(regex_str, words) if match_obj: print(match_obj.group(1)) 结果:山海大学…

python正则中的贪婪与非贪婪

当重复一个正则表达式时,如用 a*,操作结果是尽可能多地匹配模式.当你试着匹配一对对称的定界符,如 HTML 标志中的尖括号.匹配单个 HTML 标志的模式不能正常工作,因为 .* 的本质是“贪婪”的 >>> s = '<html><head><title>Title</title>'>>> len(s)32>>> print re.match('<.*>', s).span()(0, 32)…

Python 正则匹配网页内的IP地址及端口号

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Date : 2017-08-30 20:38:23 # @Author : EnderZhou (zptxwd@gmail.com) # @Link : http://www.cnblogs.com/enderzhou/ # @Version : $Id$ import requests import re def open_url(url): req = requests.get(url=url…

Python正则匹配多行，多个数据

最近用Python做一个crawler工具的时候,发现用一个正则表达式可以匹配到个数据的时候用match.group()只能打印出第一个数据,其它数据不能打印出来.最后找到解决方法,现在记录一下,直接贴代码: P = re.compile(r'<a(\s)href=\"/android/info/([0-9]*)\.html\?fw=([0-9]*)\"', re.M) match = p.findall(txt) …

python正则匹配示例

text="山东省临沂市兰山区市委大院中区21号楼4单元 276002 奥特曼1号 18254998111" #匹配手机号 m=re.findall(r"1\d{10}",text) if m: print(m) #匹配电话号 pattern = re.compile(r"((\d{3}|$\d{3}$|\d{4}|$\d{4}$)?(\s|-|.)?(\d{8}))") a = re.match(pattern, text) if a…

Python 正则表达式匹配次数

管道可以匹配多个正则表达式中的一个 >>> >>> m=re.search(r'Batman|Tina Fey','Batman and Tina Fey')>>> print(m.group())Batman>>> m=re.search(r'Batman|Tina Fey','Tina Fey and Batman')>>> print(m.group())Tina Fey>>> 问号表明它前面…

[Python]正则匹配字符串 | 蒲公英二维码图片url

代码示例: import re def Find(string): # findall() 查找匹配正则表达式的字符串 url = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*,]|(?:%[0-9a-fA-F][0-9a-fA-F]))+',string) return url string = 'appQRCodeURL: https://www.pgyer.com/app/qrcxxxxstory/d5eab71a31…

3.python正则匹配不到内容时消耗大量内存

遇到问题:正常情况获取的网页源码可以通过正则表达式快速匹配到内容,,但是如果出现问题,没有匹配到的内容,正则就会一直回溯,导致内存激增,一直循坏查找. 解决思路: 一.如果能够有特殊内容可以标记,满足标记再正则,不匹配则不正则,避免一直回溯二.可以设置timeout的函数,如果运行超过多少时间则强制结束(下面给出了示例) 用threading.Timer的方法,通过start->sleep->cancel的形式,实现强制结束函数的调用 import threading import tim…

Python正则匹配递归获得给出目录下的特定类型的文件小技巧

需求是酱的: 输入一个目录,这个目录包含检测目录的必备信息但不准确需要获得后加工一下,如给出目录:C:\Program Files\Common Files\DESIGNER,需要检测的目录是:C:\Program Files\Common Files\System,即从给出的目录中获取前面的信息,后面的补上的目录(System)是指定的.从E:\res\tmp目录中检测xml文件,返回xml文件的目录代码如下: 1 import os 2 import re pathlist = [] pa…

Python正则匹配

使用Re模块首先生成一个匹配模式pattern,如pattern='.test' 然后使用re.match(pattern,str)或者search()匹配调用 match跟search的区别: match()函数试图从字符串的起始部分对模式进行匹配.如果匹配成功救返回一个匹配对象:如果匹配失败,就返回None,匹配对象的group()方法用于显示那个成功的匹配 search()函数工作方式与match()完全一致,不同之处在于search()函数会用他的字符串参数,在任意位置对给定正则表达式…

Python正则匹配之有名分组

参考:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html # re.match import re m = re.match(r'(\w+) (?P<sign>.*)', 'hello standby!') print(type(m)) # <class '_sre.SRE_Match'> print(m) # <_sre.SRE_Match object; span=(0, 14), match='hell…

python 正则匹配时间格式转换方法

import re from datetime import datetime a = '2018年8月9日 10:10' s = re.findall('\d+',a) print(s) d = ' '.join(s) print(d) f = datetime.strptime(d,'%Y %m %d %H %M').strftime('%Y/%m/%d %H:%M') print(f)>>>>>><结果> ['2018', '8', '9', '10'…

python 正则匹配字符串里面的字符

import re x=re.findall(r'\bf[a-z]*', 'which foot or hand fell fastest') print(x)…

python 正则匹配手机号

import rephone = str(input('请输入手机号:'))# b = str(12345678912)t = re.compile(r'^1(3\d|4[4-9]|5[0-35-9]|6[67]|7[013-8]|8[0-9]|9[0-9])\d{8}$')s = re.search(t,phone)# print(s)if s: print(s.group(),'是正常手机号')else: print('手机号格式不正确')…

python正则非贪婪模式

上一篇python正则匹配次数大家应该也发现了,除了?其他匹配次数规则都是尽可能多的匹配那如果只想匹配1次怎么办呢,这就是正则中非贪婪模式的概念了原理就是利用?与其他匹配次数规则进行组合单个匹配规则: * = {0,}表示匹配0-n次 + = {1,}表示匹配1-n次 ?= {0,1}表示匹配0-1次三者可组合成非贪婪模式匹配次数解析:*? +? ?? 简而言之:它们必须结合左右的子串进行匹配,左边正则必须非空,右边正则可以为空,中心思想就是在匹配到右边的正则之前尽可能少次匹配左边的正…

python 正则表达式与JSON-正则表达式匹配数字、非数字、字符、非字符、贪婪模式、非贪婪模式、匹配次数指定等

1.正则表达式:目的是为了爬虫,是爬虫利器. 正则表达式是用来做字符串匹配的,比如检测是不是电话.是不是email.是不是ip地址之类的 2.JSON:外部数据交流的主流格式. 3.正则表达式的使用 re python 内置的模块,可以进行正则匹配 re.findall(pattern,source)pattern:正则匹配规则-也叫郑泽表达式source:需要查找的目标源 import re a = "C0C++7Java8C#Python6JavaScript" res = re.…

python里使用正则表达式的非贪婪模式

在正则表达式里,什么是正则表达式的贪婪与非贪婪匹配如:String str="abcaxc"; Patter p="ab*c"; 贪婪匹配:正则表达式一般趋向于最大长度匹配,也就是所谓的贪婪匹配.如上面使用模式p匹配字符串str,结果就是匹配到:abcaxc(ab*c). 非贪婪匹配:就是匹配到结果就好,就少的匹配字符.如上面使用模式p匹配字符串str,结果就是匹配到:abc(ab*c). 解决这个问题,可以采用: 正则引擎默认是贪婪的,当出现"*&qu…

第11.9节 Python正则表达式的贪婪模式和非贪婪模式

在使用正则表达式时,匹配算法存在贪婪模式和非贪婪模式两种模式,在<第11.8节 Pytho正则表达式的重复匹配模式及元字符"?". "*". "+"功能介绍>中的重复匹配模式就是贪婪模式. 什么是贪婪模式呢?就是匹配的时候,在整体匹配的情况下最大可能多的匹配最多的字符.非贪婪模式就是只要在字符串从左往右匹配模式串成功即停止匹配.如模式串"<.*>" 在匹配字符串'<a> b <c&g…

Delphi 正则表达式语法(6): 贪婪匹配与非贪婪匹配

Delphi 正则表达式语法(6): 贪婪匹配与非贪婪匹配 //贪婪匹配 var reg: TPerlRegEx; begin reg := TPerlRegEx.Create(nil); reg.Subject := '<html><head><title>标题</title></head><body>内容</body></html>'; reg.RegEx := '<.*>';…

JavaScript 正则表达式——预定义类，边界，量词，贪婪模式，非贪婪模式，分组，前瞻

㈠预定义类示例:匹配一个ab+数字+任意字符的字符串:ab\d. ㈡边界正则表达式常用的边界匹配字符 ⑴示例1:第一个是没写单词边界第二个是加上字符边界的效果第三个是为this的is替换成0,前面没有单词边界,后面有边界的示例. ⑵示例2:常用边界字符“^”与“$”基本含义的举例注意观察两者的书写位置. ⑶示例3:边界字符“^”与“$”和修饰符“m”的示例㈢量词示例: ㈣js正则贪婪模式 ⑴贪婪模式…

【python正则匹配次数，贪婪和非贪婪】的更多相关文章