置顶:华为云618大促火热进行中,全场1折起,免费抽主机,消费满额送P30 Pro,点此抢购

正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。对于爬虫,基于正则表达式,从HTML里提取想要的信息就非常方便了。

正则表达式有特定的语法规则的。写好正则表达式后,就可以拿它去一个长字符串里匹配查找了。不论这个字符串里面有什么,只要符合我们写的规则,统统可以找出来。对于网页来说,如果想找出网页源代码里有多少URL,用匹配URL的正则表达式去匹配即可。下图就列出了正则表达式常用的匹配规则。

正则表达式不是Python独有的,它可以用在其他编程语言中。在Python中,re库提供了整个正则表达式的实现,利用这个库,可以在Python中使用正则表达式。在Python中写正则表达式几乎都用这个库,下面就来了解它的一些常用方法。

match()

match()传入要匹配的字符串以及正则表达式,就可以检测这个正则表达式是否匹配字符串。match()方法会尝试从字符串的起始位置匹配正则表达式,如果匹配,就返回匹配成功的结果,如果不匹配,就返回None。

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('Blog:\w{11}', content)
print(result.group())

运行结果:

Blog:hy592070616

这里首先声明了一个字符串 'Blog:hy592070616 Corporation:HUAWEI',其中包含英文字母、空格、数字、冒号等。接下来,我们写一个正则表达式'Blog:\w{11}'来匹配这个字符串。正则表达式中Blog:就是待匹配字符串的开头,\w通过查上表可知是匹配字母、数字及下划线,\w后面跟着{11}表示匹配11个\w。根据这个规则就可以从字符串 'Blog:hy592070616 Corporation:HUAWEI'中匹配出字符串Blog:hy592070616。同样,我们可以加入\s来匹配空格,\d来匹配数字以匹配整个字符串。

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('\w{4}:\w{2}\d{9}\s\w{11}:\w{6}', content)
print(result.group())

运行结果:

Blog:hy592070616 Corporation:HUAWEI

当然,做这种简单的任务我们可以用\S来匹配任意非空字符达到相同的效果。

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('\S{16}\s\S{18}', content)
print(result.group())

上面几种正则表达式比较复杂,出现空白字符我们就写\s匹配,出现数字我们就用\d匹配,这样的工作量非常大。其实完全没必要这么做,在上表中有一个万能匹配.*。其中,.可以匹配任意字符(除换行符),*代表字符无限次,所以它们组合在一起就可以匹配任意字符了。有了.*,我们就不用挨个字符地匹配了。

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('B.*I', content)
print(result.group())

正则表达式B.*I中的BI代表了字符串Blog:hy592070616 Corporation:HUAWEI首位两个字符,其它的字符均用.*来进行匹配。我们就可以得到相同的结果:

Blog:hy592070616 Corporation:HUAWEI

如果想从字符串中提取一部分内容,可以使用()将想提取的子字符串括起来。()实际上标记了一个子表达式的开始和结束位置,被标记的每个子表达式会依次对应每一个分组,调用group()方法传入分组的索引即可获取提取的结果。

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('\w{4}:\w\w(\d+)', content)
print(result.group())

运行结果:


可以看到,我们成功得到了592070616。这里用的是group(1),它与group()有所不同。group()会输出完整的匹配结果,而group(1)会输出第一个被()包围的匹配结果。假如正则表达式后面还有()包括的内容,那么可以依次用group(2)、group(3)等来获取。

若使用.*匹配时,有时候匹配到的并不是我们想要的结果。

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('B.*(\d+)', content)
print(result.group())

运行结果为:

 

很明显,我们希望提取的是592070616,而此处由于我们用了万能匹配符.*在语句中,正则表达式就会匹配59207061,所以在括号中我们就只能提取到一个数字6。这里就涉及一个贪婪匹配与非贪婪匹配的问题了。在贪婪匹配下,.*会匹配尽可能多的字符。正则表达式中.*后面是\d+,也就是至少一个数字,并没有指定具体多少个数字,因此,.*就尽可能匹配多的字符,这里就把59207061给匹配了,给\d+留下一个可满足条件的数字6。这很明显会给我们带来很大的不便。有时候,匹配结果会莫名其妙少了一部分内容。其实,这里只需要使用非贪婪匹配就好了。非贪婪匹配的写法是.*?,我们需要将将第一个.*改成了.*?就可以转变为非贪婪匹配。

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.match('B.*?(\d+)', content)
print(result.group())

结果如下:


match()还有个可选参数修饰符,修饰符可以扩展正则表达式的匹配范围。

比如,在字符串Blog:hy592070616 Corporation:HUAWEI中加入换行,将其变为:

 Blog:hy592070616
Corporation:HUAWEI

用之前的方法就没有办法对其进行匹配:

 import re

 content = '''Blog:hy592070616
Corporation:HUAWEI
'''
result = re.match('B.*I', content)
print(result.group())

这里的result就会返回一个None,因为.*无法匹配换行符。我们只需在match()中的第三个参数加一个修饰符re.S,即可修正这个错误。

 import re

 content = '''Blog:hy592070616
Corporation:HUAWEI
'''
result = re.match('B.*I', content, re.S)
print(result.group())

这样就可以正常返回结果:

 Blog:hy592070616
Corporation:HUAWEI

search()

match()方法是从字符串的开头开始匹配的,一旦开头不匹配,那么整个匹配就失败了。而search()方法在匹配时会扫描整个字符串,然后返回第一个成功匹配的结果。也就是说,正则表达式可以是字符串的一部分,在匹配时,search()方法会依次扫描字符串,直到找到第一个符合规则的字符串,然后返回匹配内容,如果搜索完了还没有找到,就返回None。比如我们要匹配字符串Blog:hy592070616 Corporation:HUAWEI中的HUAWEI:

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.search('Corporation:(\w+)', content)
print(result.group())

就可以得到HUAWEI结果,而不需要将字符串前部全部匹配。

findall()

search()方法可以返回匹配正则表达式的第一个内容,但是如果想要获取匹配正则表达式的所有内容,就需要findall()方法。该方法会搜索整个字符串,然后返回匹配正则表达式的所有内容并返回列表。假设我们有HTML文件:

 <div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="">一路上有你</li>
<li data-view="">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view=""><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view=""><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
<li data-view="">
<a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
</li>
</ul>
</div>

我们希望提取歌手和歌名的信息,则可以:

 import re

 html = '''<div id="songs-list">
<h2 class="title">经典老歌</h2>
<p class="introduction">
经典老歌列表
</p>
<ul id="list" class="list-group">
<li data-view="">一路上有你</li>
<li data-view="">
<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
</li>
<li data-view="" class="active">
<a href="/3.mp3" singer="齐秦">往事随风</a>
</li>
<li data-view=""><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
<li data-view=""><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
<li data-view="">
<a href="/6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>
</li>
</ul>
</div>''' result = re.findall('singer="(\w+).*>(\w+)</a>', html)
print(result)

我们可以看到,大部分的歌手和歌名是singer="歌手">歌名</a>的形式,则我们可以写正则表达式singer="(\w+)">(\w+)</a>。但是我们发现有一条 singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>中有其他信息,使用上述的正则表达式这无法匹配出(邓丽君,但愿人长久)这个信息。基于这个问题,我们可以将正则表达式修改为singer="(\w+).*>(\w+)</a>(上述代码中的正则表达式),就可以顺利匹配出所有信息了。

 [('任贤齐', '沧海一声笑'), ('齐秦', '往事随风'), ('beyond', '光辉岁月'), ('陈慧琳', '记事本'), ('邓丽君', '但愿人长久')]

sub()

除了使用正则表达式提取信息外,有时候还需要借助它来修改文本。比如,想要把一串文本中的所有数字都去掉,这时就可以借助sub()方法。比如,我想将字符串Blog:hy592070616 Corporation:HUAWEI中的Corporation:HUAWEI去掉,就可以匹配Corporation:HUAWEI并用空的字符串替换。

 import re

 content = 'Blog:hy592070616 Corporation:HUAWEI'
result = re.sub('Corporation:.*', '',content)
print(result)

结果如下:

Blog:hy592070616

compile()

除了前面提到的处理字符串的方法以外,最后再介绍一下compile()方法,这个方法可以将正则字符串编译成正则表达式对象,以便在后面的匹配中复用。

 import re

 content1 = '2019-01-01 12:00'
content2 = '2019-01-02 12:30'
content3 = '2019-01-03 13:00'
pattern = re.compile('(\d+)-(\d+)-(\d+)\s.*')
result_1 = re.match(pattern, content1)
result_2 = re.match(pattern, content2)
result_3 = re.match(pattern, content3)
print('Year:' + result_1.group() + ' Month:' + result_1.group() + ' Day:' + result_1.group())
print('Year:' + result_2.group() + ' Month:' + result_2.group() + ' Day:' + result_2.group())
print('Year:' + result_3.group() + ' Month:' + result_3.group() + ' Day:' + result_3.group())

这里为了找到各个字符串中的年月日信息构建了正则表达式对象(\d+)-(\d+)-(\d+)\s.*以复用,输出结果如下:

 import re

 content1 = '2019-01-01 12:00'
content2 = '2019-01-02 12:30'
content3 = '2019-01-03 13:00'
pattern = re.compile('(\d+)-(\d+)-(\d+)\s.*')
result_1 = re.match(pattern, content1)
result_2 = re.match(pattern, content2)
result_3 = re.match(pattern, content3)
print('Year:' + result_1.group() + ' Month:' + result_1.group() + ' Day:' + result_1.group())
print('Year:' + result_2.group() + ' Month:' + result_2.group() + ' Day:' + result_2.group())
print('Year:' + result_3.group() + ' Month:' + result_3.group() + ' Day:' + result_3.group())

私货时间:华为云618大促火热进行中,全场1折起,免费抽主机,消费满额送P30 Pro,点此抢购

来源:CSDN 作者:洪远

HDC.Cloud 华为开发者大会2020 即将于2020年2月11日-12日在深圳举办,是一线开发者学习实践鲲鹏通用计算、昇腾AI计算、数据库、区块链、云原生、5G等ICT开放能力的最佳舞台。

欢迎报名参会

Python爬虫从入门到精通——基本库re的使用:正则表达式【华为云技术分享】的更多相关文章

  1. Python 中拼音库 PyPinyin 的用法【华为云技术分享】

    [摘要] 最近碰到了一个问题,项目中很多文件都是接手过来的中文命名的一些素材,结果在部署的时候文件名全都乱码了,导致项目无法正常运行. 后来请教了一位大佬怎么解决文件名乱码的问题,他说这个需要正面解决 ...

  2. Python爬虫帮你打包下载所有抖音好听的背景音乐,还不快收藏一起听歌【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  3. Python开发GUI工具介绍,实战:将图片转化为素描画!【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  4. 【Python3网络爬虫开发实战】6.4-分析Ajax爬取今日头条街拍美图【华为云技术分享】

    [摘要] 本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法.这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来. 1. 准备工作 在本节 ...

  5. 这个七夕节,用Python为女友绘制一张爱心照片墙吧!【华为云技术分享】

    欢迎添加华为云小助手微信(微信号:HWCloud002 或 HWCloud003),输入关键字“加群”,加入华为云线上技术讨论群:输入关键字“最新活动”,获取华为云最新特惠促销.华为云诸多技术大咖.特 ...

  6. 图库网站Unsplash高清原图爬虫【华为云技术分享】

    [摘要] 写博客的好工具,快速获得高清图片 在百度图片爬虫小助手里,我开发了一个爬虫,来节约我写博客时搜集图片的时间. 但是,也出现了一些问题,主要有以下几点: 百度图片上的质量参差不齐,大部分图片质 ...

  7. Python正则表达式,看完这篇文章就够了...#华为云&#183;寻找黑马程序员#【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

  8. Python面试的一些心得,与Python练习题分享【华为云技术分享】

    版权声明:本文为CSDN博主「华为云」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明.原文链接:https://blog.csdn.net/devcloud/arti ...

  9. 用python读取word文件里的表格信息【华为云技术分享】

    在企查查查询企业信息的时候,得到了一些word文件,里面有些控股企业的数据放在表格里,需要我们将其提取出来. word文件看起来很复杂,不方便进行结构化.实际上,一个word文档中大概有这么几种类型的 ...

随机推荐

  1. 前端与算法 leetcode 283. 移动零

    目录 # 前端与算法 leetcode 283. 移动零 题目描述 概要 提示 解析 解法一:暴力法 解法二:双指针法 算法 传入[0,1,0,3,12]的运行结果 执行结果 GitHub仓库 # 前 ...

  2. NOIP模拟测试19考试反思

    这次考试是存在很大问题的,(如果不是T1T2出乎意料地A了,鬼知道会发生什么) T2A是情理之中,考试的时候测的极限数据跑的很快(无论m什么范围),但是T1真的...... T3没有分配太多的时间+没 ...

  3. 使用Typescript重构axios(二十五)——文件上传下载进度监控

    0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...

  4. 网页文件打包成.exe可执行文件

    网页文件不止可以通过浏览器打开,也可以通过打包程序打包成.exe桌面可执行程序,这样写的网页文件就可以像桌面应用一样打开了.方法如下: 工具:NW.js.Enigma Virtual Box.资源编辑 ...

  5. Project Euler 58: Spiral primes

    从一开始按以下方式逆时针旋转,可以形成一个边长为七的正方形螺旋: 一个有趣的现象是右下对角线上都有一个奇完全平方数,但是更有趣的是两条对角线上的十三个数中有八个数是素数(已经标红),也就是说素数占比为 ...

  6. hash值生成表后缀(分表方案)

    //businessId分表目标值,tableSize:表数量,tableSuffix:表后缀 public static String getTableSuffix(String businessI ...

  7. ASP.NET Core 1.0: Using Entity Framework Core 1.0 - Transaction

    跟Entity Framework之前的版本不同,Class DbContext不再有AcceptAllChanges()方法. 使用Transaction需要使用DbContext中的Databas ...

  8. HTML5之worker开启JS多线程模式及window.postMessage跨域

    worker概述 worker基本使用 window下的postMessage worker多线程的应用 一.worker概述 web worker实际上是开启js异步执行的一种方式.在html5之前 ...

  9. ArcGIS API For Javascript :双屏(多屏)地图联动的方法

    在遇到地图对比的应用场景下,我们需要双屏地图或者多屏地图来满足我们的业务需求. 解决思路:首先生成两份(多份)地图,然后通过监听地图缩放拖拽,用地图四至将不同的地图对象做绑定,实现多地图联动. 前端部 ...

  10. 力扣(LeetCode)Excel表列名称 个人题解

    给定一个正整数,返回它在 Excel 表中相对应的列名称. 例如, 1 -> A 2 -> B 3 -> C ... 26 -> Z 27 -> AA 28 -> ...