关于python爬虫经常要用到的一些Re.正则表达式

转载：https://blog.csdn.net/skyeyesxy/article/details/50837984

1.正则表达式的常用符号与方法

常用符号：点号，星号，问号与括号（小括号）

（.）:匹配任意字符，换行符\n除外
（*）:匹配前一个字符0次或无限次
（?）:匹配前一个字符0次或1次
（.*）:贪心算法
（.*?）:非贪心算法
( ):括号内的数据作为结果返回

常用方法：re.findall， re.search， re.sub

findall：匹配所有符合规律的内容，返回包含结果的列表
search：匹配并提取第一个规律的内容，返回一个正则表达式对象(object)
sub：替换符合规律的内容，返回替换后的值

2.举例说明

1)findall

a.点号（`.）`

>>import re
a = 'xz123'
b = re.findall('x.', a)
print（b）
>>输出 ['xz']

############点.是一个占位符，一个.代表一个符号

b.星号（`*）`

>>import re
a = 'xyxy123'
b = re.findall('x*', a)
print b
>>

输出['x', '', 'x', '', '', '', '', '']

############依次匹配字符，有则显示，无则显示''(空)。

c.问号(`?)`

>>import re
a = 'xy123'
b = re.findall('x?', a)
print b

单独与*一样，前面附加其他的符号将做非贪心限制

d.贪心(`.*)`

import re
secret_code = 'ghkj08hs68xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxxfj4286ykjhag2'
b = re.findall('xx.*xx', secret_code)
print b

输出['xxIxxa14kgj4w314exxlovexxbvk14rgjhxxyouxx']

只要满足条件全部显示，贪心算法

e.非贪心(`.*?)`

b = re.findall('xx.*?xx', secret_code)

输出['xxIxx', 'xxlovexx', 'xxyouxx']

以上只做了解，一般只用（.*?）

f.经典用法`(.*?)`

b = re.findall('xx(.*?)xx', secret_code)

输出['I', 'love', 'you']

()包围所需要的内容，括号内的内容作为结果返回，不需要的内容放在括号外面

2)re.S

import re
secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
xxbvk14rgjhxxyouxxfj4286ykjhag2'''
#love后有换行符
b = re.findall('xx(.*?)xx', secret_code)
print b

输出['I', 'bvk14rgjh']，因为.不能匹配换行符。所以会一行为一个搜索项去找。匹配任何字符除了新的一行

import re
secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
xxbvk14rgjhxxyouxxfj4286ykjhag2'''
#love后有换行符
b = re.findall('xx(.*?)xx', secret_code, re.S)
print b
>>输出['I', 'love\n', 'you']，re.S让.匹配所有行，包括了换行符（以\n的形式出现

4)sub

import re
s = '123abcssfasdfas123'
output = re.sub('123(.*?)123', '123789123', s)
print output
>>

输出123789123
sub将符合条件的()内内容提换

6)compile用法

import re
secret_code = '''ghkj08hs68xxIxxa14kgj4w314exxlove
xxbvk14rgjhxxyouxxfj4286ykjhag2'''
pattern = 'xx(.*?)xx'
new_pattern = re.compile(pattern, re.S)
b = re.findall(new_pattern, secret_code)
print b

因为findall自动调用compile方法，所以不先编译规律compile再匹配

7)匹配纯数字(\d+)

import re
a = 'dfhkgh43gfhja873y5t2167715'
b = re.findall('(\d+)', a)
print b

>>

输出['43', '873', '5', '2167715']

关于python爬虫经常要用到的一些Re.正则表达式的更多相关文章

Python爬虫开发【第1篇】【正则表达式】
非结构化数据:HTML(正则表达式.XPath.CSS选择器) 结构化数据:JSON文件(JSON Path.转化为Python类型进行操作) XML文件(转化成Python类型.XPath.CSS选 ...
Python 爬虫模拟登陆知乎
在之前写过一篇使用python爬虫爬取电影天堂资源的博客,重点是如何解析页面和提高爬虫的效率.由于电影天堂上的资源获取权限是所有人都一样的,所以不需要进行登录验证操作,写完那篇文章后又花了些时间研究了 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
python爬虫学习(7) —— 爬取你的AC代码
上一篇文章中,我们介绍了python爬虫利器--requests,并且拿HDU做了小测试. 这篇文章,我们来爬取一下自己AC的代码. 1 确定ac代码对应的页面如下图所示,我们一般情况可以通过该顺序 ...
python爬虫学习(6) —— 神器 Requests
Requests 是使用 Apache2 Licensed 许可证的 HTTP 库.用 Python 编写,真正的为人类着想. Python 标准库中的 urllib2 模块提供了你所需要的大多数 H ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...
python 爬虫（二）
python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能 ...
Python 爬虫1——爬虫简述
Python除了可以用来开发Python Web之后,其实还可以用来编写一些爬虫小工具,可能还有人不知道什么是爬虫的. 一.爬虫的定义: 爬虫——网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区 ...
Python爬虫入门一之综述
大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章作为参考,也欢迎大家一共分享学习经验. Pyth ...

随机推荐

CANopen--基于DS402协议的伺服电机原点回零模式实现
硬件:Copley 驱动器ACJ-055-18+Maxon DCX-35L电机 1.原点回零方式简介: 有几种原点回零方法,每种方法建立:原点参考(限位或原点开关转换或编码器索引脉冲)运动方向以及索引 ...
WEB前端中rem单位的应用（一）
在最近的开发和之前的的使用中,我们一般面对需要适应多端的项目或者需要移动端多设备的适应,都可能会引入rem,em这样的单位. 如果你要着手一个以上类似的项目,我们也同样建议使用rem或者干脆引入框架, ...
python操作excel常用的方法
读操作模块安装 pip install xlrd 写操作模块安装 pip install xlwt xlrd读操作 1.打开excel xl = xlrd.open_workbook('test.xl ...
webuploader配置
做图片上传的时候用webuploader是个不错的选择,他可以通过简单的配置实现图片的上传预览和处理.  <link rel="stylesheet ...
深度揭秘腾讯云TSF日调用量超万亿次背后技术架构
腾讯云TSF是整合外部开源框架和腾讯内部历经多年锤炼的PaaS平台打造而成的企业级分布式应用服务开发与托管平台,本文重点对TSF中负责服务托管的PaaS平台进行揭秘,从技术角度解析TSF 平台是如何每 ...
form + iframe 获取表单提交后返回的数据
原理: submit 提交表单没有回调函数,但是可以用iframe来接收返回结果,最后进行格式转换就ok了: 原文地址: http://blog.csdn.net/simeng_1016/articl ...
使用Quartz 2D擦除图片
Quartz 2D 是一个强大的二位图像绘制引擎,在开发中如果遇到需要高度自定义的控件,我们就可能需要用Core Graphics进行绘制. 这几天一同事开发一个聊天中的一个子模块,A 画一幅图,然后 ...
sklearn包中有哪些数据集你都知道吗？
注册了博客园一晃有3个月了,同时接触机器学习也断断续续的算是有1个月了.今天就用机器学习神器sklearn包的相关内容作为我的开篇文章吧. 本文将对sklearn包中的数据集做一个系统介绍,并简单说一 ...
走近webpack（1）--多入口及devServer的使用
上一篇文章留下了一些问题,如果你没看过上一篇文章,可以在我的博客里查找,或者直接从这篇文章开始也是没问题的. const path = require('path'); module.exports= ...
Mycat 分片规则详解--日期范围 hash 分片
实现方式:其思想和范围取模分片一样,由于日期取模会出现数据热点问题,所以先根据日期分组,再根据时间 hash 使得短期数据分布跟均匀. 优点:避免扩容时的数据迁移,可以在一定程度上避免范围分片的热点问 ...

关于python爬虫经常要用到的一些Re.正则表达式

1.正则表达式的常用符号与方法

2.举例说明

1)findall

a.点号（.）

b.星号（*）

c.问号(?)

d.贪心(.*)

e.非贪心(.*?)

f.经典用法(.*?)