在线正则表达式匹配：http://tool.oschina.net/regex

正则表达式学习：https://c.runoob.com/front-end/854

一、什么是正则表达式？

常见匹配模式

模式	描述
\w	匹配字母数字及下划线
\W	匹配非字母数字下划线
\s	匹配任意空白字符，等价于[\t\n\r\f]
\S	匹配任意非空字符
\d	匹配任意数字，等价于[0-9]
\D	匹配任意非数字
\A	匹配字符串开始
\Z	匹配字符串结束，如果时存在换行，之匹配到换行前的结束字符串
\z	匹配字符串结束
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配字符串的开头
$	匹配字符串的末尾
.	匹配任意字符，除了换行符，当re.DOTTALL标记被指定时，则可以匹配包括换行符的任意字符
[...]	用来表示一组字符，单独列出：[amk]匹配'a','m'或'k'
[^...]	不再[]中的字符，单独列出：[^abc]匹配除了a,b,c之外的字符
*	匹配0个或多个的表达式
+	匹配1个或多个的表达式
?	匹配0个或1个由前面的正则表达式定义的片段，非贪婪模式
(n)	精确匹配n个前面表达式
(n,m)	匹配n到m次由前面的正则表达式定义的片段，贪婪方式
a\|b	匹配a或b
()	匹配括号内的表达式，也表示一个组

re.match

re.match尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配成功的话，match()就返回none.

re.match(pattern,string,flags=)

　　最常规的匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'

print(len(content))

result = re.match('^Hello\s\d{3}\s\d{4}\s\w{10}.*Demo$',content)

print(result)

print(result.group())

print(result.span())

　　泛匹配

import re

content = 'Hello 123 4567 World_This is a Regex Demo'

result = re.match('^Hello.*Demo$',content)

print(result)

print(result.group())

print(result.span())

　　匹配目标

import re

content = 'Hello 1234567 World_This is a Regex Demo'

result = re.match('^Hello\s(\d+)\sWorld.*Demo$',content)

print(result)

print(result.group(1))

print(result.span())

　　贪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'

result = re.match('^He.*(\d+).*Demo$',content)

print(result)

print(result.group(1))

print(result.span())

　　非贪婪匹配

import re

content = 'Hello 1234567 World_This is a Regex Demo'

result = re.match('^He.*?(\d+).*Demo$',content)

print(result)

print(result.group(1))

print(result.span())

　　匹配模式

import re

content = '''Hello 1234567 World_This

is a Regex Demo'''

result = re.match('^He.*?(\d+).*?Demo$',content,re.S)# .不能匹配换行符，re.S来支持匹配换行符

print(result)

print(result.group(1))

　　转义

import re

content = 'price is $5.00'

result = re.match('price is \$5\.00',content)

print(result)

　　总结：尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行符就用re.S　　

　　re.search

　　re.search 扫描整个字符串并返回第一个成功的匹配

import re

content = 'Extra strings Hello 1234567 World_This is a Regex Demo Extra strings'

result = re.match('Hello.*?(\d+).*?Demo',content)

print(result)

import re

content = 'Extra strings Hello 1234567 World_This is a Regex Demo Extra strings'

result = re.search('Hello.*?(\d+).*?Demo',content)

print(result)

　　总结：为了匹配方便，能用search就不用match

匹配练习

import re

html = '''

<div id="songs-list">

    <h2 class="title">金典老歌</h2>

    <p class="introduction">金典老歌列表</p>

    <ul i="list" class="list-group">

        <li data-view="2">一路有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>

        </li>

    </ul>

</div>

'''

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S)

if result:

    print(result.group(1),result.group(2))

else:

    print("ok")

import re

html = '''

<div id="songs-list">

    <h2 class="title">金典老歌</h2>

    <p class="introduction">金典老歌列表</p>

    <ul i="list" class="list-group">

        <li data-view="2">一路有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>

        </li>

    </ul>

</div>

'''

result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html,re.S)

if result:

    print(result.group(1),result.group(2))

else:

    print("ok")

import re

html = '''

<div id="songs-list">

    <h2 class="title">金典老歌</h2>

    <p class="introduction">金典老歌列表</p>

    <ul i="list" class="list-group">

        <li data-view="2">一路有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="6.mp3" singer="邓丽君"><i class="fa fa-user"></i>但愿人长久</a>

        </li>

    </ul>

</div>

'''

result = re.search('<li.*?singer="(.*?)">(.*?)</a>',html)

if result:

    print(result.group(1),result.group(2))

else:

    print("ok")

re.findall

搜索字符串，一列表形式返回全部能匹配的字串

import re

html = '''

<div id="songs-list">

    <h2 class="title">金典老歌</h2>

    <p class="introduction">金典老歌列表</p>

    <ul i="list" class="list-group">

        <li data-view="2">一路有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>

        </li>

    </ul>

</div>

'''

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',html,re.S)

print(results)

print(type(results))

for result in results:

    print(result)

    print(result[0],result[1],result[2])

import re

html = '''

<div id="songs-list">

    <h2 class="title">金典老歌</h2>

    <p class="introduction">金典老歌列表</p>

    <ul i="list" class="list-group">

        <li data-view="2">一路有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>

        </li>

    </ul>

</div>

'''

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>?\s*?</li)',html,re.S)

print(results)

for result in results:

    print(result[1])

re.sub

替换字符串中每一个匹配的子串后返回替换后的字符串

import re

content = 'Extra strings Hello 1234567 World_This is a Regex Demo Extra strings'

content = re.sub('\d+','',content)

print(content)

import re

content = 'Extra strings Hello 1234567 World_This is a Regex Demo Extra strings'

content = re.sub('\d+','Reldjaidja',content) # 将\d+所在位置替换成Reldjaidja

print(content)

import re

content = 'Extra strings Hello 1234567 World_This is a Regex Demo Extra strings'

content = re.sub('(\d+)',r'\1 8910',content) # \1是将第一个括号里的内容作了替换

print(content)

import re

html = '''

<div id="songs-list">

    <h2 class="title">金典老歌</h2>

    <p class="introduction">金典老歌列表</p>

    <ul i="list" class="list-group">

        <li data-view="2">一路有你</li>

        <li data-view="7">

            <a href="/2.mp3" singer="任贤齐">沧海一声笑</a>

        </li>

        <li data-view="4" class="active">

            <a href="/3.mp3" singer="齐秦">往事随风</a>

        </li>

        <li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>

        <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>

        <li data-view="5">

            <a href="/6.mp3" singer="邓丽君">但愿人长久</a>

        </li>

    </ul>

</div>

'''

html = re.sub('<a.*?>|</a>','',html)

print(html)

results = re.findall('<li.*?>(.*?)</li>',html,re.S)

print(results)

for result in results:

    print(result.strip())

re.compile

将正则字符串编译成正则表达式对象：

　　将一个正则表达式串编译成正则对象，以便于复用该匹配模式

import re

content = '''Hello 1234567 World_Tis

is a Regex Demo

'''

# 第一种

pattern = re.compile('Hello.*Demo',re.S)

result = re.match(pattern,content)

print(result)

#第二种

result = re.match('Hello.*Demo',content,re.S)

print(result)

练习：爬去豆瓣图书的图书信息

import requests

import re

content = requests.get('https://book.douban.com').text

pattern = re.compile('<li.*?"cover".*?href="(.*?)".*?title="(.*?)".*?more-meta">.*?"author">(.*?)</span>.*?"year">(.*?)</span>.*?"publisher">(.*?)</span>.*?</li>',re.S)

print(pattern)

results = re.findall(pattern,content)

print(results)

for ret in results:

url,title,author,date,publisher = ret

author = re.sub('\s','',author)

date=re.sub('\s','',date)

publisher=re.sub('\s','',publisher)

print(url,title,author,date,publisher)

python爬虫知识点总结（五）正则表达式的更多相关文章

python爬虫主要就是五个模块：爬虫启动入口模块，URL管理器存放已经爬虫的URL和待爬虫URL列表，html下载器，html解析器，html输出器同时可以掌握到urllib2的使用、bs4（BeautifulSoup）页面解析器、re正则表达式、urlparse、python基础知识回顾（set集合操作）等相关内容。
本次python爬虫百步百科,里面详细分析了爬虫的步骤,对每一步代码都有详细的注释说明,可通过本案例掌握python爬虫的特点: 1.爬虫调度入口(crawler_main.py) # coding: ...
python爬虫知识点详解
python爬虫知识点总结(一)库的安装 python爬虫知识点总结(二)爬虫的基本原理 python爬虫知识点总结(三)urllib库详解 python爬虫知识点总结(四)Requests库的基本使 ...
Python爬虫入门七之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式正则表达式是对字符串操作的 ...
转 Python爬虫入门七之正则表达式
静觅 » Python爬虫入门七之正则表达式 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串 ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
Python爬虫教程——入门五之URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理. 1.URLError 首先解释下URLError可能产生的原因: 网络无连接,即本机无法上网连接不到特定的 ...
Python爬虫（二）正则表达式
一.介绍 1.概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个"规则字符串",这个"规则字符串"用来 ...
Python爬虫系列：五、正则表达式
1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. 正则表达式 ...
python爬虫知识点总结（九）Requests+正则表达式爬取猫眼电影
一.爬取流程二.代码演示 #-*- coding: UTF-8 -*- #_author:AlexCthon #mail:alexcthon@163.com #date:2018/8/3 impor ...

随机推荐

A008-drawable资源
关于drawable资源笔者之前有写过两篇文章: Android-自己定义图像资源的使用(1) Android-自己定义图像资源的使用(2) 这里笔者就不做过多的赘述.我们从实际开发的角度去理解这个知 ...
Windows 10正式版历代记：Version 1709、Build 16299都是什么鬼？
Windows 10免费用!创意者更新秋季版激活秘籍 2017年10月中下旬,微软面向正式版用户推送了Windows 10创意者更新秋季版.这是自发布以来,Windows 10的第五个大版本. 在这篇 ...
Docker入门系列2 安装
可以从 Docker 社区直接下载可用的模版或镜像. Docker容器的启动可以在秒级实现,这相比传统的虚拟机方式要快得多. 其次,Docker对系统资源的利用率很高,一台主机上可以同时运行数千个Do ...
CentOS Python 安装MySQL-python
一.安装mysql yum list | grep mysql >>yum install -y mysql-server mysql mysql-devel CentOS 7的yum源中 ...
ASP.NET MVC 4 技术讲解
ASP.NET MVC 相关的社群与讨论区 Routing 与 ASP.NET MVC 生命周期 Model相关技术 Controller相关技术 View数据呈现相关技术 Area区域相关技术 AS ...
lnmp建站常识
1.nginx配置网站目录并修改访问的端口:nginx.conf文件 listen 666;//端口默认为80,修改后增强安全性 server_name www.lnmp.org; index ind ...
c# 备份数据
#region 备份数据文件 /// <summary> /// 备份数据文件 /// </summary> /// <param name="strFileN ...
android菜鸟学习笔记5----第一个android程序
程序功能:点击一个按钮,然后弹出一个提示信息 Step 1:在eclipse中新建一个android application project,在创建过程中不勾选create activity,这样就创 ...
lasso the moon
高德地图API开发二三事（一）如何判断点是否在折线上及引申思考
最近使用高德地图 JavaScript API 开发地图应用,提炼了不少心得,故写点博文,做个系列总结一下,希望能帮助到LBS开发同胞们. 项目客户端使用高德地图 JavaScript API,主要业 ...

python爬虫知识点总结（五）正则表达式

最常规的匹配

泛匹配

匹配目标

贪婪匹配

非贪婪匹配

匹配模式

转义

总结：尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行符就用re.S

re.search

匹配练习

re.findall

re.sub

re.compile

python爬虫知识点总结（五）正则表达式的更多相关文章

随机推荐

热门专题

　　最常规的匹配

　　泛匹配

　　匹配目标

　　贪婪匹配

　　非贪婪匹配

　　匹配模式

　　转义

　　总结：尽量使用泛匹配、使用括号得到匹配目标、尽量使用非贪婪模式、有换行符就用re.S　　

　　re.search