1.正则表达式,匹配字符串
正则表达式是对字符串操作的一种逻辑公式.我们一般使用正则表达式对字符串镜子那个匹配和过滤,使用正则的优缺点:
优点: 灵活,功能性强,逻辑性强
缺点: 上手难.一旦上手,会爱上这个东西
工具:各大文本编辑器一般都有增则匹配功能.我们也可以去http://tool.chinaz.com/regex/进行在线测试
元字符:
.    匹配除换行符以外的任意字符
\w  匹配字母数字或下划线
\s   匹配任意的空白符
\d  匹配数字
\n  匹配一个换行符
\t   匹配一个制表符
\b  匹配一个单词的结尾
^  匹配字符串的开始
$   匹配字符串的结尾
\W 匹配非字母或数字或下划线
\D  匹配非数字
\S  匹配非空白符
a|b  匹配字符a或字符b
( )   匹配括号内的表达式,也表示一个组
[...]  匹配字符组的字符
[^...]  匹配除字符组中字符的所有字符
量词:
*重复零次或更多次
+  重复一次或更多次
?  重复零次或一次
{n} 重复n次
{n, } 重复n次或更多次
{n,m}  重复n到m次
贪婪匹配和惰性匹配
    贪婪匹配: .*   .+
    惰性匹配: .*?  尽可能少的匹配
转义:
    \\\\n => \\n => \n
 在前面添加r,原样输出
分组:   使用()
在python中使用正则.re
    <?P<name>正则>
    re模块是python提供的一套关于处理正则表达式的模块,核心功能有四个:
findall()  查找所有,返回list
finditer() 查找返回,返回的是迭代器,
search()   搜索. 搜索到第一个结果返回
match()   匹配. 收到一个结果返回,从头开始匹配
compile( )  编译
group('name')  获取数据
re.S  干掉 . 的换行
# re的工作是在python中执行正则表达式
import re
 
# find
result = re.findall("\d+", "baby的电话号是: 185123456789")
print(result)     #['185123456789']
 
it = re.finditer("\d+", "baby123456789的电话号是: 185123456789")
for el in it:
    print(el.group()) # 分组   #123456789
                              #185123456789
 
 
search 搜索, 查找
一旦匹配到结果. 直接返回, 如果匹配不到结果. 返回None
result = re.search("\d", "宝宝的电话是111")
print(result)       #<_sre.SRE_Match object; span=(6, 7), match='1'>
print(result.group())     #1
 
匹配, 从头开始匹配. 相当于在你正则前面加了一个^
result = re.match("\d+", "157宝宝的电话是:")
print(result.group())    ###157
 
search和match的区别:  search查找. 找到了结果就返回. match. 从头开始匹配.
 
# 坑: 爬虫的一个重点
# .*?
result = re.finditer(r"姓名:(?P<name>.*?), 爱好:(?P<hobby>.*?),", "姓名:宝宝, 爱好:女,")
for el in result:
    print(el.group("name"), el.group("hobby"))
 
 
# 正则的常用操作
result = re.split("\d+", "宝宝110来找你了. 你回头收拾收拾去119报道")
print(result)
 
用正则替换
s = re.sub("\d+", "__sb__", "宝宝110来找你了. 你回头收拾收拾去119报道")
print(s)
 
s = re.subn("\d+", "__sb__", "宝宝110来找你了. 你回头收拾收拾去119报道") # 替换了xxx次
print(s)
 
code = "for i in range(10): print(i)"
 
c = compile(code, "", "exec") # 编译
 
exec(c) # 快速执行
 
reg = re.compile(r"\d+") # 编译了一段正则. 加载了一段正则
lst = reg.findall("呵呵, 宝宝才不去110呢.他要去120了")
print(lst)
 
re.findall(r"\d+", "呵呵, 宝宝才不去110呢.他要去120了")
 
lst = re.findall(r"a(?:\d+)c", "a123456c") # 把括号python中的分组变成了原来正则表达式中的分组
print(lst)
爬取电影天堂
# 爬取电影天堂
from urllib.request import urlopen
 
content = urlopen("https://www.dytt8.net/html/gndy/dyzz/20181219/57954.html").read().decode("gbk")
# print(content)
 
reg = r'<div id="Zoom">.*?片  名(?P<name>.*?)<br />◎年  代(?P<years>.*?)<br />.*?◎上映日期(?P<date>.*?)<br />'+ \
'.*?◎主  演(?P<main>.*?)◎简  介.*?<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<download>.*?)">'
 
it = re.finditer(reg, content, re.S) # re.S 去掉.里面的\n
 
for el in it:
    print(el.group("name"))
    print(el.group("years"))
    print(el.group("date"))
    print(el.group("main").replace("<br />      ", ", "))
    print(el.group("download"))
 

day 24 内置模块re的更多相关文章

  1. Python基础篇【第5篇】: Python内置模块(二)

    内置模块 1. OS os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname") 改变当前脚本工作目录:相当于shell ...

  2. python基础知识9——模块2——常见内置模块

    内置模块 内置模块是Python自带的功能,在使用内置模块相应的功能时,需要[先导入]再[使用] 1.sys 用于提供对Python解释器相关的操作: sys.argv 命令行参数List,第一个元素 ...

  3. python(八)内置模块logging/os/time/sys/json/pickle

    模块 在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护.为了编写可维护的代码,我们把很多函数分组,分别放到不同的文件里,这样,每个文件包含的代码就相对较少 ...

  4. python内置模块(4)

    这一部分是python内置模块系列的最后一部分,介绍了一些小巧有用的内置模块. 目录: 1.random 2.shelve 3.getpass 4.zipfile 5.tarfile 6.bisect ...

  5. python内置模块(1)

    Python的模块在其它语言中通常称为库或类库,也就是lib.它是编程语言的第三级封装,第四级则是包,也就是模块的打包组合,而前两级分别是函数和类.封装的好处,自然不用多言,高内聚,松耦合,减少代码重 ...

  6. python成长之路第三篇(4)_作用域,递归,模块,内置模块(os,ConfigParser,hashlib),with文件操作

    打个广告欢迎加入linux,python资源分享群群号:478616847 目录: 1.作用域 2.递归 3.模块介绍 4.内置模块-OS 5.内置模块-ConfigParser 6.内置模块-has ...

  7. Python爬虫与数据分析之模块:内置模块、开源模块、自定义模块

    专栏目录: Python爬虫与数据分析之python教学视频.python源码分享,python Python爬虫与数据分析之基础教程:Python的语法.字典.元组.列表 Python爬虫与数据分析 ...

  8. Nginx内置模块简介

    经常编译Nginx的时候看到./configure后面跟着很多--with命令,虽然知道是添加模块,但一直也没有仔细去研究这些模块究竟是什么作用.本文会对常用的内置模块做个简单介绍,方便后续检索查看. ...

  9. python全栈开发 * 24 知识点汇总 * 180705

    24 模块-------序列化一.什么是模块 模块:py文件就是一个模块.二.模块的分类:(1)内置模块 (登录模块,时间模块,sys模块,os模块)(2)扩展模块 (itchat 微信有关,爬虫,b ...

随机推荐

  1. 在IDEA中设置方法自动注释(带参数和返回值)

    第一部分 设置 打开设置面板 新建 在线模板 新建自动添加规则,注意 这里触发的字符 不能随便写 必须为 * Template text 区域 看上去有点乱,但是是为了显示时的对齐,该区域的内容如下( ...

  2. Linux->Ubuntu下配置telnet环境

    1.首先查看telnet运行状态 netstat -a | grep telnet 输出为空,表示没有开启该服务 2.安装openbsd-inetd apt-get install openbsd-i ...

  3. Tomcat启动阻塞变慢

    Tomcat 熵池阻塞变慢详解 Tomcat 启动很慢,且日志上无任何错误,在日志中查看到如下信息: Log4j:[2015-10-29 15:47:11] INFO ReadProperty:172 ...

  4. DevExpress之ChartControl用法

    DevExpress中的ChartControl顾名思义就是数据基于图表展示,其关键在于Series上的处理. using System; using System.Drawing; using De ...

  5. ABAP SICF服务和Java Servlet的比较

    In my opinion ABAP ICF handler and Java Servlet play the same role in enhancement which enables your ...

  6. SpringMVC 如何定义类型转换器

    举例说明, 将一个字符串转换成的 User 类型. 例如将字符串 1-zcd-1234-zcd@163.com-1999/12/12  转换成User 类型. 一.实体类 public class U ...

  7. 洛谷 P4321 【随机漫游】

    题目大意 给出\(n(n\leq 18)\)个点的无向连通图,\(m(m\leq 10^5)\)次询问.每次询问给出一个点集和一个起点\(s\),询问从\(s\)出发,经过这个点集中的每一个点至少一次 ...

  8. shiro之cache问题

    错误原因分析加解决方案,以供大家参考: 1.错误信息:net.sf.ehcache.ObjectExistsException: Cache shiro-activeSessionCache alre ...

  9. HDU 1249 三角形(三角形分割平面)

    传送门: http://acm.hdu.edu.cn/showproblem.php?pid=1249 三角形 Time Limit: 2000/1000 MS (Java/Others)    Me ...

  10. js的匿名函数与自定义函数

    //匿名方法,会执行,自己调用自己 (function () { console.log(window.innerHeight); })(); (function () { console.log(w ...