python19day
内容回顾
软件开发规范
预计
递归函数1天
re模块2天
logging模块+包的导入+带参数的装饰器1-2天
面向对象6天
网络编程4天
并发编程5-6天
数据库5天
今日内容
模块和实际工作之间的关系
- time模块和时间是什么关系?
- 时间本身和time模块无关,有了time就可以在python中操作时间相关的问题了。
- re模块和正则表达式的关系
- 有了re模块就可以在python语言操作使用正则表达式了
- time模块和时间是什么关系?
正则表达式******
什么是正则表达式:一套匹配字符串的规则
能做什么:
- 检测一个输入的字符串是否合法
- 用户输入一个内容的时候,我们要提前做检测
- 能够提高程序的效率并且减轻服务器的压力
- 从一个大文件中找到所有符合规则的内容
- 能够高效的从一大段文字中快速找到符合规则的内容
- 检测一个输入的字符串是否合法
正则规则
- 所有的规则中的字符就可以刚好匹配到字符串中的内容
字符组[]
- 一个字符组(中括号)只表示一个字符位置
- [abc]会匹配a或b或c
- [0-9]、[A-Z]、[a-z]、[a-zA-Z]大小写、
- [0-9a-zA-Z_]数字字母下划线
元字符
- 在正则表达式中能过帮我们匹配的内容符号
- 字符组[]
- \d=[0-9] 匹配任意一位数字
- \w=[0-9a-zA-Z_] 匹配数字字母下划线
- \s=(''|\t|\n) 匹配所有空白(空格、tab、enter)
- \W 表示非字母数字下划线
- \D 表示非数字
- \S 表示非空白
- . 表示匹配除了换行符之外的所有,前加\会取消意义。
- [^c] 表示没c的段
- ^匹配一个字符串的开始
- $匹配一个字符串的结尾
- A|B 匹配A或B表达式中的内容,如果A成功了,就不匹配B了,所以两个规则有重叠,把长的放在前面
- ()约束(|)或描述的范围
- www.(baidu|google|taobao).com
- \b匹配边界的字符
记忆元字符
- \d \w \s \t \n \D \W \S
- [] [^]
- ^ $
- | ( )
量词(元字符后加量词的格式,约束次数)
- {n} 表示匹配n次,
- {n,}表示匹配至少n次
- {n,m}表示至少匹配n次,至多匹配m次
- ?表示匹配1次或0次
- +表示匹配1次或多次
- *表示匹配0次或多次
整数:
\d+小数:
\d+\.\d+整数或小数:
\d+(\.\d+)?手机号码:1 3-9 11位
^1[3-9]\d{9}$贪婪匹配:
\d{3,}6会在量词允许的范围尽量多匹配回溯算法
.*?x表示匹配任意字符任意次数,但一旦遇到x就停
惰性匹配:
\d{3,}?6会在量词允许的范围尽量少匹配- 加一个问号
- ??时,前面代表0或1次,后面代表惰性,所以匹配0次
.*?x表示匹配任意字符任意次数,但一旦遇到x就停
转义符\
- 有特殊意义的字符有时需要转义
(?:)不显示括号内容
ret=re.findall('1(?:\d)(\d)','123') #'3'
re模块--regex正则表达式
import re
ret=re.findall('\d','1231294u921jds')
print(ret) #['1', '2', '3', '1', '2', '9', '4', '9', '2', '1']
ret2=re.search('\d+','123928482y87')
print(ret2) #<_sre.SRE_Match object; span=(0, 9), match='123928482'>
if ret2:
print(ret2.group()) #123928482
findall 总是只显示括号里匹配到的内容
- 还是按照完整的正则匹配
- re.findall('9(\d)u','1231294u921jds') #['4']
- 加括号是为了对真正需要的内容进行提取
search
- 还是按完整的正则进行匹配,显示也显示匹配内容
- 得到的结果是一个变量
- 变量.group()的结果 完全和 变量.group(0)结果一样
- 变量.group(n)的形式来获取第n个分组中匹配的内容
- search不需要加括号分组,因为可以向group()中传参实现。
小爬虫例子
#简单爬虫
import re
with open('douban.html',encoding='utf-8')as f:
content=f.read()
ret=re.findall('<span class="title">(.*?)</span>(?:\s*<span class="title">.*?</span>)?',content)
print(ret)
今日总结
正则
- 字符组元字符
- 量词
- 贪婪匹配、惰性匹配
- 转义符
re模块
- 如果要查找的内容在一个复杂的环境中
- 我们要查找的内容没有一个突出的特点,甚至会和不需要的杂乱的数据混合在一起。
什么是爬虫
通过代码获取到一个网页的源码
要的是源码中嵌着的网页上的内容
#从网页获取源码
import requests
ret=requests.get('https://movie.douban.com/top250?start=0&filter=')
print(ret.content.decode('utf-8'))
分组和findall现象
- 为什么要分组?
- 把想要的内容放分组里
如何取消分组优先
- 如果在写正则的时候由于不得已的原因,导致不要的内容也得写在分组里
- (? 取消这个分组的优先显示
代码总行数2288+37=2325行
python19day的更多相关文章
随机推荐
- 【剑指Offer】二叉搜索树的后序遍历序列 解题报告(Python)
[剑指Offer]二叉搜索树的后序遍历序列 解题报告(Python) 标签(空格分隔): 剑指Offer 题目地址:https://www.nowcoder.com/ta/coding-intervi ...
- Java不可变类与final类
概念 Java的不可变类是指八个基础类型的包装类和String,他们的数据成员是不可变的.使用加法等操作时,其实是创建了一个新的对象. Java的final类是对类用关键字final进行修饰,说明该类 ...
- 第二十三个知识点:写一个实现蒙哥马利算法的C程序
第二十三个知识点:写一个实现蒙哥马利算法的C程序 这次博客我将通过对蒙哥马利算法的一个实际的实现,来补充我们上周蒙哥马利算法的理论方面.这个用C语言实现的蒙哥马利算法,是为一个位数为64的计算机编写的 ...
- uniapp中拿到base64转blob对象,或base64转bytes字节数组,io操作写入字节流文件bytes
1. uniAPP中拿到附件的base64如何操作,如word文件 /*** 实现思路:* 通过native.js的io操作创建文件,拿到平台绝对路径* 再通过原生类进行base64解码,拿到字节流b ...
- vue为什么要设计成异步队列渲染
异步队列渲染 上一篇文章是在vue2.0 中通过Object.defineProperty去拦截并监听数据变化的响应式原理,这篇文章将会沿着图谱继续深入探索,在依赖被通知变化了之后,会触发vue当中的 ...
- 网络划分和各层协议以及webservice 浅谈
最近在公司做一些和其他外部系统接口调用的工作,遇到一些网络传输的问题,趁周末的时间记录.整理一下. 提到网络我们不得不提网络的分层架构: 我们通常听到 网络七层架构/五层架构/四层架构,但是不了解很容 ...
- # 【jvm】01-双亲委派都会说,破坏双亲委派你会吗
[jvm]01-双亲委派都会说,破坏双亲委派你会吗 欢迎关注b站账号/公众号[六边形战士夏宁],一个要把各项指标拉满的男人.该文章已在github目录收录. 屏幕前的大帅比和大漂亮如果有帮助到你的话请 ...
- MySQL数据操作与查询笔记 • 【第3章 DDL 和 DML】
全部章节 >>>> 本章目录 3.1 使用 DDL 定义数据库表结构 3.1.1 SQL 简介 3.1.2 维护数据库和创建数据表 3.2 使用 DDL 维护数据库表结构 ...
- Linux操作系统RedHat6.5安装
1.说明 安装Linux操作系统Red Hat 6.5, 安装镜像为rhel-server-6.5-x86_64-dvd.iso. 2.开始安装 在BIOS里设置成从光驱启动, 服务器上电后会加载光驱 ...
- svn钩子脚本
使用钩子脚本的意义: 我们在测试环境中搭建好svn后,开发人员可以正常的上传和下载写好的代码了.但是上传到测试服务器,在版本库中(tshop)是看不到这些数据的.所以在测试环境中(linux测试服 ...