内容回顾

软件开发规范

预计

递归函数1天

re模块2天

logging模块+包的导入+带参数的装饰器1-2天

面向对象6天

网络编程4天

并发编程5-6天

数据库5天

今日内容

  1. 模块和实际工作之间的关系

    • time模块和时间是什么关系?

      • 时间本身和time模块无关,有了time就可以在python中操作时间相关的问题了。
    • re模块和正则表达式的关系
      • 有了re模块就可以在python语言操作使用正则表达式了
  2. 正则表达式******

    • 什么是正则表达式:一套匹配字符串的规则

    • 能做什么:

      • 检测一个输入的字符串是否合法

        • 用户输入一个内容的时候,我们要提前做检测
        • 能够提高程序的效率并且减轻服务器的压力
      • 从一个大文件中找到所有符合规则的内容
        • 能够高效的从一大段文字中快速找到符合规则的内容
    • 正则规则

      • 所有的规则中的字符就可以刚好匹配到字符串中的内容
    • 字符组[]

      • 一个字符组(中括号)只表示一个字符位置
      • [abc]会匹配a或b或c
      • [0-9]、[A-Z]、[a-z]、[a-zA-Z]大小写、
      • [0-9a-zA-Z_]数字字母下划线
    • 元字符

      • 在正则表达式中能过帮我们匹配的内容符号
      • 字符组[]
      • \d=[0-9] 匹配任意一位数字
      • \w=[0-9a-zA-Z_] 匹配数字字母下划线
      • \s=(''|\t|\n) 匹配所有空白(空格、tab、enter)
      • \W 表示非字母数字下划线
      • \D 表示非数字
      • \S 表示非空白
      • . 表示匹配除了换行符之外的所有,前加\会取消意义。
      • [^c] 表示没c的段
      • ^匹配一个字符串的开始
      • $匹配一个字符串的结尾
      • A|B 匹配A或B表达式中的内容,如果A成功了,就不匹配B了,所以两个规则有重叠,把长的放在前面
      • ()约束(|)或描述的范围
        • www.(baidu|google|taobao).com
      • \b匹配边界的字符
    • 记忆元字符

      • \d \w \s \t \n \D \W \S
      • [] [^]
      • ^ $
      • | ( )
    • 量词(元字符后加量词的格式,约束次数)

      • {n} 表示匹配n次,
      • {n,}表示匹配至少n次
      • {n,m}表示至少匹配n次,至多匹配m次
      • ?表示匹配1次或0次
      • +表示匹配1次或多次
      • *表示匹配0次或多次
    • 整数:\d+

    • 小数:\d+\.\d+

    • 整数或小数:\d+(\.\d+)?

    • 手机号码:1 3-9 11位^1[3-9]\d{9}$

    • 贪婪匹配:\d{3,}6会在量词允许的范围尽量多匹配

      • 回溯算法

        .*?x表示匹配任意字符任意次数,但一旦遇到x就停

    • 惰性匹配:\d{3,}?6会在量词允许的范围尽量少匹配

      • 加一个问号
      • ??时,前面代表0或1次,后面代表惰性,所以匹配0次
      • .*?x表示匹配任意字符任意次数,但一旦遇到x就停
    • 转义符\

      • 有特殊意义的字符有时需要转义
    • (?:)不显示括号内容

      • ret=re.findall('1(?:\d)(\d)','123') #'3'
  3. re模块--regex正则表达式

    import re
    ret=re.findall('\d','1231294u921jds')
    print(ret) #['1', '2', '3', '1', '2', '9', '4', '9', '2', '1']
    ret2=re.search('\d+','123928482y87')
    print(ret2) #<_sre.SRE_Match object; span=(0, 9), match='123928482'>
    if ret2:
    print(ret2.group()) #123928482
    • findall 总是只显示括号里匹配到的内容

      • 还是按照完整的正则匹配
      • re.findall('9(\d)u','1231294u921jds') #['4']
      • 加括号是为了对真正需要的内容进行提取
    • search

      • 还是按完整的正则进行匹配,显示也显示匹配内容
      • 得到的结果是一个变量
        • 变量.group()的结果 完全和 变量.group(0)结果一样
        • 变量.group(n)的形式来获取第n个分组中匹配的内容
      • search不需要加括号分组,因为可以向group()中传参实现。
    • 小爬虫例子

      • https://movie.douban.com/top250?start=0&filter=

      • #简单爬虫
        import re
        with open('douban.html',encoding='utf-8')as f:
        content=f.read()
        ret=re.findall('<span class="title">(.*?)</span>(?:\s*<span class="title">.*?</span>)?',content)
        print(ret)

今日总结

正则

  • 字符组元字符
  • 量词
  • 贪婪匹配、惰性匹配
  • 转义符

re模块

  • 如果要查找的内容在一个复杂的环境中

    • 我们要查找的内容没有一个突出的特点,甚至会和不需要的杂乱的数据混合在一起。

什么是爬虫

  • 通过代码获取到一个网页的源码

  • 要的是源码中嵌着的网页上的内容

  • #从网页获取源码
    import requests
    ret=requests.get('https://movie.douban.com/top250?start=0&filter=')
    print(ret.content.decode('utf-8'))

分组和findall现象

  • 为什么要分组?

    • 把想要的内容放分组里

如何取消分组优先

  • 如果在写正则的时候由于不得已的原因,导致不要的内容也得写在分组里
  • (? 取消这个分组的优先显示

代码总行数2288+37=2325行

python19day的更多相关文章

随机推荐

  1. 【剑指Offer】二叉树中和为某一值的路径 解题报告(Python)

    [剑指Offer]二叉树中和为某一值的路径 解题报告(Python) 标签(空格分隔): 剑指Offer 题目地址:https://www.nowcoder.com/ta/coding-intervi ...

  2. C++单元测试框架gtest使用

    作用 作为代码编码人员,写完代码,不仅要保证编译通过和运行,还要保证逻辑尽量正确.单元测试是对软件可测试最小单元的检查和校验.单元测试与其他测试不同,单元测试可看作是编码工作的一部分,应该由程序员完成 ...

  3. golang切片的一些自问自答

    你好,我是轩脉刃.这篇是关于go切片的一些问题和回答. go的切片基本上是代码中使用最多的一种数据结构了,使用这种数据结构有哪些要注意的点,这个是非常必要了解的东西.基本上,以前写的一篇博客 http ...

  4. Chapter 2 Randomized Experiments

    目录 概 2.1 Randomization 2.2 Conditional randomization 2.3 Standardization 2.4 Inverse probability wei ...

  5. 求最大公因数和最小公倍数(C++实现)

    求两个正整数之最大公因子的算法(辗转相除法) 最大公约数是指能同时整除它们的最大正整数 基本原理:两个数的最大公约数等于它们中较小的数和两数之差的最大公约数. 就如有 a = 122, b =  54 ...

  6. c++定时器执行任务

    // // Created by leoxae on 19-9-2. // #ifndef KEEKOAIROBOT_TIMERTASKHELPER_H #define KEEKOAIROBOT_TI ...

  7. Python两处容易理解错误的设计

    函数内部修改可变类型的变量时不会视作局部变量(除非函数内有该变量的赋值运算符),因为如果做局部变量处理则修改语句势必报错,此处的理解不会有歧义: s = 'test' d = {True:1,2:'S ...

  8. Fiddler Everywhere简单使用

    重装了电脑,想装Fiddler,结果官网下载的包变成了Fiddler Everywhere,体验了下,与老版本相比,操作流程上并无太大变化,但是安装包明显变大了,而且需要登录才能操作,建议还是用老版本 ...

  9. [ vue ] Quasar封装q-dialog组件,在外层实现弹出框的开启和关闭

    场景描述: 见:https://www.cnblogs.com/remly/p/12981582.html 具体实现: <!-- 父组件 --> <template> < ...

  10. spring boot + mybatis + mybatis逆向工程 --- 心得

    1.前言 以前用惯了springMVC框架 ,以SSM 框架 来开发项目  ,现在因为需要,使用spring boot框架,那么mybatis该如何与spring boot结合呢? 结构区别不大,但是 ...