python_正则_re模块

正则表达式元字符：

字符匹配：

.       ：除换行符以外的任意单个字符

[]      ：指定范围内字符

[^]     ：指定范围外字符

次数匹配：

*       ：任意次，0，1，多次

.*      ：任意字符 任意次

?       ：至多1次或0次

+       ：至少出现1次或多次

{m}     ：其前面字符出现m次

{m,n}   ：其前面字符出现至少m次，至多n次

{m,}    ：其前面字符出现至少m次

{,n}    ：其前面字符出现至多n次

位置锚定：

^       ：匹配字符串的开头

$       ：匹配字符串的末尾

分组及引用：

()      ：分组，括号内模式会被记录于正则表达式引擎

后向引用 ：\1  \2  \3.....

或：

a|b     ：a或者b

C|cat   ：C或cat

(C|c)at ：Cat或cat

转义字符：

\w      ：匹配字母数字

\W      ：匹配非字母数字

\s      ：匹配任意空白字符，等价于 [\t\n\r\f].

\S      ：匹配任意非空字符

\d      ：匹配任意数字，等价于 [0-9].

\D      ：匹配任意非数字

\A      ：匹配字符串开始

\Z      ：匹配字符串结束，如果是存在换行，只匹配到换行前的结束字符串

\z      ：匹配字符串结束

\G      ：匹配最后匹配完成的位置。

\b      ：匹配一个单词边界，也就是指单词和空格间的位置。例如， 'er\b' 可以匹配"never" 中的 'er'，但不能匹配 "verb" 中的 'er'。

\B      ：匹配非单词边界。'er\B' 能匹配 "verb" 中的 'er'，但不能匹配 "never" 中的 'er'。

\n      ：匹配一个换行符

\t      ：匹配一个制表符

\1...\9 ：匹配第n个分组的子表达式

小练习:

判断手机号码是否合法

根据手机号码一共11位并且是只以13、14、15、17、18开头的数字：

import re

phone_number = input('please input your phone number ： ')

if re.match('^(13|14|15|17|18)[0-9]{9}$',phone_number):

        print('是合法的手机号码')

else:

        print('不是合法的手机号码')

匹配标签

import re

ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")

#还可以在分组中利用?<name>的形式给分组起名字

#获取的匹配结果可以直接用group('名字')拿到对应的值

print(ret.group('tag_name'))  #结果 ：h1

print(ret.group())  #结果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")

#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致

#获取的匹配结果可以直接用group(序号)拿到对应的值

print(ret.group(1))

print(ret.group())  #结果 ：<h1>hello</h1>

爬虫练习

import requests

import re

import json

def getPage(url):

    response=requests.get(url)

    return response.text

def parsePage(s):

    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'

                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',re.S)

    ret=com.finditer(s)

    for i in ret:

        yield {

            "id":i.group("id"),

            "title":i.group("title"),

            "rating_num":i.group("rating_num"),

            "comment_num":i.group("comment_num"),

        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num

    response_html=getPage(url)

    ret=parsePage(response_html)

    print(ret)

    f=open("move_info7","a",encoding="utf8")

    for obj in ret:

        print(obj)

        data=json.dumps(obj,ensure_ascii=False)

        f.write(data+"\n")

if __name__ == '__main__':

    count=0

    for i in range(10):

        main(count)

        count+=25

豆瓣爬电影

import re

import json

from urllib.request import urlopen

def getPage(url):

    response = urlopen(url)

    return response.read().decode('utf-8')

def parsePage(s):

    com = re.compile(

        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'

        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)

    for i in ret:

        yield {

            "id": i.group("id"),

            "title": i.group("title"),

            "rating_num": i.group("rating_num"),

            "comment_num": i.group("comment_num"),

        }

def main(num):

    url = 'https://movie.douban.com/top250?start=%s&filter=' % num

    response_html = getPage(url)

    ret = parsePage(response_html)

    print(ret)

    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:

        print(obj)

        data = str(obj)

        f.write(data + "\n")

count = 0

for i in range(10):

    main(count)

    count += 25

简化版

python_正则_re模块的更多相关文章

Python模块(三)(正则,re,模块与包)
1. 正则表达式匹配字符串元字符 . 除了换行 \w 数字, 字母, 下划线 \d 数字 \s 空白符 \n 换行符 \t 制表符 \b 单词的边界 \W \D \S 非xxx [ ...
日志(logging)与正则(re)模块
logging模块 #日志:日常的流水 =>日志文件,将程序运行过程中的状态或数据进行记录,一般都是记录到日志文件中 #1.logging模块一共分为五个打印级别 debug.info.warn ...
python正则--re模块常用方法
前面几篇关于正则匹配的文章我用的方法都只有一个re.search 但其实正则re模块提供很多非常好用的方法,我们先来看看re模块都有那些属性方法呢前面的一堆带_或者大写的就不关注了,主要关注最后面的 ...
Python 正则处理_re模块
正则表达式动机文本处理成为计算机常见工作之一对文本内容搜索,定位,提取是逻辑比较复杂的工作为了快速方便的解决上述问题,产生了正则表达式技术定义文本的高级匹配模式, 提供搜索, 替换, 本质 ...
正则 re模块
Python 正则表达式 re 模块简介正则表达式(regular expression)是可以匹配文本片段的模式.最简单的正则表达式就是普通字符串,可以匹配其自身.比如,正则表达式 ‘hello ...
python模块_re模块
正则表达式笔记'''#re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none.#re.search 扫描整个字符串并返回第一个成功的匹配#fi ...
python的正则re模块
一. python的正则 python的正则模块re,是其内置模块,可以直接导入,即import re.python的正则和其他应用的正则及其相似,有其他基础的话,学起来还是比较简单的. 二. 正则前 ...
python正则re模块
今日内容: 知识点一:正则什么是正则: 就是用一系列具有特殊含义的字符组成一套规则,改规则用来描述具有某一特征的字符串正则就是用来在一个大的字符串中取出符合规则的小字符串为什么用正则: ...
python 正则 re模块(详细版)
正则表达式什么是正则表达式? 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合 ...

随机推荐

UVA1328 Period【KMP/周期串/循环节】By cellur925
鲜有的在luogu发题解以及使用LaTex??? 就丢链接跑了.
安装elasticsearch-rtf出错
出错信息: elasticsearch-rtf Caused by: java.lang.IllegalStateException: No match found 解决方法: 参考:https: ...
Mantis优化改造（技术篇）
为什么要写这篇? 既然都过去这么久了,都回忆不起来了,为什么还要整理出来这篇文章呢? 这还要追溯到2018年3月份. 当时换工作,面试了国内某知名电视厂商. 简历上面写了我优化改造了bug管理系统ma ...
Java | 基础归纳 | Gson && Json
JSON: JSON就是一种数据的组织形式,用于数据传输. 地址:https://mvnrepository.com/artifact/net.sf.json-lib/json-lib/2.4 Mav ...
线段树+扫描线 HDOJ 5091 Beam Cannon（大炮）
题目链接题意: 给出若干个点的坐标,用一个W*H的矩形去覆盖,问最多能覆盖几个点. 思路: 这是2014上海全国邀请赛的题目,以前写过,重新学习扫描线.首先把所有点移到第一象限([0, 40000] ...
对protected修饰符的范围用代码说明(同时说明用protected修饰的属性，在继承时，一定程度上破坏了封装)
目录结构: 本类: 本包: 子孙类: 其他包:
Java 修改编码格式的几种方式
1.工作空间 workspase Window→Preferences→General→Workspace→Text file encoding→other→UTF-8 2.项目编码格式右键项目名→ ...
HTML form label
在表单布局中会遇到label标签的使用,label没有任何样式效果,有触发对应表单控件功能.比如我们点击单选按钮或多选框前文字对应选项就能被选中,这个就是对文字加了<label>标签实现. ...
OkHttp下载文件中途断网报Can't create handler inside thread that has not called Looper.prepare()异常的解决办法
最近做项目时出现个问题. 在一个基类中,创建一个Handler对象用于主线程向子线程发送数据,代码如下: this.mThirdHandler = new Handler(){ @Override p ...
freertos之特点
主要特点:协程(co-routine):任务间的中断通信机制支持可抢占式/协作式任务调度 .FreeRTOS-MPU 内核对象可以动态或静态分配 ...

python_正则_re模块

正则表达式元字符：

字符匹配 ：

次数匹配：

位置锚定：

分组及引用：

或：

转义字符：

小练习:

判断手机号码是否合法

匹配标签

爬虫练习

python_正则_re模块的更多相关文章

随机推荐

热门专题

字符匹配：