re模块常用函数

1. findall() 函数　

 find('正则表达式'，‘待匹配的字符串’)  #返回匹配到字符串，并存放在列表中

　　详解见：https://www.cnblogs.com/nbk-zyc/p/11113328.html

 import re

 ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')

 print(ret)  # ['oldboy']     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可

 ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')

 print(ret)  # ['www.oldboy.com']

练习 findall() 与分组

2. search() 函数

 import re

 ret = re.search('abc', 'this is abcABC').group()

 print(ret) #结果 : 'abc'

 # 函数会在字符串内按规则匹配,当找到第一个匹配结果时就结束查找，然后返回一个包含匹配信息的对象,该对象可以 通过   调用group()方法   得到匹配的字符串,

 # 如果没有匹配到字符串，则返回None

 obj = re.compile('\d{3}')  #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字

 ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串

 print(ret.group())  #结果 ： 123

3. match() 函数

 import re

 ret = re.match('this', 'this is abcABC').group()

 print(ret) #结果 : 'this'

 # 在字符串开始处 就按规则匹配，其它 与search()函数使用方法一样

4 finditer() 函数

 import re

 ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器

 print(ret)  # <callable_iterator object at 0x10195f940>

 print(next(ret).group())  #查看第一个结果  '3'

 print(next(ret).group())  #查看第二个结果  '4'

 print([i.group() for i in ret])  #查看剩余的匹配结果 ['7', '8', '4']

5 sub() 和 subn() 函数

 import re

 ret = re.sub('\d', 'H', 'eva3egon4yuan4', 1)#将数字替换成'H'，参数1表示只替换1个

 print(ret) #evaHegon4yuan4

 ret = re.subn('\d', 'H', 'eva3egon4yuan4')

 print(ret)

 #将数字替换成'H'，返回元组(替换的结果,替换了多少次),即('evaHegonHyuanH', 3)

6 split() 函数

 ret = re.split('[ab]', 'abcd')  # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割

 print(ret)  # ['', '', 'cd']

 ret=re.split("\d+","eva3egon4yuan")

 print(ret) #结果 ： ['eva', 'egon', 'yuan']

 ret=re.split("(\d+)","eva3egon4yuan")

 print(ret) #结果 ： ['eva', '3', 'egon', '4', 'yuan']

 #在匹配部分加上（）之后所切出的结果是不同的，

 #没有（）的没有保留所匹配的项，但是有（）的却能够保留了匹配的项，

 #这个在某些需要保留匹配部分的使用过程是非常重要的。

练习-split() 与分组

扩展练习

 ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")

 #还可以在分组中利用 ?P<name>的形式给分组起名字

 #获取的匹配结果可以直接用group('名字')拿到对应的值

 print(ret.group('tag_name'))  #结果 ：h1

 print(ret.group())  #结果 ：<h1>hello</h1>

 ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")

 #如果不给组起名字，也可以用  \序号   来找到对应的组，表示要找的内容和前面的组内容一致

 #获取的匹配结果可以直接用group(序号)拿到对应的值

 print(ret.group(1)) #结果 ：h1

 print(ret.group())  #结果 ：<h1>hello</h1>

匹配标签

 import re

 #匹配数字

 ret=re.findall(r"\d+","1-2*(60+(-40.35/5)-(-4*3))")

 print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']

 #匹配整数

 ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")

 print(ret) #['1', '-2', '60', '', '5', '-4', '3']

 ret.remove("")

 print(ret) #['1', '-2', '60', '5', '-4', '3']

 #匹配实数

 ret=re.findall(r"-?\d+\.\d*|-?\d+","1-2*(60+(-40.35/5)-(-4*3))")

 print(ret) #['1', '-2', '60', '-40.35', '5', '-4', '3']

匹配数字/整数/实数

 import re

 from urllib.request import urlopen

 def getPage(url):

     response = urlopen(url)

     return response.read().decode('utf-8')

 def parsePage(s):

     ret = re.findall(

         '<div class="item">.*?'

         '<div class="pic">.*?'

         '<em .*?>'

         '(?P<id>\d+).*?'

         '<span class="title">(?P<title>.*?)</span>.*?'

         '<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?'

         '<span>(?P<comment_num>.*?)评价</span>',s,re.S)

     return ret

 def main(num):

     url = 'https://movie.douban.com/top250?start=%s&filter=' % num    # %s标记每页的首条信息

     response_html = getPage(url)    #获取网页的全部内容

     ret = parsePage(response_html) #解析所需求的信息

     print(ret)

 count = 0

 for i in range(10):   # 10页

     main(count)

     count += 25        # 每页25条信息

爬取网页-简单版

 from urllib.request import urlopen

 import re

 import json

 def getPage(url):

     response = urlopen(url)

     return response.read().decode('utf-8')

 def parsePage(s):

     com = re.compile(

         '<div class="item">.*?'

         '<div class="pic">.*?'

         '<em .*?>'

         '(?P<id>\d+).*?'

         '<span class="title">(?P<title>.*?)</span>.*?'

         '<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?'

         '<span>(?P<comment_num>.*?)评价</span>', re.S)

     ret = com.finditer(s)   # finditer返回一个存放匹配结果的迭代器

     for i in ret:

         yield {

             "id": i.group("id"),

             "title": i.group("title"),

             "rating_num": i.group("rating_num"),

             "comment_num": i.group("comment_num"),

         }

 def main(num):

     url = 'https://movie.douban.com/top250?start=%s&filter=' % num

     response_html = getPage(url)

     ret = parsePage(response_html)

     #print(ret)

     f = open("move_info7", "a", encoding="utf-8")

     for obj in ret:

         print(obj)

         data = json.dumps(obj, ensure_ascii=False)

         f.write(data + "\n")

     f.close()

 if __name__ == '__main__':

     count = 0

     for i in range(10):

         main(count)

         count += 25

爬取网页-完整版

re模块常用函数的更多相关文章

AR模块常用函数
--AR模块常用函数 FUNCTION get_fnd_user_name ( p_user_id IN NUMBER ) return VARCHAR2 IS CURSOR c_user_name ...
$python正则表达式系列（2）——re模块常用函数
本文主要介绍正则re模块的常用函数. 1. 编译正则 import re p = re.compile(r'ab*') print '[Output]' print type(p) print p p ...
python重要的第三方库pandas模块常用函数解析之DataFrame
pandas模块常用函数解析之DataFrame 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器 ...
pandas模块常用函数解析之Series（详解）
pandas模块常用函数解析之Series 关注公众号"轻松学编程"了解更多. 以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter notebook 打开浏览器输入网 ...
random模块常用函数
random模块常用函数: from random import * # Random float: 0.0 <= x < 1.0 random() # Random float: 2.5 ...
numpy.random模块常用函数解析
numpy.random模块中常用函数解析 numpy.random模块官方文档 1. numpy.random.rand(d0, d1, ..., dn)Create an array of the ...
Python OS模块常用函数说明
Python的标准库中的os模块包含普遍的操作系统功能.如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的.即它允许一个程序在编写后不需要任何改动,也不会发生任何问题,就可以在Linux和Wi ...
numpy模块常用函数解析
https://blog.csdn.net/lm_is_dc/article/details/81098805 numpy模块以下命令都是在浏览器中输入. cmd命令窗口输入:jupyter note ...
sys模块常用函数
sys模块是和python解释器打交道的 sys.argv 命令行参数List,第一个元素是程序本身路径 sys.exit(n) 退出程序,正常退出时exit(0),错误退出sys.exit(1) s ...
Python之OS（系统操作）模块常用函数
mkdir(path[, mode=0777]) makedirs(name,mode=511) rmdir(path) removedirs(path) listdir(path) getcwd() ...

随机推荐

移动端保存当前屏幕内容为图片，canvas图片拼接
需求:1.移动端点击分享时,截屏当前屏幕,并保存为图片 2.将截屏的图片与一张二维码图片进行拼接后,生成一张新的图片技术栈:html2canvas.js.canvas2image.js 代码:(j ...
TensorFlow——学习率衰减的使用方法
在TensorFlow的优化器中, 都要设置学习率.学习率是在精度和速度之间找到一个平衡: 学习率太大,训练的速度会有提升,但是结果的精度不够,而且还可能导致不能收敛出现震荡的情况. 学习率太小,精度 ...
为什么双击打开py文件时窗口瞬间关闭了？
当前理解,py文件里没有input() 等暂停程序运行的函数,程序运行速度太快,运行完就立马关闭了. input()调用后,程序会立即暂停,等待用户输入
Java 项目热部署，节省构建时间的正确姿势
上周末,帮杨小邪(我的大学室友)远程调试项目.SpringBoot 构建,没有热部署,改一下就得重启相关模块.小小的 bug ,搞了我一个多小时,大部分时间都还在构建上(特么,下次得收钱才行).我跟他 ...
NOIP提高组2018试题解析目录
重磅来袭! 本蒟蒻准备挑战一下NOIP2018提高组的试题啦(怎么办我猜我连10分都拿不了) 目录: Day1 1.铺设道路讲解得分:100 2.货币系统讲解 3.赛道修建讲解 ...
spring注入相关注解
本次主要整理四个注解 @ComponentScan.@Scope.@Conditional.@Import 1. @ComponentScan(value = "com.xiaoguo&qu ...
Manacher 学习
推荐博客 :https://blog.csdn.net/zzkksunboy/article/details/72600679 作用线性时间解决最长回文子串问题. 思想 Manacher充分利用了回 ...
一文带你看清HTTP所有概念
上一篇文章我们大致讲解了一下 HTTP 的基本特征和使用,大家反响很不错,那么本篇文章我们就来深究一下 HTTP 的特性.我们接着上篇文章没有说完的 HTTP 标头继续来介绍(此篇文章会介绍所有标头的 ...
Oracle RAC服务器重启故障排查
Oracle Real Application Clusters(Oracle RAC),相对于Oracle单实例来说部署安装和维护都增加了难度,尤其在日常的维护和故障处理过程中,各种日志的查看更加重 ...
auth.User.groups: (fields.E304) Reverse accessor for 'User.groups'
创建表,运行下面命令,出错 makemigrations 原因:继承auth_user 解决方案在settings.py文件添加 AUTH_USER_MODEL = "app名称.类名&q ...

re模块 常用函数

re模块 常用函数的更多相关文章

随机推荐

热门专题

re模块常用函数

re模块常用函数的更多相关文章