[re模块、json&pickle模块]

re模块

什么是正则？

正则就是用一些具有特殊含义的符号组合到一起（称为正则表达式）来描述字符或者字符串的方法。或者说：正则就是用来描述一类事物的规则。（在Python中）它内嵌在Python中，并通过 re 模块实现。正则表达式模式被编译成一系列的字节码，然后由用 C 编写的匹配引擎执行。

注意：re模块不是内置的，是属于标准库的，创建模块不要与标准库模块名重名，容易发生冲突

常用匹配模式（元字符）

常用匹配模式的具体用法:

improt re

print(re.findall("abc","abcxxaabcxabcyyyabc"))

# abcxxaabcxabcyyyabc

# abc-->abc-abc-->abc   # 依次匹配,吃掉属于它的范畴

# ['abc','abc','abc','abc']

# \w 匹配字母数字加下划线

print(re.findall("\w","hello_123 * -+"))

# ['h', 'e', 'l', 'l', 'o', '_', '1', '2', '3']

print(re.findall("a\wb","a1b a_b a+b a-b aab aaaaaab")) #

# ['a1b', 'a_b', 'aab', 'aab']

# \W 匹配非字母数字加下划线

print(re.findall("\W","hello_123 * -+"))

# [' ', '*', ' ', '-', ' ', '+']

# \s 匹配任意空白字符

print(re.findall("\s","a b  \n\tc123"))

# [' ', ' ', ' ', '\n', '\t']

# \S 匹配任意非空白字符

print(re.findall("\S","a b  \n\tc123"))

# ['a', 'b', 'c', '1', '2', '3']

# \d 匹配任意数字 等同于（0-9）

print(re.findall("\d","a b  \n\tc123"))

# ['1', '2', '3']

# \D 匹配任意非数字

print(re.findall("\D","a b  \n\tc123"))

# ['a', ' ', 'b', ' ', ' ', '\n', '\t', 'c']

# ^ 匹配字符串开头

print(re.findall("^a\wb","a1b a_b a+b a-b aab aaaaaab"))

# ['a1b']  # ^ 代表从头开始匹配，找到就结束                    

# $ 匹配字符串的末尾

print(re.findall("a\wb$","a1b a_b a+b a-b aab aaaaaab"))

# ['aab']  # $代表从末尾开始匹配，找到就结束

print(re.findall('^egon$',"egon"))

# ['egon'] 

# \A 匹配字符串开始  \Z 匹配字符串结尾

print(re.findall('\Aegon\Z',"egon"))

# ['egon'] 

# \A和\Z 与 ^和$ 的区别

print(re.findall('^egon$',"""

egon

123egon

egon123

egon

""",re.M))

# ['egon', 'egon']

print(re.findall('\Aegon\Z',"""

egon

123egon

egon123

egon

""",re.M))

# []          # \A \Z  是会忽略 re.Multiline 选项

# \n匹配换行符 \t匹配制表符  # \n \t 都是空

print(re.findall('\n',"a\nb\nc"))

# ['\n', '\n']

print(re.findall('\t',"a\tb\nc"))

# ['\t']

print(re.findall('\n',"""

a

b

c

"""))

# ['\n', '\n', '\n', '\n']

# .匹配任意字符，除了换行符

print(re.findall('a.c',"a1c a2c aAc a\nc aaaac"))

# ['a1c', 'a2c', 'aAc', 'aac']

# .匹配，当re.DOTALL标记被指定时，可以匹配包括换行符的任意字符

print(re.findall('a.c',"a1c a2c aAc a\nc aaaac",re.DOTALL))

# ['a1c', 'a2c', 'aAc', 'a\nc', 'aac']

# []用来表示一组字符串，单独列出

print(re.findall('a[1+]c',"a1c a+c aAc a\nc aaaac",re.DOTALL))

# ['a1c', 'a+c']

print(re.findall('a[0-9]c',"a1c a9c a10c aAc a\nc aaaac",re.DOTALL))# 匹配0-9的范围

# ['a1c', 'a9c']

print(re.findall('a[a-z]c',"a1c a9c a10c aAc a\nc aaaac",re.DOTALL))

# ['aac']

print(re.findall('a[A-Z]c',"a1c a9c a10c aAc a\nc aaaac",re.DOTALL))

# ['aAc']

print(re.findall('a[-+*/]c',"a+c a-c a*c a/c a1c a9c aAc"))

# ['a+c', 'a-c', 'a*c', 'a/c']

print(re.findall('a[-+*/]c',"a+c a-c a*c a/c a1c a9c aAc"))

# ['a+c', 'a-c', 'a*c', 'a/c']

print(re.findall('a[^-+*/]c',"a+c a-c a*c a/c a1c a9c aAc"))

# ['a1c', 'a9c', 'aAc']

# ?：左边那一个字符出现0次或者1次

print(re.findall('ab?',"b a abbbbbbbb ab"))

# ['a', 'ab', 'ab']

print(re.findall('ab{0,1}',"b a abbbbbbbb ab"))

# ['a', 'ab', 'ab']

# *：左边那一个字符出现0次或者无穷次

print(re.findall('ab*',"b a abbbbbbbb ab"))

# ['a', 'abbbbbbbb', 'ab']

print(re.findall('ab{0,}',"b a abbbbbbbb ab"))

# ['a', 'abbbbbbbb', 'ab']

# +：左边那一个字符出现1次或者无穷次

print(re.findall('ab+',"b a abbbbbbbb ab"))

# ['abbbbbbbb', 'ab']

print(re.findall('ab{1,}',"b a abbbbbbbb ab"))

# ['abbbbbbbb', 'ab']

# {n,m}：左边那一个字符出现n次或m次

print(re.findall('ab{2,4}',"b a abbbbbbbb ab"))

# ['abbbb']

print(re.findall('ab{2,4}',"b a abb abbb abbbbbbbb ab"))

# ['abb', 'abbb', 'abbbb']

print(re.findall('a.*?c',"a123dsfc+-12313xdfsfdc"))

# ['a123dsfc']                       

print(re.findall("href='(.+?)'","<a href='https://www.baidu.com.cn'>'我特么是百度啊'</a><a href='https://www.sina.com.cn'>'我特么是新浪啊'</a>"))

# ['https://www.baidu.com.cn', 'https://www.sina.com.cn']                              

print(re.findall('a.*?b','a123b ab'))

# ['a123b', 'ab']

print(re.findall('a.+?b','a123b ab'))

# ['a123b']

print(re.findall('company|companies','Too many companies have gone bankrupt, and the next one is my company'))

# ['companies', 'company']

print(re.findall('compan(?:y|ies)','Too many companies have gone bankrupt, and the next one is my company'))

# ['companies', 'company']

print(re.findall("a\\\\c",'a\c a1c a2c'))

# ['a\\c']

print(re.findall(r"a\\c",'a\c a1c a2c'))

# ['a\\c']

print(re.findall('\d+(?:\.\d+)?','abc11dad33.4adaxx2111asd3.4'))

# ['11', '33.4', '2111', '3.4']

res = re.search('egonxxx','123 egon egon xxx egon')

print(res.group())

res = re.match('egon','egon egon xxx egon')

print(res)

print(re.sub('^(\w+)(.*?\s)(\w+)(.*?\s)(\w+)$',r'\5\2\3\4\1','lxx is sb'))

print(re.sub('^\w+','LXXXXXXXXXXXXXXXXXX','lxx is sb'))

pattern = re.compile("egon",re.M)

print(pattern.findall("egon xxx egon"))

print(pattern.search("asdfasdfsadfegonasdfon"))

json&pickle模块

什么是序列化？为什么要序列化？

序列化就是把内存当中的数据转成一种其它格式，这种格式可以存到文件里去

反序列化就是从文件里读出一种格式，可以把这种格式反解成内存当中的数据类型

1、持久保存状态需知一个程序的执行就在处理一系列状态的变化，'状态'会以各种各样有结构的数据类型的形

式被保存在内存中。内存是无法永久保存数据的，当程序运行了一段时间，我们断电或者重启程序，内存中关

于这个程序的之前一段时间的数据（有结构）都被清空了。在断电或重启程序之前将程序当前内存中所有的数

据都保存下来（存档），以便于下次程序执行能够从文件中载入之前的数据，然后继续执行，这就是序列化。

2、跨平台数据交互序列化之后，不仅可以把序列化后的内容写入磁盘，还可以通过网络传输到别的机器上，

如果收发的双方约定好实用一种序列化的格式，那么便打破了平台/语言差异化带来的限制，实现了跨平

台数据交互。反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。
json

import json

# 序列化

dic = {'name':"egon","xxx":True,"yyy":None,"zzz":1.3}

dic_json = json.dumps(dic)

# print(dic_json,type(dic_json))

with open('a.json',mode='wt',encoding='utf-8') as f:

   f.write(dic_json)

json.dump(dic,open('a.json',mode='wt',encoding='utf-8'))

# 反序列化

with open('a.json',mode='rt',encoding='utf-8') as f:

   res = f.read()

   dic = json.loads(res)

   print(dic["xxx"])

dic = json.load(open('a.json',mode='rt',encoding='utf-8'))

print(dic['xxx'])

res = json.dumps((1,2,3))

print(res)

dic = json.loads("{'k':true}")

print(dic)

json.dumps({1,2,3,4,5})

json与python内置数据类型的区别

pickle

Pickle的问题和所有其他编程语言特有的序列化问题一样，就是它只能用于Python，并且可能不同版本的Python彼此都不兼容，因此，只能用Pickle保存那些不重要的数据，不能成功地反序列化也没关系。

import pickle

res = pickle.dumps({1,2,3,4,5})

pickle.dump({1,2,3,4,5},open('b.pkl',mode='wb'))

s = pickle.load(open('b.pkl',mode='rb'))

print(s,type(s))

猴子补丁

# 一.什么是猴子补丁?

      属性在运行时的动态替换，叫做猴子补丁（Monkey Patch）。

    猴子补丁的核心就是用自己的代码替换所用模块的源代码，详细地如下：

　　1，这个词原来为Guerrilla Patch，杂牌军、游击队，说明这部分不是原装的，在英文里guerilla发音

	  和gorllia(猩猩)相似，再后来就写了monkey(猴子)。

　　2，还有一种解释是说由于这种方式将原来的代码弄乱了(messing with it)，在英文里叫monkeying about

	  (顽皮的)，所以叫做Monkey Patch。

# 二. 猴子补丁的功能(一切皆对象)

　　1.拥有在模块运行时替换的功能, 例如: 一个函数对象赋值给另外一个函数对象(把函数原本的执行的功能给替换了)

# 三.monkey patch的应用场景

	如果我们的程序中已经基于json模块编写了大量代码了，发现有一个模块ujson比它性能更高，

    但用法一样，我们肯定不会想所有的代码都换成ujson.dumps或者ujson.loads,那我们可能

    会想到这么做

# import ujson as json  # 但是这么做的需要每个文件都重新导入一下，维护成本依然很高

					    # 此时我们就可以用到猴子补丁了

import json

import ujson # pip3 install ujson

def monkey_patch_json():

    json.dump = ujson.dump

    json.dumps = ujson.dumps

    json.load = ujson.load

    json.loads = ujson.loads

monkey_patch_json()

[re模块、json&pickle模块]的更多相关文章

os模块/sys模块/json/pickle模块/logging模块(day16整理)
目录今日内容 os模块对文件操作对文件夹此操作辅助性的了解 sys模块 json和pickle模块 json模块 pickle模块 logging模块日志级别添加设置自定义配置今日内 ...
os模块 sys模块 json/pickle 模块 logging模块
目录模块 1. os模块 2. sys模块 3. json和pickle模块 4. logging模块 (1)日志配置 (2)实际开发中日志的使用模块 1. os模块 os模块有什么用与操作系统 ...
sys模块 json pickle模块
# sys模块# import sys# sys.path# sys.argv# sys.exit() # 脚本退出# print('[%s]'%('#'*1))# print('[%s]'%('#' ...
Pythoy 数据类型序列化——json&pickle 模块
Pythoy 数据类型序列化--json&pickle 模块 TOC 什么是序列化/反序列化 pickle 模块 json 模块对比json和pickle json.tool 命令行接口什 ...
python 全栈开发，Day25(复习,序列化模块json,pickle,shelve,hashlib模块)
一.复习反射必须会必须能看懂必须知道在哪儿用 hasattr getattr setattr delattr内置方法必须能看懂能用尽量用__len__ len(obj)的结果依赖于obj. ...
python中序列化json模块和pickle模块
内置模块和第三方模块 json模块和pickle 模块(序列化模块) 什么是序列化? 序列化就是将内粗这种的数据类型转成另一种格式序列化:字典类型——>序列化——>其他格式——>存 ...
Python之路(第十五篇)sys模块、json模块、pickle模块、shelve模块
一.sys模块 1.sys.argv 命令行参数List,第一个元素是程序本身路径 2.sys.exit(n) 退出程序,正常退出时exit(0) 3.sys.version . sys.maxint ...
面向对象进阶------>模块 json pickle hashlib
何为模块呢? 其实模块就是.py文件 python之所以好用就是模块多模块分三种 : 内置模块 . 拓展模块.自定义模块. 现在我们来认识:内置模块中的序列化模块和 hashlib 模块 1 ...
python模块--json \ pickle \ shelve \ XML模块
一.json模块之前学习过的eval内置方法可以将一个字符串转成一个python对象,不过eval方法时有局限性的,对于普通的数据类型,json.loads和eval都能用,但遇到特殊类型的时候,e ...
python 常用模块 time random os模块 sys模块 json & pickle shelve模块 xml模块 configparser hashlib subprocess logging re正则
python 常用模块 time random os模块 sys模块 json & pickle shelve模块 xml模块 configparser hashlib subprocess ...

随机推荐

MySQL Order BY 排序过程
MySQL 在进行 Order By 操作排序时,通常有两种排序方式: 全字段排序 Row_id 排序 MySQL 中每个线程在执行排序时,都会被分配一块区域 - sort buffer,它的大小通过 ...
Macbook 安装kali linux 双系统 2020.3 超详细
博主折腾了一星期这东西,到现在都还有些坑没解决(最后面会讲).不过最起码系统装上了,可以用了,看到这桌面惊艳了,再点下左上角表示人间值得. 其实我是装了windos 10.macos 和kali三系统 ...
人多力量大vs.两个披萨原则，聊聊持续交付中的流水线模式
人多力量大vs.两个披萨原则,聊聊持续交付中的流水线模式在前面5期文章中,我们分别详细介绍了持续交付体系基础层面的建设,主要是多环境和配置管理,这些是持续交付自动化体系的基础,是跟我们实际的业务场景 ...
显示IPC信息--ipcs
ipcs 显示共享内存,消息队列, 信号量全部的IPC ipcs -q ...
Python爬虫知乎文章，采集新闻60秒
前言发现很多人需要新闻的接口,所以自己去搜索了下,发现知乎上正好有对应的用户每天发布新闻简讯,所以自己想写一个新闻的爬虫.如果想做成接口的话,可以加上flask模块即可,这里就暂时只进行爬虫部分的编 ...
用Python爬取网易云音乐热评
用Python爬取网易云音乐热评本文旨在记录Python爬虫实例:网易云热评下载由于是从零开始,本文内容借鉴于各种网络资源,如有侵权请告知作者. 要看懂本文,需要具备一点点网络相关知识.不过没有关 ...
OO_Unit3_Summary
JML这一单元是真的有含金量,很有难度.而且这难点和前两单元完全不同,前两单元是容易架构混乱导致细节出问题,JML单元是读不懂JML规格的话架构都构不出来,以及即使能够读懂JML规格了,让自己写规格的 ...
OO UNIT 2 个人总结
第二单元面向对象作业--性感电梯在线吃人 Part 1:单部可捎带电梯多线程设计策略本次电梯仅仅只有一部运行,因此,在多线程的设计中难度不大,并且,只需采用一对一的生产者-消费者模型即可解决问题. ...
libnet的使用详解
最近搬砖需要对libnet进行介绍在这里对知识进行汇总. 1.libnet简介在libnet出现以前,如果要构造数据包并发送到网络中,程序员要通过一些复杂的接口来处理.libnet的出现,为程序员提 ...
Java（133-151）【String类、static、Arrays类、Math类】
1.字符串概述和特点 string在lang包里面,因此可以直接使用字符串的内容不可变 2.字符串的构造方法和直接创建三种构造方法 package cn.itcast.day08.demo01; ...

[re模块、json&pickle模块]

[re模块、json&pickle模块]

re模块

什么是正则？

常用匹配模式的具体用法:

json&pickle模块

什么是序列化？为什么要序列化？

1、持久保存状态需知一个程序的执行就在处理一系列状态的变化，'状态'会以各种各样有结构的数据类型的形

式被保存在内存中。内存是无法永久保存数据的，当程序运行了一段时间，我们断电或者重启程序，内存中关

于这个程序的之前一段时间的数据（有结构）都被清空了。在断电或重启程序之前将程序当前内存中所有的数

据都保存下来（存档），以便于下次程序执行能够从文件中载入之前的数据，然后继续执行，这就是序列化。

2、跨平台数据交互序列化之后，不仅可以把序列化后的内容写入磁盘，还可以通过网络传输到别的机器上，

如果收发的双方约定好实用一种序列化的格式，那么便打破了平台/语言差异化带来的限制，实现了跨平

台数据交互。反过来，把变量内容从序列化的对象重新读到内存里称之为反序列化，即unpickling。

json

json与python内置数据类型的区别

pickle

猴子补丁

[re模块、json&pickle模块]的更多相关文章

随机推荐

热门专题