Py修行路 python基础 (二十一)logging日志模块 json序列化 正则表达式(re)
一、日志模块
两种配置方式:1、config函数 2、logger
#1、config函数 不能输出到屏幕
#2、logger对象 (获取别人的信息,需要两个数据流:文件流和屏幕流需要将数据从两个数据流中接收)
1、函数式简单配置
import logging
logging.debug('debug message')
logging.info('info message')
logging.warning('warning message')
logging.error('error message')
logging.critical('critical message')
默认情况下Python的logging模块将日志打印到了标准输出中,且只显示了大于等于WARNING级别的日志,这说明默认的日志级别设置为WARNING(日志级别等级CRITICAL > ERROR > WARNING > INFO > DEBUG),默认的日志格式为日志级别:Logger名称:用户输出消息。
灵活配置日志级别,日志格式,输出位置:
2)config函数样式
import logging #config
logging.basicConfig(level=logging.DEBUG, #设置文件等级
format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
datefmt='%a, %d %b %Y %H:%M:%S',
filename='/tmp/test.log',
filemode='w') logging.debug('debug message')
logging.info('info message')
logging.warning('warning message')
logging.error('error message')
logging.critical('critical message')
配置参数:
logging.basicConfig()函数中可通过具体参数来更改logging模块默认行为,可用参数有: filename:用指定的文件名创建FiledHandler,这样日志会被存储在指定的文件中。
filemode:文件打开方式,在指定了filename时使用这个参数,默认值为“a”还可指定为“w”。
format:指定handler使用的日志显示格式。
datefmt:指定日期时间格式。
level:设置rootlogger(后边会讲解具体概念)的日志级别
stream:用指定的stream创建StreamHandler。可以指定输出到sys.stderr,sys.stdout或者文件(f=open(‘test.log’,’w’)),默认为sys.stderr。若同时列出了filename和stream两个参数,则stream参数会被忽略。 format参数中可能用到的格式化串:
%(name)s Logger的名字
%(levelno)s 数字形式的日志级别
%(levelname)s 文本形式的日志级别
%(pathname)s 调用日志输出函数的模块的完整路径名,可能没有
%(filename)s 调用日志输出函数的模块的文件名
%(module)s 调用日志输出函数的模块名
%(funcName)s 调用日志输出函数的函数名
%(lineno)d 调用日志输出函数的语句所在的代码行
%(created)f 当前时间,用UNIX标准的表示时间的浮 点数表示
%(relativeCreated)d 输出日志信息时的,自Logger创建以 来的毫秒数
%(asctime)s 字符串形式的当前时间。默认格式是 “2003-07-08 16:49:45,896”。逗号后面的是毫秒
%(thread)d 线程ID。可能没有
%(threadName)s 线程名。可能没有
%(process)d 进程ID。可能没有
%(message)s用户输出的消息
3)logger对象配置方式:
logging库提供了多个组件:Logger、Handler、Filter、Formatter。Logger对象提供应用程序可直接使用的接口,Handler发送日志到适当的目的地,Filter提供了过滤日志信息的方法,Formatter指定日志显示格式。另外,可以通过:logger.setLevel(logging.Debug)设置级别。
import logging #logger对象
logger = logging.getLogger() #创建一个logger对象
logger.setLevel(logging.DEBUG) #设置输出等级
fm = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s') #设置文件编写格式 fh = logging.FileHandler('b.log') #创建一个hander 负责产生文件数据
sh = logging.StreamHandler() #创建一个hander 负责产生屏幕数据 fh.setFormatter(fm) #设置格式
sh.setFormatter(fm) #设置格式 logger.addHandler(fh) #接收文件的数据流
logger.addHandler(sh) ##接收屏幕的数据流 logger.debug('logger debug message')
logger.info('logger info message')
logger.warning('logger warning message')
logger.error('logger error message')
logger.critical('日志信息')
二、序列化模块 json (可支持跨语言之间的转换!)
之前我们学习过用eval内置方法可以将一个字符串转成python对象,不过,eval方法是有局限性的,对于普通的数据类型,json.loads和eval都能用,但遇到特殊类型的时候,eval就不管用了,所以eval的重点还是通常用来执行一个字符串表达式,并返回表达式的值。
1、什么是序列化
我们把对象(变量)从内存中变成可存储或传输的过程称之为序列化,序列化之后,就可以把序列化后的内容写入磁盘,或者通过网络传输到别的机器上。反过来,把变量内容从序列化的对象重新读到内存里称之为反序列化。
1)json
如果我们要在不同的编程语言之间传递对象,就必须把对象序列化为标准格式,比如XML,但更好的方法是序列化为JSON,因为JSON表示出来就是一个字符串,可以被所有语言读取,也可以方便地存储到磁盘或者通过网络传输。JSON不仅是标准格式,并且比XML更快,而且可以直接在Web页面中读取,非常方便。JSON表示的对象就是标准的JavaScript语言的对象一个子集,JSON和Python内置的数据类型对应如下:

序列化:json.dumps()
反序列化:json.loads() #只要是json字符串,就能反序列化回去
import json
d = {'name':'egon'}
s = json.dumps(d) #将字典d转为json字符串 序列化过程
print(type(s))
print(s) #注意转换的引号,由单引号转成了双引号。形成json字符串
data = json.loads(s) #反序列过程
print(data['name'])
#执行结果:
<class 'str'>
{"name": "egon"}
egon
#dump方式 用于文件操作,省掉了write
# # -------------- dump方式 用于文件操作中,先将数据序列化然后写入文件中!
import json d={'name':"egon"} f=open("new2",'w')
json.dump(d,f)#---------1 将字典d转成json字符串 2 将json字符串写入f里(!注意参数顺序!)
f.close() f=open("new2")
print(f.read())
f.close()
2)pickle 仅在python中进行序列化转换,可对任意类型的数据进行序列化转换。
操作与json一样,但是转换的数据为bytes格式,不可查看
#----------------------------------pickle-------------------- import pickle
import datetime t=datetime.datetime.now()
d={"data":t}
print(d)
s=pickle.dumps(d) #序列化
print(s,type(s)) #查看序列化的内容,数据类型
s1 = pickle.loads(s) #反序列化
print(s1,type(s1)) #查看序列化的内容,数据类型
三、正则表达式 re 模块
就其本质而言,正则表达式(或 RE)是一种小型的、高度专业化的编程语言,(在Python中)它内嵌在Python中,并通过 re 模块实现。正则表达式模式被编译成一系列的字节码,然后由用 C 编写的匹配引擎执行。
正则就是给字符串操作得。
爬虫里会大量用到字符串。要处理一定是对字符串处理。
正则表达式是模糊匹配,这就是正则表达式得真正关键所在。
匹配是一个一个对应的关系,匹配上就放进自己的列表中。
1.正则表达式(元字符):只对字符串进行操作
1)操作 一个字符
通配符 点 . 可以替换除了换行符(\n)所有字符, 通配符(一个字符)没有跳过之说。
2)操作 重复字符(操作元字符前的一个字符)
* 代表:0到无穷次
+ 代表:1到无穷次
? 代表:0到1次
{} {r,m}代表:有r-m次
\d 代表:0-9 的 数字
[] 字符集 中括号内的字符是或的关系,只要匹配到其中一个就可以。
在字符集中还要注意:*,+ . 等元字符都代表的是普通符号, 而 - ^ \
[^2] 字符集内的 ^ 是取反的意思。及除字符集内的条件其他的都符合,[\d] 表示的还是数字!
3)有特殊意义的字符:
- 代表:什么到什么 的意思 例如:[1-9]
^ 开始匹配 从字符串开始位置匹配
$ 结尾匹配 从字符串结尾位置匹配
() 分组 优先匹配分组的内容
(?:内容) 表示取消分组的优先级
| 管道符 表示 或的意思
\ 转义符 将有意义的符号转成无意义的,将无意义的转换成有意义的
1、后面加上一个元字符使其变成普通符号 比如:\. \*
2、将一些普通符号变成特殊符号 比如:\d \w
2、re方法
re.findall(pattern , string) 找到所有的匹配元素,返回列表
re.finditer() #将拿到的东西整成一个可迭代的对象
re.search; 只匹配第一个结果,匹配到就不再向下匹配,返回一个内存地址,通过.group()的方式获取匹配的字符串
re.match:只在字符串开始的位置匹配
re.split(规则,字符串) 分割 以前边的规则表达式为条件分隔符,对字符串进行分割!可在后边限制分割次数
re.sub() 替换
ret4 = re.sub(规则,替换内容,原字符串,次数) 返回一个字符串
re.subn() 替换 返回一个元组(内容,替换次数)
re.compile(规则) 编译规则
c = compile('\d+') 可操作多个字符串
ret5 = c.findall('hello32world')
print(ret5)
贪婪匹配与非贪婪匹配!

命名分组:

整体代码如下:
# 正则:对字符串的模糊匹配
# key:元字符(有特殊功能的字符)
import re
#元字符
# . :匹配除\n以外的任意符号
print(re.findall("a.+d","abcd"))
# ^:从字符串开始位置匹配
# $:从字符串结尾匹配
print(re.findall("^yuan","yuandashj342jhg234"))
print(re.findall("yuan$","yuandashj342jhg234yuan"))
# * + ? {} :重复
print(re.findall("[0-9]{4}","af5324jh523hgj34gkhg53453"))
#贪婪匹配
print(re.findall("\d+","af5324jh523hgj34gkhg53453"))
#非贪婪匹配
print(re.findall("\d+?","af5324jh523hgj34gkhg53453"))
print(re.findall("(abc\d)*?","af5324jh523hgj34gkhg53453"))
# 字符集 []: 起一个或者的意思
print(re.findall("a[bc]d","hasdabdjhacd"))
#注意: * ,+.等元字符都是普通符号, - ^ \
print(re.findall("[0-9]+","dashj342jhg234"))
print(re.findall("[a-z]+","dashj342jhg234"))
print(re.findall("[^\d]+","d2a2fhj87fgj"))
# ():分组
print(re.findall("(ad)+","addd"))
print(re.findall("(ad)+yuan","adddyuangfsdui"))
print(re.findall("(?:ad)+yuan","adadyuangfsdui"))
print(re.findall("(?:\d)+yuan","adad678423yuang4234fsdui"))
#命名分组
ret8=re.search(r"(?P<A>\w+)\\aticles\\(?P<id>\d{4})",r"yuan\aticles\1234")
ret8=re.search(r"a\\nb",r"a\nb")
print(ret8)
print(ret8.group("id"))
print(ret8.group("A"))
# # | :或
print(re.findall("www\.(?:oldboy|baidu)\.com","www.oldboy.com"))
# \:转义
# 1 后面加一个元字符使其变成普通符号 \. \*
# 2 将一些普通符号变成特殊符号 比如 \d \w
print(re.findall("\d+\.?\d*\*\d+\.?\d*","-2*6+7*45+1.456*3-8/4"))
print(re.findall("\w","$da@s4 234"))
print(re.findall("a\sb","a badf"))
print(re.findall("\\bI","hello I am LIA"))
print(re.findall(r"\dI","hello 654I am LIA"))
print(re.findall(r"c\\l","abc\l"))
# re的方法
# re.findall()
# re.findall(pattern, string) # 找到所有的匹配元素,返回列表
#获得迭代器对象
s=re.finditer("\d+","ad324das32")
print(s)
print(next(s).group())
print(next(s).group())
# "(3+7*2+27+7+(4/2+1))+3"
# search;只匹配第一个结果
ret=re.search("\d+","djksf34asd3")
print(ret.group())
# #match:只在字符串开始的位置匹配
ret=re.match("\d+","423djksf34asd3")
print(ret.group())
#split 分割
s2=re.split("\d+","fhd3245jskf54skf453sd",2)
print(s2)
ret3=re.split("l","hello yuan")
print(ret3)
# #sub: 替换
ret4=re.sub("\d+","A","hello 234jkhh23",1)
print(ret4)
ret4=re.subn("\d+","A","hello 234jkhh23")
print(ret4)
#compile: 编译方法
c=re.compile("\d+")
ret5=c.findall("hello32world53") #== re.findall("\d+","hello32world53")
print(ret5)
Py修行路 python基础 (二十一)logging日志模块 json序列化 正则表达式(re)的更多相关文章
- Py修行路 python基础 (十一)迭代器 与 生成器
一.什么是迭代? 迭代通俗的讲就是一个遍历重复的过程. 维基百科中 迭代(Iteration) 的一个通用概念是:重复某个过程的行为,这个过程中的每次重复称为一次迭代.具体对应到Python编程中就是 ...
- Py修行路 python基础 (二十五)线程与进程
操作系统是用户和硬件沟通的桥梁 操作系统,位于底层硬件与应用软件之间的一层 工作方式:向下管理硬件,向上提供接口 操作系统进行切换操作: 把CPU的使用权切换给不同的进程. 1.出现IO操作 2.固定 ...
- Py修行路 python基础 (二十三)模块与包
一.模块 1)定义: 模块就是一个包含了python定义和声明的文件,文件名就是模块名字加上.py的后缀. 2)为何要用模块: 退出python解释器然后重新进入,那之前定义的函数或者变量都将丢失,因 ...
- Py修行路 python基础 (二十四)socket编程
socket编程 一.客户端/服务端架构 客户端/服务端架构 即C/S架构,包括:1.硬件C/S架构,2.软件C/S架构. 互联网中处处都是C/S架构,学习socket 就是为了完成C/S架构的开发. ...
- Py修行路 python基础 (十二) 协程函数应用 列表生成式 生成器表达式
一.知识点整理: 1.可迭代的:对象下有_iter_方法的都是可迭代的对象 迭代器:对象._iter_()得到的结果就是迭代器 迭代器的特性: 迭代器._next_() 取下一个值 优点: 1.提供了 ...
- Py修行路 python基础 (二十)模块 time模块,random模块,hashlib模块,OS及sys模块
一.前提介绍: 可以开辟作用域的只有类,函数,和模块 for循环 if,else: 不能开辟自己的作用域 避免程序复用和重复调用,将这些写到一个.py文件中,做成一个模块,进行调 ...
- Py修行路 python基础(二)变量 字符 列表
变量 容器 变量名 标记 数据的作用 字符编码 二进制位 = bit1个二进制位是计算机里的最小表示单元 1个字节是计算机里最小的存储单位 8bits = 1Byte =1字节1024Bytes = ...
- Py修行路 python基础 (二十二)异常处理
异常处理 一.错误和异常 程序中难免出现错误,而错误分为两种:语言异常和逻辑异常 1.语法错误(这种错误,根本过不了python解释器的语法检测,必须在程序执行前就改正) for i in range ...
- Py修行路 python基础 (十三)匿名函数 与 内置函数
一.匿名函数 1.定义: 匿名函数顾名思义就是指:是指一类无需定义标识符(函数名)的函数或子程序. 2.语法格式:lambda 参数:表达式 lambda语句中,开头先写关键字lambda,冒号前是 ...
随机推荐
- Android进阶常用网站
Android进阶常用网站 android中文网 Android Studio 安卓开发者社区
- Annotation: 代码的修饰符
Table of Contents 简介: 是什么, 用途, 为什么有用 使用: 一个简单例子,如@Override.系统提供的annotation,做成列表 定义新的annotation. 涉及到的 ...
- IOS-SQLite3
iOS中的数据存储方式 Plist(NSArray\NSDictionary) Preference(偏好设置\NSUserDefaults) NSCoding(NSKeyedArchiver\NSk ...
- python基础之继承原理,多态与封装
1.什么是继承? 继承是一种创建新的类的方式.class A: passclass B: pass2.如何继承---->如何寻找继承关系 现实生活中找继承关系是自下而上,在程序中写是自上而下继承 ...
- LeetCode OJ:Remove Duplicates from Sorted Array(排好序的vector去重)
Given a sorted array, remove the duplicates in place such that each element appear only once and ret ...
- MSSQL数据库分区表
http://blog.csdn.net/lgb934/article/details/8662956 http://database.9sssd.com/mssql/art/951
- Delphi XE4 Upate1 更新升级记录.
一直没时间,这两天折腾了一下 升级了. 其实也可能修了老bug 引入新bug. 呵呵. 看看Emb 都修了什么吧. 我干脆是重新安装的. 虽然官方也有一个单独的update.exe. 从这些bu ...
- PHP内核研究
深入理解PHP内核:Think In PHP Internals(TIPI)是一个开源项目 ,分享PHP内部实现的细节,如内核,扩展等.官网见:http://www.php-internals.com ...
- Django初体验——搭建简易blog
前几天在网上看到了篇采用Django搭建简易博客的视频,好奇心驱使也就点进去学了下,毕竟自己对于Django是无比敬畏的,并不是很了解,来次初体验. 本文的操作环境:ubuntu.python2.7. ...
- 关于python模拟登录的一点实践
不久前,通过网上查阅各种资料,一直想利用python来实现模拟登录的功能,通过csdn汪海的博客学会了一点,但也只能算个皮毛,亦或皮毛都算不上. 边查阅资料边写一个小东西,起初想写一个程序,通过暴力破 ...