正则表达式 re sys os random time 模块

今天学习内容如下：

1.正则表达式

百度正则表达式在线测试，可以练习

正则表达式本身也和python没有什么关系，就是匹配字符串内容的一种规则。官方定义：正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。re模块本质上和正则表达式没有一毛钱的关系。re模块和正则表达式的关系类似于 time模块和时间的关系你没有学习python之前，也不知道有一个time模块，但是你已经认识时间了 12:30就表示中午十二点半（这个时间可好，一般这会儿就该下课了）。时间有自己的格式，年月日时分秒，12个月，365天......已经成为了一种规则。你也早就牢记于心了。time模块只不过是python提供给我们的可以方便我们操作时间的一个工具而已。

字符组;在同一个位置可能出现的各种字符组成了一个字符组，在正则表达式中用[]表示

2.re 模块

import re

# ret = re.findall('[a-z]+','eva egon yuan')

# print(ret) # 返回所有满足匹配条件的结果,放在列表里

# ret = re.search('a','eva egon yuan')

# # print(ret)

# print(ret.group())

# 从前往后，找到一个就返回,返回的变量需要调用group才能拿到结果

# 如果没有找到，那么返回None，调用group会报错

# ret = re.match('e','eva egon yuan')

# print(ret.group())

# match是从头开始匹配，如果正则规则从头开始可以匹配上，就返回一个变量。

# 匹配的内容需要用group才能显示

# 如果没匹配上，就返回None，调用group会报错

# ret = re.split('[ab]','eva egon yuan',1)

# ret = re.split('[ab]','ava egon yuan',1)

# ret = re.split('[ab]','ava egon yuan')

# print(ret)

# # 先按'a'分割得到''和'bcd',在对''和'bcd'分别按'b'分割

#

# ret = re.sub('\d', 'H', 'eva3egon4yuan4',1)

# # 将数字替换成'H'，参数1表示只替换1个

# print(ret) #evaHegon4yuan4

# ret = re.subn('\d', 'H', 'eva3egon4yuan4')

# #将数字替换成'H'，返回元组(替换的结果,替换了多少次)

# print(ret)

#

# obj = re.compile('\d{3}')

# # #将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字

# # ret = obj.search('abc123456eeee') #正则表达式对象调用search，参数为待匹配的字符串

# # print(ret.group())

# ret = obj.search('abcashgjgsdghkash456eeee3wr2') #正则表达式对象调用search，参数为待匹配的字符串

# print(ret.group())  #结果 ： 123

re模块下的常用方法

# import re

# ret = re.finditer('\d','dsdkfsf123dlll')

# print(ret)

# print(next(ret).group())

# print(next(ret).group())

# for i in ret:

#   print(i.group())

#

# import re

# ret = re.search('^([1-9])(\d{14})(\d{2}[0-9x])?$','110105199912122277')

# print(ret)

#

# print(ret.group(1))

# print(ret.group(2))

# print(ret.group(3))

# import re

# ret = re.findall('www.(baidu|oldboy)\.com', 'www.oldboy.com')

# print(ret)  # ['oldboy']

#

# import re

# ret = re.findall('www.(?:baidu|oldboy)\.com', 'www.oldboy.com')

# print(ret)  # ['www.oldboy.com']

import re

# ret=re.split("\d+","eva3egon4yuan")

# print(ret) #结果 ： ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")

print(ret) #结果 ： ['eva', '3', 'egon', '4', 'yuan']

分组的特别用法group（1）和?:

import re

print(re.findall('.\d',''))

print(re.findall('.\d','\n4'))

print(re.findall('.\d','\n4',re.S))

import re

# print(re.findall('\\\\s','\s'))

# print(re.findall(r'\\n',r'\nhfh'))

# ret = search('\d(\w)+','awir17948jsdc'）

ret = re.search('\d(?P<name>\w\d)+','awir17948jsdcm')

# 找整个字符串，遇到匹配上的就返回，遇不到就None

# 如果有返回值ret.group()就可以取到值

# 取分组中的内容 ： ret.group(1)   /  ret.group('name')

print(ret.group('name'))

print(ret.group(1))

print(ret.group())

补充

import re

ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")

#还可以在分组中利用?<name>的形式给分组起名字

#获取的匹配结果可以直接用group('名字')拿到对应的值

print(ret.group('tag_name'))  #结果 ：h1

print(ret.group())  #结果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")

#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致

#获取的匹配结果可以直接用group(序号)拿到对应的值

print(ret.group(1))

print(ret.group())  #结果 ：<h1>hello</h1>

匹配标签

import re

ret=re.findall("\d+","1-2*(60+(-40.35/5)-(-4*3))")

print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']

ret=re.findall("-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")

print(ret) #['1', '-2', '60', '', '5', '-4', '3']

ret.remove("")

print(ret) #['1', '-2', '60', '5', '-4', '3']

匹配整数

3.模块

什么是模块？

常见的场景：一个模块就是一个包含了python定义和声明的文件，文件名就是模块名字加上.py的后缀。

但其实import加载的模块分为四个通用类别：　

　　1 使用python编写的代码（.py文件）

　　2 已被编译为共享库或DLL的C或C++扩展

　　3 包好一组模块的包

　　4 使用C编写并链接到python解释器的内置模块

为何要使用模块？

如果你退出python解释器然后重新进入，那么你之前定义的函数或者变量都将丢失，因此我们通常将程序写到文件中以便永久保存下来，需要时就通过python test.py方式去执行，此时test.py被称为脚本script。

随着程序的发展，功能越来越多，为了方便管理，我们通常将程序分成一个个的文件，这样做程序的结构更清晰，方便管理。这时我们不仅仅可以把这些文件当做脚本去执行，还可以把他们当做模块来导入到其他的模块中，实现了功能的重复利用，

.collections模块

在内置数据类型（dict、list、set、tuple）的基础上，collections模块还提供了几个额外的数据类型：Counter、deque、defaultdict、namedtuple和OrderedDict等。

1.namedtuple: 生成可以使用名字来访问元素内容的tuple

2.deque: 双端队列，可以快速的从另外一侧追加和推出对象

3.Counter: 计数器，主要用来计数

4.OrderedDict: 有序字典

5.defaultdict: 带有默认值的字典

#namedtuple('名称', [属性list]):

from collections import namedtuple

# Point = namedtuple('point',['x','y','z'])

# p1 = Point(1,2,3)

# p2 = Point(1,2,3)

# print(p1.x)

# print(p1.y)

# print(p1,p2)

#花色和数字

# Card = namedtuple('card',['suits','number'])

# c1 = Card('红桃',2)

# print(c1)

# print(c1.number)

# print(c1.suits)

namedtuple

使用list存储数据时，按索引访问元素很快，但是插入和删除元素就很慢了，因为list是线性存储，数据量大的时候，插入和删除效率很低。

deque是为了高效实现插入和删除操作的双向列表，适合用于队列和栈：

#队列(先进先出 FIFO)

# import queue

# q = queue.Queue()

# q.put(10)

# q.put(5)

# q.put(6)

# print(q)

# print(q.get())

# print(q.get())

# # print(q.get())

# # print(q.get())#阻塞

# print(q.qsize())

from collections import deque

dq = deque([1,2])

dq.append('a')# 从后面放数据  [1,2,'a']

dq.appendleft('b')#从前面放数据['b',1,2,'a']

dq.insert(2,3)#['b',1,3,2,'a']

print(dq.pop())# 从后面取数据

print(dq.pop())# 从后面取数据

print(dq.popleft())#从前面取数据

print(dq)

deque

使用dict时，Key是无序的。在对dict做迭代时，我们无法确定Key的顺序。

如果要保持Key的顺序，可以用OrderedDict：

# d = dict([('a', 1), ('b', 2), ('c', 3)])

# print(d) # dict的Key是无序的

from collections import OrderedDict

od = OrderedDict([('a',1),('b',2),('c',3)])

print(od) # OrderedDict的Key是有序的

print(od['a'])

for k in od:

    print(k)

OrderedDict

使用dict时，如果引用的Key不存在，就会抛出KeyError。如果希望key不存在时，返回一个默认值，就可以用defaultdict：

有如下值集合 [11,22,33,44,55,66,77,88,99,90...]，将所有大于 66 的值保存至字典的第一个key中，将小于 66 的值保存至第二个key的值中。

即： {'k1': 大于66 , 'k2': 小于66}

示例一

values = [11, 22, 33,44,55,66,77,88,99,90]

my_dict = {}

for value in  values:

    if value>66:

        if my_dict.has_key('k1'):

            my_dict['k1'].append(value)

        else:

            my_dict['k1'] = [value]

    else:

        if my_dict.has_key('k2'):

            my_dict['k2'].append(value)

        else:

            my_dict['k2'] = [value]

使用dict时，如果引用的Key不存在，就会抛出KeyError。如果希望key不存在时，返回一个默认值，就可以用defaultdict：

示例二

from collections import defaultdict

values = [11, 22, 33,44,55,66,77,88,99,90]

d = defaultdict(lambda :109)

d = defaultdict(10)#TypeError: first argument must be callable or None

print(d)

print(d['m'])

print(d['a'])

print(d)

# my_dict = defaultdict(list)

# print(my_dict['k1'])

# for value in  values:

#     if value>66:

#         my_dict['k1'].append(value)

#     else:

#         my_dict['k2'].append(value)

# print(my_dict)

defaultdict

Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型，以字典的键值对形式存储，其中元素作为key，其计数作为value。计数值可以是任意的Interger（包括0和负数）。Counter类和其他语言的bags或multisets很相似。

c = Counter('abcdeabcdabcaba')

print c

输出：Counter({'a': 5, 'b': 4, 'c': 3, 'd': 2, 'e': 1})

Counter

5.time 模块

#常用方法

1.time.sleep(secs)

(线程)推迟指定的时间运行。单位为秒。

2.time.time()

获取当前时间戳

表示时间的三种方式

在Python中，通常有这三种方式来表示时间：时间戳、元组(struct_time)、格式化的时间字符串：

(1)时间戳(timestamp) ：通常来说，时间戳表示的是从1970年1月1日00:00:00开始按秒计算的偏移量。我们运行“type(time.time())”，返回的是float类型。（给计算机看的）

(2)格式化的时间字符串(Format String)： ‘1999-12-06’（给人看的）

%y 两位数的年份表示（00-99）

%Y 四位数的年份表示（000-9999）

%m 月份（01-12）

%d 月内中的一天（0-31）

%H 24小时制小时数（0-23）

%I 12小时制小时数（01-12）

%M 分钟数（00=59）

%S 秒（00-59）

%a 本地简化星期名称

%A 本地完整星期名称

%b 本地简化的月份名称

%B 本地完整的月份名称

%c 本地相应的日期表示和时间表示

%j 年内的一天（001-366）

%p 本地A.M.或P.M.的等价符

%U 一年中的星期数（00-53）星期天为星期的开始

%w 星期（0-6），星期天为星期的开始

%W 一年中的星期数（00-53）星期一为星期的开始

%x 本地相应的日期表示

%X 本地相应的时间表示

%Z 当前时区的名称

%% %号本身

(3)结构化时间-元组(struct_time) ：struct_time元组共有9个元素共九个元素:(年，月，日，时，分，秒，一年中第几周，一年中第几天等）（元组则是用来操作时间的）

import time

# print(time.strftime('%y-%m-%d %H-%M-%S'))

# print(time.strftime('%Y-%m-%d %H-%M-%S'))

# print(time.strftime('%Y/%m/%d %H-%M-%S'))

# print(time.strftime('%Y:%m:%d %H-%M-%S'))

# print(time.strftime('%Y-%m-%d %X'))

struct_time = time.localtime()

print(struct_time)

print(struct_time.tm_year)

示例

import time

# 时间戳和结构化时间转换

#时间戳-->结构化时间

#time.gmtime(时间戳)    #UTC时间，与英国伦敦当地时间一致

#time.localtime(时间戳) #当地时间。例如我们现在在北京执行这个方法：与UTC时间相差8小时，UTC时间+8小时 = 北京时间

# t = time.time()

# print(t)

# print(time.localtime(1500000000))

# print(time.localtime(t))

# print(time.localtime())

# print(time.gmtime(t))

#时间戳<--结构化时间

# print(time.mktime(time.localtime()))

#格式化时间--》结构化时间

# print(time.strptime('2000-12.31','%Y-%m.%d'))

#格式化时间《--结构化时间

print(time.strftime('%m/%d/%Y %H:%M:%S',time.localtime()))

几种格式之间的转换

#结构化时间 --> %a %b %d %H:%M:%S %Y串

#time.asctime(结构化时间) 如果不传参数，直接返回当前时间的格式化串

>>>time.asctime(time.localtime(1500000000))

'Fri Jul 14 10:40:00 2017'

>>>time.asctime()

'Mon Jul 24 15:18:33 2017'

#时间戳 --> %a %d %d %H:%M:%S %Y串

#time.ctime(时间戳)  如果不传参数，直接返回当前时间的格式化串

>>>time.ctime()

'Mon Jul 24 15:19:07 2017'

>>>time.ctime(1500000000)

'Fri Jul 14 10:40:00 2017'

几种格式转换

import time

true_time=time.mktime(time.strptime('2017-09-11 08:30:00','%Y-%m-%d %H:%M:%S'))

time_now=time.mktime(time.strptime('2017-09-12 11:00:00','%Y-%m-%d %H:%M:%S'))

dif_time=time_now-true_time

struct_time=time.gmtime(dif_time)

print('过去了%d年%d月%d天%d小时%d分钟%d秒'%(struct_time.tm_year-1970,struct_time.tm_mon-1,

   struct_time.tm_mday-1,struct_time.tm_hour,

     struct_time.tm_min,struct_time.tm_sec))

计算时间差

6.random模块

>>> import random

#随机小数

>>> random.random()      # 大于0且小于1之间的小数

0.7664338663654585

>>> random.uniform(1,3) #大于1小于3的小数

1.6270147180533838

#恒富：发红包

#随机整数

>>> random.randint(1,5)  # 大于等于1且小于等于5之间的整数

>>> random.randrange(1,10,2) # 大于等于1且小于10之间的奇数

#随机选择一个返回

>>> random.choice([1,'',[4,5]])  # #1或者23或者[4,5]

#随机选择多个返回，返回的个数为函数的第二个参数

>>> random.sample([1,'',[4,5]],2) # #列表元素任意2个组合

[[4, 5], '']

#打乱列表顺序

>>> item=[1,3,5,7,9]

>>> random.shuffle(item) # 打乱次序

>>> item

[5, 1, 3, 7, 9]

>>> random.shuffle(item)

>>> item

[5, 9, 7, 1, 3]

示例

import random

def v_code():

    code = ''

    for i in range(5):

        num=random.randint(0,9)

        alf=chr(random.randint(65,90))

        add=random.choice([num,alf])

        code="".join([code,str(add)])

    return code

print(v_code())

生成随机验证码

7.os模块

os模块是与操作系统交互的一个接口

'''

os.getcwd() 获取当前工作目录，即当前python脚本工作的目录路径

os.chdir("dirname")  改变当前脚本工作目录；相当于shell下cd

os.curdir  返回当前目录: ('.')

os.pardir  获取当前目录的父目录字符串名：('..')

os.makedirs('dirname1/dirname2')    可生成多层递归目录

os.removedirs('dirname1')    若目录为空，则删除，并递归到上一级目录，如若也为空，则删除，依此类推

os.mkdir('dirname')    生成单级目录；相当于shell中mkdir dirname

os.rmdir('dirname')    删除单级空目录，若目录不为空则无法删除，报错；相当于shell中rmdir dirname

os.listdir('dirname')    列出指定目录下的所有文件和子目录，包括隐藏文件，并以列表方式打印

os.remove()  删除一个文件

os.rename("oldname","newname")  重命名文件/目录

os.stat('path/filename')  获取文件/目录信息

os.sep    输出操作系统特定的路径分隔符，win下为"\\",Linux下为"/"

os.linesep    输出当前平台使用的行终止符，win下为"\t\n",Linux下为"\n"

os.pathsep    输出用于分割文件路径的字符串 win下为;,Linux下为:

os.name    输出字符串指示当前使用平台。win->'nt'; Linux->'posix'

os.system("bash command")  运行shell命令，直接显示

os.popen("bash command).read()  运行shell命令，获取执行结果

os.environ  获取系统环境变量

os.path

os.path.abspath(path) 返回path规范化的绝对路径 os.path.split(path) 将path分割成目录和文件名二元组返回 os.path.dirname(path) 返回path的目录。其实就是os.path.split(path)的第一个元素 os.path.basename(path) 返回path最后的文件名。如何path以／或\结尾，那么就会返回空值。

                        即os.path.split(path)的第二个元素

os.path.exists(path)  如果path存在，返回True；如果path不存在，返回False

os.path.isabs(path)  如果path是绝对路径，返回True

os.path.isfile(path)  如果path是一个存在的文件，返回True。否则返回False

os.path.isdir(path)  如果path是一个存在的目录，则返回True。否则返回False

os.path.join(path1[, path2[, ...]])  将多个路径组合后返回，第一个绝对路径之前的参数将被忽略

os.path.getatime(path)  返回path所指向的文件或者目录的最后访问时间

os.path.getmtime(path)  返回path所指向的文件或者目录的最后修改时间

os.path.getsize(path) 返回path的大小

'''

注意：os.stat('path/filename') 获取文件/目录信息的结构说明

stat 结构:

st_mode: inode 保护模式

st_ino: inode 节点号。

st_dev: inode 驻留的设备。

st_nlink: inode 的链接数。

st_uid: 所有者的用户ID。

st_gid: 所有者的组ID。

st_size: 普通文件以字节为单位的大小；包含等待某些特殊文件的数据。

st_atime: 上次访问的时间。

st_mtime: 最后一次修改的时间。

st_ctime: 由操作系统报告的"ctime"。在某些系统上（如Unix）是最新的元数据更改的时间，在其它系统上（如Windows）是创建时间（详细信息参见平台的文档）。

8.sys 模块

sys模块是与python解释器交互的一个接口

sys.argv           命令行参数List，第一个元素是程序本身路径

sys.exit(n)        退出程序，正常退出时exit(0),错误退出sys.exit(1)

sys.version        获取Python解释程序的版本信息

sys.path           返回模块的搜索路径，初始化时使用PYTHONPATH环境变量的值

sys.platform       返回操作系统平台名称

正则表达式 re sys os random time 模块的更多相关文章

python---基础知识回顾（四）（模块sys,os,random,hashlib,re,序列化json和pickle，xml，shutil，configparser，logging，datetime和time，其他）
前提:dir,__all__,help,__doc__,__file__ dir:可以用来查看模块中的所有特性(函数,类,变量等) >>> import copy >>& ...
PYTHON-模块 sys os random shutil
import sys # 环境变量# print(sys.path)# # 查看已经加载的模块# print(sys.modules)# # 获取终端调用时的参数# print(sys.argv)# ...
PYTHON-模块 sys os random shutil-练习
# 作业:# 添加工程根目录至环境变量要求可以跨平台# import sys,os# BATH_DIR=os.path.dirname(os.path.dirname(__file__))# sys ...
python常用模块之sys, os, random
一. sys模块 1. 作用: sys模块是与python解释器交互的一个接口 2. 具体使用 1. sys.argv 获取当前正在执行的命令行列表, 第一个为程序本身路径 print('file n ...
sys,os,模块-正则表达式
# *__conding:utf-8__* """"我是注释""" sys,os模块 import sysimport os pr ...
第二十天模块 sys os os下path settings random shuit
一.sys模块 1.sys.argv 命令行参数List,第一个元素是程序本身路径 2.sys.exit(n) 退出程序,正常退出时exit(0) 3.sys.version 获取Pythonn解释程 ...
python常用模块collections os random sys
Python 模块(Module),是一个 Python 文件,以 .py 结尾,包含了 Python 对象定义和Python语句. 模块让你能够有逻辑地组织你的 Python 代码段. 把相关的代码 ...
python模块知识二 random -- 随机模块、序列化、os模块、sys -- 系统模块
4.random -- 随机模块 a-z:97 ~ 122 A-Z :65 ~ 90 import random #浮点数 print(random.random())#0~1,不可指定 print( ...
Python常用模块sys,os,time,random功能与用法，新手备学。
这篇文章主要介绍了Python常用模块sys,os,time,random功能与用法,结合实例形式分析了Python模块sys,os,time,random功能.原理.相关模块函数.使用技巧与操作注意 ...

随机推荐

删除node_modules文件夹
老版本的npm对有node_modules文件夹太长的问题,新版本就没有这个问题.2.7? npm install rimraf -g rimraf node_modules
mybatis实现一对多连接查询
问题:两个对象User和Score,它们之间的关系为一对多. 底层数据库为postgresql,ORM框架为mybatis. 关键代码如下: mybatis配置文件如下: mybatis.xml文件内 ...
ArcGIS案例学习笔记-点群密度统计
ArcGIS案例学习笔记-点群密度统计联系方式:谢老师,135-4855-4328,xiexiaokui#qq.com 目的:对于点群,统计分布密度数据: 方法: 1. 生成格网 2. 统计个数, ...
K-means聚类算法（转）
K-means聚类算法想想常见的分类算法有决策树.Logistic回归.SVM.贝叶斯等.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是 ...
KMP与AC自动机模板
HDU 1711 Number Sequence(KMP模板题) http://acm.hdu.edu.cn/showproblem.php?pid=1711 #include<bits/std ...
hive mysql 初始化
原文链接:https://juejin.im/post/59c3f8f75188255be81f91d9#heading-17 Apache Hive-2.3.0 快速搭建与使用 Hive 简介 Hi ...
C专家编程
[C专家编程] 1.如果写了这样一条语句: if(3=i).那么编程器会发出“attempted assignment to literal(试图向常数赋值)”的错误信息. 所以将常量放置在==前央, ...
sql 2012的补丁 SP4下载地址
https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=56040
python 多线程操作数据库
如果使用多线程操作数据库,容易引起多用户操作锁表 OperationalError: (2013, 'Lost connection to MySQL server during query') 使用 ...
766. Toeplitz Matrix
A matrix is Toeplitz if every diagonal from top-left to bottom-right has the same element. Now given ...

正则表达式 re sys os random time 模块

正则表达式 re sys os random time 模块的更多相关文章

随机推荐

热门专题