Python高级编程–正则表达式（习题）

原文：http://start2join.me/python-regex-answer-20141030/

###########################################
#########Exercises after Chapter 15th ##########
###########################################

相关学习书籍：《Python核心编程》第十五章——正则表达式习题与答案。

正则表达式相关知识：

章节练习题及答案：
所有程序首行加入引入re模块代码：

import re

#15-1:识别下列字符串：bat、bit、but、hat、hit、或hut。

print('''

#15-1:识别下列字符串：bat、bit、but、hat、hit、或hut。

''')

strList = ['bat', 'bit', 'but', 'hat', 'hit', 'hut']

for c in strList:

    print (re.match(r'[bh][aiu]t', c).group())

#15-2:匹配用一个空格分隔的任意一对单词，比如名和姓。

print('''

#15-2:匹配用一个空格分隔的任意一对单词，比如名和姓。

''')

result = re.match(r'[A-Za-z]+\s[A-Za-z]+', 'Jim Green')

print(result.group())

#15-3:匹配用一个逗号和一个空格分开的一个单词和一个字母。例如英文人名中的姓和名的首字母。

print('''

#15-3:匹配用一个逗号和一个空格分开的一个单词和一个字母。

例如英文人名中的姓和名的首字母。

''')

result = re.match(r'([A-Za-z]\.)+?\s[A-Za-z]+', 'J. Green')

print(result.group())

#15-4:匹配所有合法的Python标识符。注：字母下划线打头，后面接任意数字字母和下划线

print('''

#15-4:匹配所有合法的Python标识符。

注：字母下划线打头，后面接任意数字字母和下划线

''')

valueList = ['10_mys', '_myValue09', 'Post99', \

             '*hahah', 'list@%']

for c in valueList:

    result = re.match(r'[a-zA-Z_][\w_]+$', c)

    if result:

        print(c+':'+result.group())

    else:

        print(c+':Illegal...')

#15-6:匹配简单的以www.开头以.com结尾的web域名。例如www.baidu.com。附加题：使你写的表达式还支持其他的顶级域名。如：.edu, .net等。

print('''

#15-6:匹配简单的以www.开头以.com结尾的web域名。例如www.baidu.com。

附加题：使你写的表达式还支持其他的顶级域名。如：.edu, .net等。

''')

comList = ['com', 'edu', 'net']

result = re.match(r'www.\w+.com', 'www.baidu.com')

print(result.group(0))

result = re.match(r'www[.\w]+', 'www.yahoo.net')

if result:

    print(result.group(0))

#15-7:匹配全体Python整形的字符串表示形式的集合

print('''

#15-7:匹配全体Python整形的字符串表示形式的集合

''')

result = re.match(r'\d+[Ll]?', '43545464')

print(result.group(0))

#15-8:匹配全体Python长整形的字符串表示形式的集合

print('''

#15-8:匹配全体Python长整形的字符串表示形式的集合

''')

result = re.match(r'\d+[Ll]', '43545464L')

print(result.group(0))

#15-9:匹配全体Python浮点形的字符串表示形式的集合

print('''

#15-9:匹配全体Python浮点形的字符串表示形式的集合

''')

result = re.match(r'\d+\.?\d+', '43545464.00001')

print(result.group(0))

#15-10:匹配全体Python复数形的字符串表示形式的集合

print('''

#15-10:匹配全体Python复数形的字符串表示形式的集合

''')

result = re.match(r'\d+\.?\d+\+\d+\.?\d+j', '4.5+0.1j')

print(result.group(0))

#15-11:匹配所有电子邮件的字符串表示形式的集合

print('''

#15-11:匹配所有电子邮件的字符串表示形式的集合

''')

result = re.match(r'\w+@(\w+\.)*\w+', 'jim@host.cool.com')

print(result.group(0))

#15-12:匹配所有web网站地址的字符串表示形式的集合

print('''

#15-12:匹配所有web网站地址的字符串表示形式的集合

''')

result = re.match(r'\w+(\w+\.)*\w+', 'www.host.cool.com')

print(result.group(0))

#15-13:匹配标准日历上的前9个月

print('''

#15-13:匹配标准日历上的前9个月

''')

result = re.match(r'0?[1-9]', '07')

print(result.group(0))

#15-14:匹配标准日历上的后三个月

print('''

#15-14:匹配标准日历上的后三个月

''')

result = re.match(r'1[0-2]', '11')

print(result.group(0))

#15-15:信用卡问题：15位信用卡的格式是4-6-5。16位的信用卡格式是4-4-4-4，位数不足则添0补充。

print('''

#15-15:信用卡问题：

15位信用卡的格式是4-6-5。

16位的信用卡格式是4-4-4-4，位数不足则添0补充。

''')

cardNo = '1321-1544-6511-0001'

result = re.findall(r'(\d)', cardNo)

if 16 == len(result):

    reResult = re.match(r'[\d]{4}-[\d]{4}-[\d]{4}-[\d]{4}', \

                       cardNo)

    if reResult:

        print('It is OK!')

    else:

        print('It is Illegal...')

elif 15 == len(result):

    reResult = re.match(r'[\d]{4}-[\d]{6}-[\d]{5}', cardNo)

    if reResult:

        print('It is OK!')

    else:

        print('It is Illegal...')

else:

    print('It is Illegal...')

#15-16:修改getdata.py，将生成的数据存入redate.txt中。

print('''

#15-16:修改getdata.py，将生成的数据存入redate.txt中。

''')

from random import randint, choice

import string

from time import ctime

lowercase = []

for c in 'abcdefghijklmnopqrstuvwxyz':

    lowercase.append(c)

maxint = 23554545646

doms = ('com', 'edu', 'net', 'org', 'gov')

f = open('redata.txt', 'w+')

for i in range(randint(5, 10)):

    dtint = randint(0, maxint - 1)

    dtstr = ctime(dtint)

    shorter = randint(4, 7)

    em = ''

    for j in range(shorter):

        em += choice(lowercase)

    longer = randint(shorter, 12)

    dn = ''

    for j in range(longer):

        dn += choice(lowercase)

    f.write('%s::%s@%s.%s::%d-%d-%d\n' %

          (dtstr, em, dn, choice(doms), \

          dtint, shorter, longer))

    print('%s::%s@%s.%s::%d-%d-%d' %

          (dtstr, em, dn, choice(doms), \

          dtint, shorter, longer))

f.close();

#15-17:统计redata.txt中各星期出现的次数。

print('''

#15-17:统计redata.txt中各星期出现的次数。

''')

mon, tue, wed, thu, fri, sat, sun = 0, 0, 0, 0, 0, 0, 0

with open('redata.txt', 'r') as f:

    for line in f:

        result = re.match(r'^[\w]{3}', line)

        if result.group() == 'Mon':

            mon += 1

        elif result.group() == 'Tue':

            tue += 1

        elif result.group() == 'Wed':

            wed += 1

        elif result.group() == 'Thu':

            thu += 1

        elif result.group() == 'Fri':

            fri += 1

        elif result.group() == 'Sat':

            sat += 1

        elif result.group() == 'Sun':

            fri += 1

print('%s\t%s\t%s\t%s\t%s\t%s\t%s' \

     % ('mon', 'tue', 'wed', 'thu', 'fri', 'sat', 'sun'))

print('%d\t%d\t%d\t%d\t%d\t%d\t%d\n' \

     % (mon, tue, wed, thu, fri, sat, sun))

f.close()

#15-18:通过正文部分的整形与时间戳进行比较，判断文件是否完整。

print('''

#15-18:通过正文部分的整形与时间戳进行比较，判断文件是否完整。

''')

with open('redata.txt', 'r') as f:

    for line in f:

        timeStr = re.match(r'.+\s\d{4}', line)

        timeInt = re.match(r'.+::(\d+)-', line)

        if ctime(int(timeInt.group(1))) != timeStr.group(0):

            print(ctime(int(timeInt.group(1))))

            print('File is Error...')

            break;

#15-19:提取每行中完整的时间戳字段。

print('''

#15-19:提取每行中完整的时间戳字段。

''')

with open('redata.txt', 'r') as f:

    for line in f:

        timeStr = re.match(r'.+\s\d{4}', line)

        print(timeStr.group(0))

#15-20:提取每行中完整的电子邮件字段。

print('''

#15-20:提取每行中完整的电子邮件字段。

''')

with open('redata.txt', 'r') as f:

    for line in f:

        mailStr = re.match(r'.+::(.+)::', line)

        print(mailStr.group(1))

#15-21:只提取每行中的月份。

print('''

#15-21:只提取每行中的月份。

''')

with open('redata.txt', 'r') as f:

    for line in f:

        mailStr = re.match(r'.+\s([\w]{3})\s', line)

        print(mailStr.group(1))

#15-22:只提取每行中的年份。

print('''

#15-22:只提取每行中的年份。

''')

with open('redata.txt', 'r') as f:

    for line in f:

        mailStr = re.match(r'.+\s([\w]{4})::', line)

        print(mailStr.group(1))

#15-23:只提取每行中的时间字段（HH:MM:SS）。

print('''

#15-23:只提取每行中的时间字段（HH:MM:SS）。

''')

with open('redata.txt', 'r') as f:

    for line in f:

        mailStr = re.match(r'.+\d\s(.+)\s\d', line)

        print(mailStr.group(1))

#15-24:只提取电子邮件中登录名和域名(连接提取).

print('''

#15-24:只提取电子邮件中登录名和域名(连接提取).

''')

with open('redata.txt', 'r') as f:

    for line in f:

        mailStr = re.match(r'.+::(.+)\.', line)

        print(mailStr.group(1))

#15-25:只提取电子邮件中登录名和域名(分别提取)。

print('''

#15-25:只提取电子邮件中登录名和域名(分别提取)。

''')

with open('redata.txt', 'r') as f:

    for line in f:

        nameStr = re.match(r'.+::(\w+)@', line)

        zoneStr = re.match(r'.+@(\w+)\.', line)

        print(nameStr.group(1) + '-->' + zoneStr.group(1))

#15-26:将每行的电子邮件替换为你自己的电子邮件地址。

print('''

#15-26:将每行的电子邮件替换为你自己的电子邮件地址。

''')

lines = []

with open('redata.txt', 'r') as r:

    for line in r:

        nameStr = re.sub(r'\w+@\w+\.\w+', \

                        'cf@host.com', line)

        lines.append(nameStr)

with open('redata.txt', 'w+') as w:

    for line in lines:

        w.write(line)

with open('redata.txt', 'r') as r:

    for line in r:

        print(line)

#15-27:提取出时间戳中的月日年，并按照’月日，年’显示出来(每行只遍历一次)。

print('''

#15-27:提取出时间戳中的月日年，

并按照'月 日， 年'显示出来(每行只遍历一次)。

''')

with open('redata.txt', 'r') as f:

    for line in f:

        dateStr = \

        re.match( \

           r'.+\s([\w]{3}[\s]{1,2}[\d]{1,2})\s.+\s(\d+):', \

           line)

        print(dateStr.group(1) + ', ' + dateStr.group(2))

#15-28:提取电话号码3-3-4，要求区号是可选的(800-555-1212和555-1212都可以匹配)。

print('''

#15-28:提取电话号码3-3-4，要求区号是可选的。

(800-555-1212和555-1212都可以匹配)。

''')

numList = ['800-555-1212', '555-1212']

for nums in numList:

    number = re.match(r'(\d{3}-)?\d{3}-\d{4}', nums)

    print(number.group())

#15-29:提取电话号码3-3-4，要求区号可以包含园括号或是连字符，他们是可选的(800-555-1212、555-1212或(800)555-1212都可以匹配)。

print('''

#15-29:提取电话号码3-3-4，要求区号可以包含园括号或是连字符，

他们是可选的(800-555-1212、555-1212或(800)555-1212都可以匹配)。

''')

numList = ['800-555-1212', '555-1212', '(800)555-1212']

for nums in numList:

    number = \

    re.match(r'(\(\d{3}\)|(\d{3}-))?\d{3}-\d{4}', nums)

    print(number.group())

Python高级编程–正则表达式（习题）的更多相关文章

python高级编程：有用的设计模式3
# -*- coding: utf-8 -*-__author__ = 'Administrator'#python高级编程:有用的设计模式#访问者:有助于将算法从数据结构中分离出来"&qu ...
python高级编程：有用的设计模式2
# -*- coding: utf-8 -*- __author__ = 'Administrator' #python高级编程:有用的设计模式 #代理 """ 代理对一 ...
python高级编程：有用的设计模式1
# -*- coding: utf-8 -*-__author__ = 'Administrator'#python高级编程:有用的设计模式#设计械是可复用的,某种程序上它对软件设计中觉问题提供的语言 ...
python高级编程技巧
由python高级编程处学习 http://blog.sina.com.cn/s/blog_a89e19440101fb28.html Python列表解析语法[]和生成器()语法类似 [expr ...
python高级编程之选择好名称:完
由于时间关系,python高级编程不在放在这边进行学习了,如果需要的朋友可以看下面的网盘进行下载 # # -*- coding: utf-8 -*- # # python:2.x # __author ...
python高级编程读书笔记（一）
python高级编程读书笔记(一) python 高级编程读书笔记,记录一下基础和高级用法 python2和python3兼容处理使用sys模块使程序python2和python3兼容 import ...
python高级编程之列表推导式
1. 一个简单的例子在Python中,如果我们想修改列表中所有元素的值,可以使用 for 循环语句来实现. 例如,将一个列表中的每个元素都替换为它的平方: >>> L = [1, ...
Python高级编程之生成器(Generator)与coroutine(二):coroutine介绍
原创作品,转载请注明出处:点我上一篇文章Python高级编程之生成器(Generator)与coroutine(一):Generator中,我们介绍了什么是Generator,以及写了几个使用Gen ...
Python高级编程-Python一切皆对象
Python高级编程-Python一切皆对象 Python3高级核心技术97讲笔记 1. Python一切皆对象 1.1 函数和类也是对象,属于Python的一等公民 ""&qu ...

随机推荐

单源最短路径-Dijkstra算法
1.算法标签贪心 2.算法描述具体的算法描述网上有好多,我觉得莫过于直接wiki,只说明一些我之前比较迷惑的. 对于Dijkstra算法,最重要的是维护以下几个数据结构: 顶点集合S : 表示已经 ...
一个相当好的状态机(DFA, 确定有限状态机)的编码实现，相当简洁漂亮
从jsoup而来,文章见: https://github.com/code4craft/jsoup-learning/blob/master/blogs/jsoup4.md 状态机 Jsoup的词法分 ...
应用dom4j读取xml的例子
1. 样例xml <?xml version="1.0" encoding="UTF-8"?> <students> <stude ...
Codeforces 660 C. Hard Process (尺取)
题目链接:http://codeforces.com/problemset/problem/660/C 尺取法 #include <bits/stdc++.h> using namespa ...
typedef block
给同一种类型的block定义一个别名 typedef int (^MyBlock) (int , int); int main(int argc, const char * argv[]) { @au ...
OC：属性、点语法、KVC
//属性的属性属性定义在一个 .h文件里,在这个.h文件里可以定义实例变量(就是这个类的特征),也可以通过 @protery(属性约束关键字) 属性名字类型属性名来定义一些属性,在prope ...
ActiveMQ简介与安装
开源消息总线支持JMS1.1和J2EE 1.4规范的 JMS Provider实现(持久化,XA消息,事务) 对Spring的支持,ActiveMQ可以很容易内嵌到使用Spring的系统里面去支持 ...
AS:加载新版本的SWF文件。
方案一: 文件名+版本号,区别对待不同的版本控制,有设定值后会加上_v_x的后缀名.如:加载主文件 main.swf, 被命名为:Main_v_60.swf . 方案二: loader.load(ne ...
springboot 学习笔记（一）
引子最近在搞一个项目,走在科技前沿的师兄, 摒弃了公司老套的框架模式, 采用了springboot搭建新应用.看到如此简洁的代码 , 深受诱惑.趁周末闲余之时, 背晒阳光, 学起了springboo ...
mvvm架构使用解析
配置 android studio目前已经集成了dataBinding,只需在build.gradle中配置,如下: android { dataBinding { enabled = true; } ...

Python高级编程–正则表达式（习题）

Python高级编程–正则表达式（习题）的更多相关文章

随机推荐

热门专题