注:文章原文为Dr. Charles Severance 的 《Python for Informatics》。文中代码用3.4版改写,并在本机测试通过。

11.3 组合查询和抽取

  如果我们想以“X-”字符串开头的行中找到数字,就像下面两行字符串:

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000

  但我们不只是要任意行中的任意浮点数,而是具备上面格式的行中的数字。

  我们可以创建以下正则表达式来选择这样的行:

^X-.*: [0-9.]+

  这个表达式的含义是以“X-”两个字符开头,后面跟了任意个字符“.*",接着是一个冒号":"和空格" ",在空格之后呢是一个及以上的数字或小数点“[0-9.]+”。大家要注意的是方括号中的"[.]"不是匹配任何字符,而是匹配真正的".",这与方括号外的"."要予以区分。

  这是一个非常紧凑的表达式,它将非常匹配我们感兴趣的行:

  1. import re
  2. hand = open('mobx-short.txt')
  3. for line in hand:
  4. line = line.rstrip()
  5. if re.search('^X-.*: [0-9.]+', line)
  6. print(line)

  当我们运行这个程序,我们可以看到我们想要的数据被完美的过滤显示。

X-DSPAM-Confidence: 0.8475
X-DSPAM-Probability: 0.0000
X-DSPAM-Confidence: 0.6178
X-DSPAM-Probability: 0.0000

  但是我们必须使用split解决提取数字的问题。然而当这个问题简单到能用split解决时,我们可以使用正则表达式的另一特点,一步达到查找和解析功能。

  圆括号()是正则表达式中的另一特殊字符。当我们添加圆括号至表达式中,在字符串的匹配过程中它们将被忽略,但是当你使用findall()时,圆括号表示你想整个正则表达式被匹配,但是你只抽取位于圆括号内你感兴趣的那部分字符串。

  所以我们对程序修改如下:

  1. import re
  2. hand = open('mbox-short.txt')
  3. for line in hand:
  4. line = line.rstrip()
  5. x = re.findall('^X-.*: ([0-9.]+)', line)
  6. if len(x) > 0 :
  7. print(x)

  我们在正则表达式中对匹配浮点数字部分添加圆括号,并且用findall()代替search(),返回我们想要的浮点数字部分。这个程序的输出如下:

['0.8475']
['0.0000']
['0.6178']
['0.0000']
['0.6961']
['0.0000']
..

  虽然这些在列表中的数字还需要从字符串转换为浮点数,但是我们应用正则表达式的能力同时查找和抽取了我们感兴趣的的信息。

  下面是使用这个技巧的另一个案例。如果你查看文件,你会发现有许多行是这样的格式:

Details: http://source.sakaiproject.org/viewsvn/?view=rev&rev=39772

  如果我们想用同样的技巧抽取所有修订号(行末尾的整数),我们可以这样编写代码:

  1. import re
  2. hand = open('mbox-short.txt')
  3. for line in hand:
  4. line = line.rstrip()
  5. x = re.findall('^Details:.*rev=([0-9]+)', line)
  6. if len(x) > 0 :
  7. print(x)

  我们的正则表达式的是这样的,以"Details:"开头,之后可以是任意字符”.*",然后是"rev=",最后是一个以上的数字。我们希望行是匹配整个正则表达式,但我们只需要圆括号中"[0-9]+"的数字。当我们运行程序时,将得到以下输出:

['39772']
['39771']
['39770']
['39769']
...

  记住,"[0-9]+"是贪婪的,它将尝试抽取任何可能的数字,所以我们得到的每个字符串都有五个数字。正则表达式库在行的开头和结尾两个方向进行扩展,只到它数到一个非数字的字符。

  我们可以用正则表达式重做本书先前的一个练习。在这个练习中我们对每个邮件的时间感兴趣,我们寻找的行的格式如下:

From stephen.marquard@uct.ac.za Sat Jan 5 09:14:16 2008

  并且我们想抽取每一行中日期中的小时信息。先前我们通过两次调用split实现。第一次我们将行分离成单词,然后我们对第五个单词基于冒号再次分离,拉出我们感兴趣的两个字符。

  假定要查找的行是良好格式化的,那么只要想到少的代码就可以实现。但是当你为确保程序中碰到不具备这样格式而失效,而添加必要的错误检验(或者一个try/except块)时,这个代码将会膨胀到10-15行,并且难以读懂。

  我们可以用下面的正则表达式使工作更简单:

^From .* [0-9][0-9]:

  这个表达式的含义是以"From "开头(注意空格),然后跟着任意个字符".*",接着又是一个空格,然后是两个数字"[0-9][0-9]",再接着是一个冒号。我们要找的就是具备这样格式的行。

  为了在findall中只抽出表示小时的两位数字,我们将表达式修改如下:

^From .* ([0-9][0-9]):

  最后这个程序是这样的:

  1. import re
  2. hand = open('mbox-short.txt')
  3. for line in hand:
  4. line = line.rstrip()
  5. x = re.findall('ˆFrom .* ([0-9][0-9]):', line)
  6. if len(x) > 0 :
  7. print(x)

  程序运行结果如下:

['09']
['18']
['16']
['15']
...

Python for Informatics 第11章 正则表达式四(译)的更多相关文章

  1. Python for Informatics 第11章 正则表达式五(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 11.4 转义字符 之前我们在正 ...

  2. Python for Informatics 第11章 正则表达式六(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 11.7 调试 Python有一 ...

  3. Python for Informatics 第11章 正则表达式三(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 11.2 用正则表达式抽取数据 ...

  4. Python for Informatics 第11章 正则表达式二(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 11.1 正则表达式的字符匹配 ...

  5. Python for Informatics 第11章 正则表达式一(译)

    注:文章原文为Dr. Charles Severance 的 <Python for Informatics>.文中代码用3.4版改写,并在本机测试通过. 目前为止,我们一直在通读文件,查 ...

  6. #Python编程从入门到实践#第四章笔记

    #Python编程从入门到实践#第四章笔记   操作列表 ​​​1.遍历列表 使用for循环,遍历values列表 for value in values: print(value) 2.数字列表 使 ...

  7. python 3.5学习笔记(第四章)

    本章内容: 一..装饰器 二.生成器 三.迭代器 四.python中的内置方法 五.json & pickle 的数据序列化及反序列化 六.程序目录结构规范 七.补充内容 一.装饰器: 1.概 ...

  8. Python 迭代器、生成器、递归、正则表达式 (四)

    一.迭代器&生成器 1.迭代器仅仅是一容器对象,它实现了迭代器协议.它有两个基本方法: 1)next 方法 返回容器的下一个元素 2)_iter_方法 返回迭代器自身.迭代器可以使用内建的it ...

  9. 《python基础教程(第二版)》学习笔记 文件和素材(第11章)

    <python基础教程(第二版)>学习笔记 文件和素材(第11章) 打开文件:open(filename[,mode[,buffering]]) mode是读写文件的模式f=open(r' ...

随机推荐

  1. AE开发实现Spatial Join Analysis

    总体网上资料不多,包括esri帮助文档都写的很简单,没有各个string参数如match_option之类的可以输入的string限制,导致在摸索中gp.Execute时报错n回. 结合网上搜集资料及 ...

  2. Fedora 23 忘记root密码

    方法:进入单用户模式改密码 进入grub后,按e进入编辑模式.找到以“linux"开头的那一行,在末尾加” rw init=/bin/bash".ctrl-x启动 (grub2用c ...

  3. 基于dom的xss漏洞原理

    原文:http://www.anying.org/thread-36-1-1.html转载必须注明原文地址最近看到网络上很多人都在说XSS我就借着暗影这个平台发表下自己对这一块的一些认识.其实对于XS ...

  4. C# 异步

    private void GetHttpResponse() { var client = new Microsoft.HBase.Client.HBaseClient(new ClusterCred ...

  5. [NHibernate]事务

    目录 写在前面 文档与系列文章 事务 增删改查 总结 写在前面 上篇文章介绍了nhibernate的增删改查方法及增加修改操作,这篇文章将介绍nhibernate的事务操作. SQL Server中的 ...

  6. Linux下如何不停止服务,清空nohup.out文件

    tips:最近发现有不少人在百度这个问题,当初如易我也是初学者,随便从网上搜了一下,就转过来了,不过为了避免搜索结果同质化,为大家提供更翔实的参考,我将nohup.out相关知识整理汇总如下: 1.n ...

  7. sql语句修改列

    1.修改列名的常用语句 exec sp_rename '[dbo].[Table_1].[birthday]','birth'  --将表中列名为birthday改为birdh 属性不变,用的是数据库 ...

  8. 【Alpha】Daily Scrum Meeting第五次

    一.本次Daily Scrum Meeting主要内容 每个人学习情况 任务安排 界面设计问题,怎样让界面更好看? 二.任务安排 学号尾数 昨天做的任务 今天的任务 明天的任务 612 时间轴控件优化 ...

  9. java后端制作MD5加密

    由于一次业务的需要,我制作了一次密码的修改子业务. 当用户忘记密码的情况下,我需要动态的发给他一个6位的随机密码,通过即时通,短信,微信等.并同时修改数据库中的原密码为这6位的随机密码.让用户再去修改 ...

  10. liunx中计算机壳层

    什么是shell?shell是用C语言编写的程序.既是一种命令语言,又是一种程序设计语言.shell是一种应用程序,这个应用程序提供一个界面,用户通过这个界面访问系统内核的服务.在计算机科学中,She ...