Python中的文本（一）

本文主要记录和总结本人在阅读《Python标准库》一书，文本这一章节的学习和理解。

事实上在Python中，使用文本这种一些方法是特别经常使用的一件事。在一般的情况下，都会使用String这种一个类，应该算是Python中最基础的一个标准类了。

1.1 函数

string类中的capwords()和maketrans()。

capwords()的作用是将一个字符串中的全部单词的首字母大写。

maketrans()函数将创建转换表，能够translate()方法将一组字符改动成还有一组字符。这样的做法比重复调用replace()更为高效。

string中有一个叫模板的功能。

相同是用来做字符的拼接的。

高级的模板能够改动string.Template的默认语法，为此须要调整它在模板中查找变量名所使用的正則表達式。

#############################################################

#test about matetrans()

leet = string.maketrans('asdfghjk', '12345678')

print s.translate(leet)

print s

#############################################################

#test about Template()

values = {'var':'foo'}

t=string.Template("""

Variable        : $var

Escape          : $$

Variable in text: ${var}iable

""")

print 'TEMPLATE:', t.substitute(values)

s="""

Variable        : %(var)ss

Escape          : %%

Variable in text: %(var)sssssiable

"""

print 'INTERPOLATION:', s%values

1.2 textwrap()——格式化文本段落

作用：通过调整换行符在段落中出现的位置来格式化文本。

1.3 re-正則表達式

作用：使用形式化模式搜索和改动文本。

regular expression。

1.3.1 re中搜索文本中的模式。

import re

print '-'*30

#about regular expression search()

pattern = 'this'

text='Does this text match the pattern?'

match = re.search(pattern, text)

s=match.start()

e=match.end()

print 'Dound "%s" \nin "%s" \nfrom %d to %d ("%s")' % \

       (match.re.pattern,match.string,s,e,text[s:e])

#start()和end()方法能够给出字符串中对应的索引。

1.3.2 编译正則表達式

re包括一些模块级的函数。用于处理作为文本字符串的正則表達式。对于频繁使用的表达式，编译这些表达式会更加的高效。

compile()函数会把一个表达式字符串转换成为一个RegexObject。

print '-'*30

#about the Compile()

regexes=[re.compile(p)

         for p in ['this','that']

         ]

text='Does this text match the pattern?'

print 'Text: %r\n' % text

for regex in regexes:

    print 'seeking "%s" ->' % regex.pattern

    if regex.search(text):

        print 'match!'

    else:

        print 'no match!'

模块级函数会维护已编译表达式的一个缓存。可是这个缓存的大小是有限的。直接使用已编译的表达式能够避免缓存查找开销。使用已编译表达式的还有一个优点是，把编译的过程进行了提前。在某种程度上优化了程序执行过程中的效率。

1.3.3 多重匹配

search()在前面中，是用来查找文本字符串中的单个实例。

findall()函数会返回输入中与模式匹配的，而不重叠的全部子串。

print '-'*30

#about the findall()

text = 'bbbbbababbababbabbbaba'

pattern = 'ba'

for match in re.findall(pattern, text):

    print match

print '-'*30

#about the finditer()

#finditer会返回一个迭代器，能够生成match实例。而不像findall()是直接返回的字符串。

text='aaaadaaaaadadadada'

pattern='da'

for match in re.finditer(pattern,text):

    s=match.start()

    e=match.end()

    print 'Found "%s" at %d:%d' % (text[s:e],s,e)

1.3.4 模式语法

Python的正則表達式的模式语法。

1.3.5 限制搜索

假设提前已经知道仅仅须要搜索整个输入的一个子集，能够告诉re先知搜索范围，从而进一步约束正則表達式。

print '-'*30

#一种iterall()的不太高效的实现方式。

text='this is some text -- with punctuation.'

pattern=re.compile(r'\b\w*is\w*\b')

print 'text:', text

pos=0

while True:

    match=pattern.search(text,pos)

    print match

    if not match:

        break

    s=match.start()

    e=match.end()

    print s,e

    print '%d: %d = "%s"' % (s,e-1,text[s:e])

    pos=e

Python中的文本（一）的更多相关文章

python中的文本操作
python如何进行文本操作 1.能调用方法的一定是对象,比如数值.字符串.列表.元组.字典,甚至文件也是对象,Python中一切皆为对象. str1 = 'hello' str2 = 'world' ...
python中使用%与.format格式化文本
初学python,看来零零碎碎的格式化文本的方法,总结一下python中格式化文本的方法.使用不当的地欢迎指出谢谢. 1.首先看使用%格式化文本常见的占位符: 常见的占位符有: %d 整数 %f 浮 ...
使用Python中的NLTK和spaCy删除停用词与文本标准化
概述了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatizatio ...
Python数据类型之“文本序列(Text Sequence)”
Python中的文本序列类型 Python中的文本数据由str对象或字符串进行处理. 1.字符串字符串是Unicode码值的不可变序列.字符串字面量有多种形式: 单引号:'允许嵌入"双&q ...
【转】Python数据类型之“文本序列(Text Sequence)”
[转]Python数据类型之“文本序列(Text Sequence)” Python中的文本序列类型 Python中的文本数据由str对象或字符串进行处理. 1.字符串字符串是Unicode码值的不 ...
Pandas: 如何将一列中的文本拆分为多行？ | Python
Pandas: 如何将一列中的文本拆分为多行? 在数据处理过程中,经常会遇到以下类型的数据: 在同一列中,本该分别填入多行中的数据,被填在一行里了,然而在分析的时候,需要拆分成为多行. 在上图中,列名 ...
学习笔记--python中使用多进程、多线程加速文本预处理
一.任务描述最近尝试自行构建skip-gram模型训练word2vec词向量表.其中有一步需要统计各词汇的出现频率,截取出现频率最高的10000个词汇进行保留,形成常用词词典.对于这个问题,我建立了 ...
使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies（二）（转）
对搜索引擎.文件索引.文档转换.数据检索.站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理.事实上,通过 Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览 ...
[译]使用BeautifulSoup和Python从网页中提取文本
如果您要花时间浏览网页,您可能遇到的一项任务就是从HTML中删除可见的文本内容. 如果您使用的是Python,我们可以使用BeautifulSoup来完成此任务. 设置提取首先,我们需要获取一些HT ...

随机推荐

51nod 多重背包问题（二进制优化）
有N种物品,每种物品的数量为C1,C2......Cn.从中任选若干件放在容量为W的背包里,每种物品的体积为W1,W2......Wn(Wi为整数),与之相对应的价值为P1,P2......Pn(Pi ...
Java并发包之CountDownLatch用法
CountDownLatch计数器闭锁是一个能阻塞主线程,让其他线程满足特定条件下主线程再继续执行的线程同步工具. Latch闭锁的意思,是一种同步的工具类.类似于一扇门:在闭锁到达结束状态之前,这扇 ...
转：向IOS设备发送推送通知
背景 SMS 和 MMS 消息是由无线运营商通过设备的电话号码向特定设备提供的.实现 SMS/MMS 的服务器端应用程序的开发人员必须费大量精力才能与现有的封闭电信基础架构进行交互(其中包括获取电话号 ...
call 方法和 apply方法
1.方法定义 call方法: 语法:call([thisObj[,arg1[, arg2[, [,.argN]]]]]) 定义:调用一个对象的一个方法,以另一个对象替换当前对象. 说明: call ...
分享一个表格插入和删除编辑功能用jQuery实现
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
HDU——T 3336 Count the string
http://acm.hdu.edu.cn/showproblem.php?pid=3336 Time Limit: 2000/1000 MS (Java/Others) Memory Limi ...
start_kernel----lcokdep_init
void lockdep_init(void) { int i; /* * Some architectures have their own start_kernel() * code which ...
android 自己定义控件属性（TypedArray以及attrs解释）
近期在捣鼓android 自己定义控件属性,学到了TypedArray以及attrs.在这当中看了一篇大神博客Android 深入理解Android中的自己定义属性.我就更加深入学习力一番.我就沿着这 ...
11.Bean2Document-BEAN转document
1. package com.glodon.gspm.adapter.plugin.common; import com.glodon.cloudt.tenancy.context.TenantCon ...
Emmet学习教程
Emmet (前身为 Zen Coding) 是一个能大幅度提高前端开发效率的一个工具,Emmet是很成熟的并且非常适用于编写HTML/XML 和 CSS 代码的前端开发人员,但也可以用于编程语言.所 ...

Python中的文本（一）

Python中的文本（一）的更多相关文章

随机推荐

热门专题