Python文本处理(1)
每次处理一个字符
解决方法:
创建列表
thestring='abcdefg'
thelist=list(thestring)
print thelist
结果
['a', 'b', 'c', 'd', 'e', 'f', 'g']
使用for语句循环遍历
thestring='abcdefg'
for c in thestring:
print c
使用列表推导式 (注意这里使用ord表示将字符转为字符值,例如a转为97)
thestring='abcdefg'
results=map(ord,thestring)
print results
讨论:
想要获得字符串中所有字符的集合,调用sets.Set
import sets
magic_chars=sets.Set('abracadabra')
poppins_chars=sets.Set('supercalifragilisticexpialidocious')
print ''.join(magic_chars & poppins_chars)
字符和字符值之间的转换
解决方法:
使用函数ord和chr
print ord('a')
print chr(97)
测试一个对象是否为一个类字符串(对象是否有字符串的行为模式)
解决方法:
使用isinstance和basestring检查
def isAString(anobj):
return isinstance(anobj,basestring) anobj='abcde'
print isAString(anobj)
otherobj=list(anobj)
print isAString(otherobj)
字符串对齐(左对齐、居中对齐、右对齐)
解决方法:
使用string对象的ljust、rjust和center,参数指明宽度
print '|','hey'.ljust(20),'|','hey'.rjust(20),'|','hey'.center(20),'|'
讨论:
可以不打印空格,而以其他字符打印,只需增加第二个参数
print 'hey'.center(20,'+')
去除字符串两端的空格
解决方法:
使用string对象的lstrip、rstrip和strip
x=' hey '
print '|',x.lstrip(),'|',x.rstrip(),'|',x.strip(),'|'
合并字符串
解决方法;
使用字符串操作符join
x=['I','Love','Python']
largestring=' '.join(x)
print largestring
同样,使用最基本的%也可以达到这样的效果
x=('I','Love','Python')
largestring='%s %s %s !' % x
print largestring
讨论:
当然,使用字符串的+操作似乎能够获得更加简洁的操作,但别忘了,在python中,字符串是无法改变的,任何的改动都将会创建当前字符串的一个副本,当有大量的小段的字符串相加时,所创建的副本正比于其平方,此时使用join方式就是一个必要的选择了。当需要在创建的新的字符串中添加额外的内容时,使用%较为方便。
将字符串逐字符或逐词反转
解决方法:
使用步长为-1的切片方法
astring='I Love Python'
revchars=astring[::-1]
print revchars 结果
nohtyP evoL I
按照单词进行反转,则需要创建一个单词的列表,将列表反转,最后使用join合并
astring='I Love Python'
revwords=' '.join(astring.split()[::-1])
print revwords 结果
Python Love I
想要逐词反转但又不想改变原先的空格,使用正则表达式分割原字符串
import re
astring='I Love Python'
revwords=' '.join(re.split(r'(\s+)',astring)[::-1])
print revwords 结果
Python Love I
检查字符串中是否包含某字符集合中的字符
解决方法:
最简单的方法如下
def containAny(seq,aset):
for c in seq:
if c in aset:
return True
return False seq='abc'
aset='hjkyuia'
print containAny(seq,aset)
也可以使用基于标准库itertools模块的方法,不过本质上使用的相同的方法
import itertools
def containAny(seq,aset):
for item in itertools.ifilter(aset.__contains__,seq):
return True
return False seq='abc'
aset='ghjka'
print containAny(seq,aset)
检查一个字符串是文本还是二进制
解决方法:
还没有精确的算法,不过可以使用一些启发式方法,如果字符串中包含了空值或者有超过30%的高位被置为1或是奇怪的控制码,就认为这段数据是二进制数据
控制大小写(大小写转换)
解决方法:
使用upper和lower方法比较简单,但一般使用更多的是capitalize和title方法
print 'one tWo thrEe'.capitalize()
print 'one tWo thrEe'.title() 结果
One two three
One Two Three
Python文本处理(1)的更多相关文章
- 算是休息了这么长时间吧!准备学习下python文本处理了,哪位大大有好书推荐的说下!
算是休息了这么长时间吧!准备学习下python文本处理了,哪位大大有好书推荐的说下!
- Python 文本解析器
Python 文本解析器 一.课程介绍 本课程讲解一个使用 Python 来解析纯文本生成一个 HTML 页面的小程序. 二.相关技术 Python:一种面向对象.解释型计算机程序设计语言,用它可以做 ...
- python 文本分类
python 文本分类 pyhton 机器学习 待续...
- python文本 maketrans和translate
python文本 maketrans和translate 场景: 过滤字符串的某些字符,我们从例子出发 >>> tb=str.maketrans ('abc','123') & ...
- python文本 字符串逐字符反转以及逐单词反转
python文本 字符串逐字符反转以及逐单词反转 场景: 字符串逐字符反转以及逐单词反转 首先来看字符串逐字符反转,由于python提供了非常有用的切片,所以只需要一句就可以搞定了 >>& ...
- python文本 拼接或合并字符串
python文本 拼接.合并字符串 场景: 拼接.合并字符串 在这个场景中,我们首先想到的当然是使用+或者+=将两个字符串连接起来 >>> a='a' >>> ...
- python文本 去掉字符串前后空格
python文本 去掉字符串前后空格 场景: 去掉字符串前后空格 可以使用strip,lstrip,rstrip方法 >>> a="abc".center (30 ...
- python文本 判断对象里面是否是类字符串
python文本 判断对象里面是否是类字符串 场景: 判断对象里面是否是类字符串 一般立刻会想到使用type()来实现 >>> def isExactlyAString(obj): ...
- python文本 单独处理每个字符的方法汇总
python文本 单独处理字符串每个字符的方法汇总 场景: 用每次处理一个字符的方式处理字符串 方法: 1.使用list(str) >>> a='abcdefg' >&g ...
- python文本 字符串开头或者结尾匹配
python文本 字符串开头或者结尾匹配 场景: 字符串开头或者结尾匹配,一般是使用在匹配文件类型或者url 一般使用startwith或者endwith >>> a='http:/ ...
随机推荐
- 网上下载的“上下3D”和“左右3D”影片该如何播放?
我们平常买的红蓝3D眼镜智能播放红蓝3D片源.网上找3D电影的时候,虽试图去找红蓝3D格式电影,但总会找到不少“左右格式”或者"上下格式"影片.正常播放后发现有两重画面.这种3D电 ...
- 英文论文中“such as, for example, e.g., i.e., etc., et al. ”的用法分析 (转)
在英文论文的编辑加工中,常会遇到such as, for example, e. g. , i. e. , etc. 和et al. 的错误及混淆使用.这里,举例分析这几个词的意义,并阐述其正确用法. ...
- poj 2001 Shortest Prefixes(字典树)
题目链接:http://poj.org/problem?id=2001 思路分析: 在Trie结点中添加数据域childNum,表示以该字符串为前缀的字符数目: 在创建结点时,路径上的所有除叶子节点以 ...
- [置顶] JDK-CountDownLatch-实例、源码和模拟实现
Conception A synchronization aid that allows one or more threads to wait until a set of operations b ...
- use MSBuild cmd to build and deploy the database project.
You can use the below command to implement it. SET TargetDBName="Database name" SET DataBa ...
- Aspx 页面生命周期
ASP.NET 页运行时,此页将经历一个生命周期,在生命周期中将执行一系列处理步骤.这些步骤包括初始化.实例化控件.还原和维护状态.运行事件处理程序代码以及进行 呈现.了解页的生命周期非常重要,这样就 ...
- SharePoint将网站另存为模板
1.将网站另存为模板 参考文章 http://blog.csdn.net/dyp330/article/details/23180843 http://blog.163.com/berlin1989@ ...
- Aop编程--注解与xml的实现
一.注解方式 1.首先引入spring对于aop编程的jar支持包,spring框架没有的包请自行在网上下载. aopalliance-alpha1.jar aspectjrt.jar aspectj ...
- Vmware中Ubuntu挂ISO到虚拟光驱
Ubuntu 下挂ISO到虚拟光驱的方法 https://i.cnblogs.com/EditPosts.aspx?opt=1 如果要ubuntu找到rpm软件包,需要把iso挂载到/media/cd ...
- Linux输入子系统(Input Subsystem)
Linux输入子系统(Input Subsystem) http://blog.csdn.net/lbmygf/article/details/7360084 input子系统分析 http://b ...