用python处理文本数据学到的一些东西

最近写了一个python脚本，用TagMe的api标注文本，并解析返回的json数据。在这个过程中遇到了很多问题，学到了一些新东西，总结一下。

1. csv文件处理

csv是一种格式化的文件，由行和列组成，分隔符可以根据需要发生变化。只有分隔符为逗号','时，才会在excel中显示为列。

python的csv模块提供了reader和writer函数来读写csv格式的数据。

csv.reader(csvfile, dialect='excel', **fmtparams)

csv.writer(csvfile, dialect='excel', **fmtparams)

csvfile要是可以支持迭代操作的对象，比如file object或者是list object。

**If csvfile is a file object, it must be opened with the ‘b’ flag on platforms where that makes a difference.

csv模块不支持Unicode字符的输入，所有的输入应该是UTF-8编码或者ASCII。

官方文档：https://docs.python.org/2/library/csv.html

2.字符编码

python 2的默认字符编码是ASCII，因此在处理的字符流不属于ASCII范围时，就会抛出异常UnicodeEncodeError:......：ordinal not in range(128)。

一种解决的方法是修改python 2的默认编码，可以直接在程序中声明：

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

但是这种方法会给程序留下一些bug，具体可参考：

http://blog.ernest.me/post/python-setdefaultencoding-unicode-bytes

3. json处理

python提供了json模块，可以用来解析json格式的字符串或者文件。

json.dump(obj, fp, skipkeys=False, ensure_ascii=True, check_circular=True,allow_nan=True, cls=None, indent=None, separators=None, encoding="utf-8",default=None, sort_keys=False, **kw)

将一个object序列化为一个json格式的数据流，并输出到file object中。

json.dumps(obj, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None,separators=None, encoding="utf-8", default=None, sort_keys=False, **kw)

将一个object序列化为一个json格式的字符串。

json.load(fp[, encoding[, cls[, object_hook[, parse_float[, parse_int[, parse_constant[, object_pairs_hook[, **kw]]]]]]]])

将一个json格式的file object加载为python object。

json.loads(s[, encoding[, cls[, object_hook[, parse_float[, parse_int[, parse_constant[, object_pairs_hook[,**kw]]]]]]]])

将一个json格式的字符串加载为python object。

官方文档：https://docs.python.org/2.7/library/json.html?highlight=json

4. traceback

python提供了处理异常栈的模块traceback，可以提供当前异常的具体信息，如异常位置、出现异常的语句、异常类型等。

traceback.print_exc(file=sys.stdout) #在终端中输出异常信息

fp=open("error.txt",'w')

traceback.print_exc(file=fp) #将错误信息输出到文件中

traceback.format_exc() #将错误信息转化为字符串类型

关于python traceback模块可以参考这篇博客：http://www.tuicool.com/articles/f2uumm

5. 格式化输出

http://www.pythondoc.com/pythontutorial3/inputoutput.html

6. 文件重命名

import os

os.rename(src,dst)

src——要修改的文件名，dst——修改后的文件名。

重命名时，如果新文件名已经存在，就会报‘WindowsError: [Error 183]’ 错误。

用python处理文本数据学到的一些东西的更多相关文章

python处理文本数据
处理文本数据,主要是通过Seris的str访问.遇到NaN时不做任何处理,保留结果为NaN,遇到数字全部处理为NaN. str是Seris的方法,DataFrame不能直接使用,但是通过索引选择Dat ...
Python的文本数据
字符串的一些方法! 1.text.endswith(".jpg") 如果字符串是以给定子字符串结尾的,就返回值True. 2. text.upper(): ...
python读取文本数据某一列
import codecs f = codecs.open('test1 - 副本.txt', mode='r', encoding='utf-8') # 打开txt文件,以'utf-8'编码读取 l ...
[Python] 文科生零基础学编程系列三——数据运算符的基本类别
上一篇:[Python] 文科生零基础学编程系列二--数据类型.变量.常量的基础概念下一篇: ※ 程序的执行过程,就是对数据进行运算的过程. 不同的数据类型,可以进行不同的运算, 按照数据运算类型的 ...
Python文本数据互相转换（pandas and win32com）
(工作之后,就让自己的身心都去休息吧) 今天介绍一下文本数据的提取和转换,这里主要实例的转换为excel文件(.xlsx)转换world文件(.doc/docx),同时需要使用win32api,同py ...
[Python] 糗事百科文本数据的抓取
[Python] 糗事百科文本数据的抓取源码 https://github.com/YouXianMing/QiuShiBaiKeText import sqlite3 import time im ...
Python爬虫工程师必学——App数据抓取实战 ✌✌
Python爬虫工程师必学——App数据抓取实战 (一个人学习或许会很枯燥,但是寻找更多志同道合的朋友一起,学习将会变得更加有意义✌✌) 爬虫分为几大方向,WEB网页数据抓取.APP数据抓取.软件系统 ...
Python之读写文本数据
知识点不多一:普通操作 # rt 模式的 open() 函数读取文本文件 # wt 模式的 open() 函数清除覆盖掉原文件,write新文件 # at 模式的 open() 函数添加write ...
Python爬虫工程师必学APP数据抓取实战✍✍✍
Python爬虫工程师必学APP数据抓取实战整个课程都看完了,这个课程的分享可以往下看,下面有链接,之前做java开发也做了一些年头,也分享下自己看这个视频的感受,单论单个知识点课程本身没问题,大 ...

随机推荐

生成war的jdk版本高于tomcat使用的jdk版本，导致项目不能正常被访问
记录一个耽误30分钟的一个坑: 生成war的jdk版本高于tomcat使用的jdk版本,导致项目不能正常被访问报404错误
Sysstat性能监控工具包中20个实用命令
Sysstat性能监控工具包中20个实用命令学习mpstat, pidstat, iostat和sar等工具,这些工具可以帮组我们找出系统中的问题.这些工具都包含了不同的选项,这意味着你可以根据不同 ...
C读txt到二维数组
#include<stdio.h> #include<stdlib.h> #define maxn 200 void main() { FILE *fp; int s[maxn ...
sed简单实例练习
sedfile内容如下: Steve Blenheim:238-923-7366:95 Latham Lane, Easton, PA 83755:11/12/56:20300 Betty Boop: ...
关于k-means聚类算法的matlab实现
在数据挖掘中聚类和分类的原理被广泛的应用. 聚类即无监督的学习. 分类即有监督的学习. 通俗一点的讲就是:聚类之前是未知样本的分类.而是根据样本本身的相似性进行划分为相似的类簇.而分类是已知样本分类 ...
linux底半部机制在视频采集驱动中的应用
最近在做一个arm+linux平台的视频驱动.本来这个驱动应该是做板子的第三方提供的,结果对方软件实力很差,自己做不了这个东西,外包给了一个暑期兼职的在读博士.学生嘛,只做过实验,没做过产品,给出的东 ...
网易云课堂_C++程序设计入门(上)_第2单元：丹青画松石– EGE图形库
第2节:一个简单的EGE程序 #ifndef _GRAPHICS_H_ #define _GRAPHICS_H_ #ifndef __cplusplus #error You must use C++ ...
Hadoop书籍下载链接
Hadoop书籍推荐1:Hadoop实战(结合经典案例全面讲解hadoop整个技术体系)http://www.db2china.net/club/thread-25148-1-1.html2:Hado ...
LeetCode Day5——House Robber
问题描述: 意思就是说:给定一个数组,寻找一种选取方法,使得在保证任何两个相邻元素不同时被选的条件下得到的数值总和最大. 1. 递归设nums为数组首地址,numsSize为数组的大小,max[i] ...
CMS(Concurrent Mark-Sweep)
CMS(Concurrent Mark-Sweep)是以牺牲吞吐量为代价来获得最短回收停顿时间的垃圾回收器.对于要求服务器响应速度的应用上,这种垃圾回收器非常适合.在启动JVM参数加上-XX:+Use ...

用python处理文本数据 学到的一些东西

用python处理文本数据 学到的一些东西的更多相关文章

随机推荐

热门专题

用python处理文本数据学到的一些东西

用python处理文本数据学到的一些东西的更多相关文章