Python中文问题研究

我曾经在深入浅出java中文问题系列中研究过java的中文问题，现在中文问题已经不再羁绊我在java世界中漫游的脚步了。最近，对Python产生了浓厚的兴趣，谁知道跟中文问题这个
老朋友又一次不期而遇。看来，在代码世界中，中文问题会在很长一段时间里跟我们形影不离。这也难怪，谁让当初发明计算机的不是我们中国人呢，否则，现在全世界的计算机都支持而且必须支持GBK，这样，写这样文章的人就不会是我了，而是大洋彼岸的一个金发碧眼的程序员，而且标题也相应改为 “studying the english problem in '大蟒' ”。。哈哈

YY而已，还是面对现实问题吧。相对java而言，中文问题在Python中的表现更为激烈。“激烈”的意思不是说更为严重或者说难于解决，只是 Python对于decode＆encode错误的默认处理方式为strict，也就是直接报错，而java使用replace的方式来处理了，因此 java出现中文问题后会打印出很多"??"。此外，Python的默认的encoding是ASCII，而java的默认encoding跟操作系统的 encoding是一致的。在这一点上，我觉得java更为合理，这样对程序员更为友好，也减少了newbies
开始时的挫折感，是有利于语言的推广的。但是，Python也有它的道理，毕竟ASCII是唯一的全世界所有平台都支持的字符集，而且问题始终是问题，始终会出现的，逃避它还不如早点面对它。

好了，说了这么多，该说说Python中中文问题的症状了。在这之前，我们先要了解Python中有两种字符串，分别是一般的字符串（每个字符用8 bits表示）和Unicode字符串（每个字符用一个或者多个字节表示），它们可以相互转换。关于Unicode，Joel Spolsky 在 The
Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) 中有生动的说明，Jason Orendorff 在 Unicode
for programmers 有着更为全面的描述，在此我就不再多说什么了。来看下面的代码：

x = u"中文你好"

print s

运行上述代码，Python会给出下面的错误提示

SyntaxError: Non-ASCII character '\xd6' in file G:\workspace\chinese_problem\src\test.py on line 1, but no encoding declared; seehttp://www.python.org/peps/pep-0263.html for
details

说是遇到非ASCII字符了，并让我们参考pep-0263。PEP-0263（Python Enhancement Proposal）上面说得很清楚了，Python也意识到了国际化问题，并提出了解决方案。根据提案上面的要求，我们有如下代码

# -*- coding:gb2312 -*- ＃必须在第一行或者第二行

print "-------------code 1----------------"

a = "中文a我爱你"

print a

print a.find("我")

b = a.replace("爱", "喜欢")

print b

print "--------------code 2----------------"

x = "中文a我爱你"

y = unicode(x, "gb2312")

print y.encode("gb2312")

print y.find(u"我")

z = y.replace(u"爱", u"喜欢")

print z.encode("gb2312")

print "---------------code 3----------------"

print y

程序运行的结果如下：

-------------code 1----------------

中文a我爱你

5

中文a我喜欢你

--------------code 2----------------

中文a我爱你

3

中文a我喜欢你

---------------code 3----------------

Traceback (most recent call last):

File "G:\Downloads\eclipse\workspace\p\src\hello.py", line 16, in <module>

print y

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

我们可以看到，通过引入编码声明，我们可以正常地在使用中文了，而且在code 1和2中，控制台也能正确的把中文打印出来。但是，很明显，上面的代码也反映出了不少的问题：

    1、code 1 和 2在使用print时采用了不同的方式，1是直接print，而2在print之前先进行编码

    2、code 1 和 2中在同样的字符串查找同一个字符“我”，得出的结果不一样（分别是5和3）

    3、code 3 中直接打印unicode字符串 y时出现错误（这也是为什么code 2中要先进行编码的原因）

为什么？为什么？我们可以先在脑海中模拟一下我们使用Python的流程：首先，我们先用编辑器编写好源代码，保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法，那么该文件就以相应的编码方式保存在磁盘中。注意：编
码声明和源文件的编码不一定是一致的，你完全可以在编码声明中声明编码为UTF-8，但是用GB2312来保存源文件。当然，我们不可能自寻烦恼，故意写错，而且好的IDE也能强制保证两者的一致性，但是，如果我们用记事本或者EditPlus等编辑器来编写代码的话，一不小心就会出现这种问题的。

    得到一个.py文件后，我们就可以运行它了，这是，我们就把代码交给Python解析器来完成解析工作。解析器读入文件时，先解析文件中的编码声明，我们假设文件的编码为gb2312，那么先将文件中的内容由gb2312转换成Unicode，然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后，解析器把这些UTF-8字节串分段，解析。如果遇到使用Unicode字符串，那么就使用相应的UTF-8字节串创建Unicode字符
串，如果程序中使用的是一般的字符串，那么解析器先将UTF-8字节串通过Unicode转换成相应编码（这里就是gb2312编码）的字节串，并用其创建一般的字符串对象。也就是说，Unicode字符串跟一般字符串在内存中的存放格式是不一样的，前者使用UTF-8的格式，后者使用GB2312格式。

    好了，内存中的字符串存放格式我们知道了，下面我们要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统，让操作系统相应的程序（譬如cmd窗口）进行显示。这里有两种情况：

   1、若字符串是一般的字符串，那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。

    2、如果字符串是Unicode字符串，那么print在推送之前先进行相应的encode：我们可以显示使用Unicode的encode方法使用合适的编码方式来编码（例子中code 2），否则Python使用默认的编码方式进行编码，也就是ASCII（例子中的code 3）。当然ASCII是不可能正确编码中文的，因此Python报错。

    至此，上面的三个问题我们已经可以解析第一和第三个了。至于第二个问题，因为Python中有两种字符串，一般字符串和Unicode字符串，两者都有各自的字符处理方法。对于前者，方法是以字节的方式进行的，而且在GB2312中，每个汉字占用两个字节，因此得到的结果是5；对于后者，也就是 Unicode字符串，所有字符都是统一看待的，因此得到3。

     虽然上面只提到了控制台程序的中文问题，但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题，同时Python为Unicode提供了极为良好的支持，因此，我建议大家在编写Python的程序时，都统一使用Unicode方式。保存文件时使用UTF-8的编码方式。How
to Use UTF-8 with Python有详细的描述，大家可以参考一下。

    Python中能导致出现中文问题的地方还很多，譬如文件的读写，网络数据的传输等，希望大家能多多交流，共同解决这些问题。

Python中文问题研究的更多相关文章

Python中文字符的理解：str()、repr()、print
Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理 ...
NLP+语义分析（四）︱中文语义分析研究现状（CIPS2016、角色标注、篇章分析）
摘录自:CIPS2016 中文信息处理报告<第二章语义分析研究进展. 现状及趋势>P14 CIPS2016> 中文信息处理报告下载链接:http://cips-upload.bj. ...
【原】python中文文本挖掘资料集合
这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7% ...
Eclipse搭建Python开发环境+Python中文处理
1.基本需求 1.Eclipse 集成开发环境下载 http://115.com/file/c2vz7io5 JDK6下载 http://115.com/file/c2vz7idq 2. ...
python中文处理之encode/decode函数
python中文处理相信迷惑过不少同学.下面说说python2/3的encode和decode函数. python2中,使用decode()和encode()来进行解码和编码,以unicode类型作为 ...
python中文注释及输出出错
今天开始接触python,中文报错,你懂的,不细说. 网上很多类似的解决方案,有不是很明确,例如:http://blog.csdn.net/chen861201/article/details/770 ...
Python中文繁简体转换工具
Openccpy ___ _____ __ ___ ___ ___ _____ __ __ / __`\/\ '__`\ /'__`\/' _ `\ /'___\ /'___\/\ '__`\/\ \ ...
Python中文语料批量预处理手记
手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中 ...
共有11款Python 中文分词库开源软件
件过滤: 排序: 收录时间 | 浏览数 Python 中文分词库 Yaha "哑哈"中文分词,更快或更准确,由你来定义.通过简单定制,让分词模块更适用于你的需求. "Ya ...

随机推荐

九度oj 题目1250：矩阵变换
题目描述: 对于一个整数矩阵,存在一种运算,对矩阵中任意元素加一时,需要其相邻(上下左右)某一个元素也加一, 现给出一正数矩阵,判断其是否能够由一个全零矩阵经过上述运算得到. 输入: 输出: 如果可以 ...
hdu6059[字典树+思维] 2017多校3
#include <bits/stdc++.h> using namespace std; typedef long long LL; * ][]; * ]; * ]; ][]; ; LL ...
性能学习笔记之四--事务,思考时间,检查点,集合点和手写lr接口
一.事物,思考时间,检查点,集合点 1.事务 lr里面的事物是lr运行脚本的基础.lr里面要测试的三个维度都以事物为单位,所以一定要有事物.事务的概念贯穿loadrunner的使用,比如我们说的响应 ...
BZOJ 1297: [SCOI2009]迷路 [矩阵快速幂]
Description windy在有向图中迷路了. 该有向图有 N 个节点,windy从节点 0 出发,他必须恰好在 T 时刻到达节点 N-1. 现在给出该有向图,你能告诉windy总共有多少种不同 ...
[暑假集训--数位dp]hdu2089 不要62
杭州人称那些傻乎乎粘嗒嗒的人为62(音:laoer).杭州交通管理局经常会扩充一些的士车牌照,新近出来一个好消息,以后上牌照,不再含有不吉利的数字了,这样一来,就可以消除个别的士司机和乘客的心理障碍, ...
cf670E Correct Bracket Sequence Editor
Recently Polycarp started to develop a text editor that works only with correct bracket sequences (a ...
Gauss 高斯消元
高斯消元…… (裸的暴力) 如果你有一个n元的方程组你会怎么办? Ans:直接用初中的解方程组的方法呀! 没错,直接暴力加减消元.那什么是“高斯消元”?说白了,就是普通的加减消元罢了. 本人再考场上打 ...
51nod1053 最大M子段和 V2
$n \leq 50000$的序列,问选不超过$m \leq 50000$个区间使得和最大. 如果正数区间总数比$m$小那肯定全选.否则有两种方式减少区间数量:丢掉一个正区间:补一个负区间连接两个正区 ...
Redis命令行之String
一.Redis之String简介 1. String是redis最基本的数据类型,一个key对应一个value. 2. String是二进制安全的,可以包含任何数据,例如图片或序列化的对象. 3. S ...
numpy数组之读写文件
目录通过 numpy 读写 txt 或 csv 文件通过 numpy 读写 npy 或 npz 文件读写 npy 文件读写 npz 文件通过 h5py 读写 hdf5 文件简单读取通过切 ...

Python中文问题研究

Python中文问题研究的更多相关文章

随机推荐

热门专题