Python中文GBK编码解决实例

http://eatsalt.blog.163.com/blog/static/879402662009420508748/

#coding:gbk
l=['我'.decode('gbk'),'我'.decode('gbk'),'我'.decode('gbk'),'你'.decode('gbk')]
print l.count('我'.decode('gbk'))
结果：
3
若代码改为：
#coding:gbk
l=['我','我'.decode('gbk'),'我'.decode('gbk'),'你'.decode('gbk')]
print l.count('我'.decode('gbk'))
结果：
2
codingtest.py:3: UnicodeWarning: Unicode equal comparison failed to convert both arguments to Unicode - interpreting them as being unequal
print l.count('我'.decode('gbk'))
========================================================
# -*- coding:gbk -*-
import sqlite3
def initdb():
    con = sqlite3.connect(":memory:")
    cur = con.cursor()
    cur.execute("create table characters(c)")
    cur.executemany("insert into characters(c) values (?)", '我是'.decode('gbk'))
    cur.execute("select * from characters")
    for i in cur.fetchall():
        print i[0].encode('gbk')
initdb()
print '谁'.decode('gbk').encode('gbk')
结果：
我
是
谁
先decode，再encode ： '谁'.decode('gbk').encode('gbk') 才不会出乱码！
===========================================================================
# -*- coding:gbk -*-
import sqlite3 as db
i=open("C:\\1.txt").read()
i=(i.decode('gbk'),)
con=db.connect(":memory:")
cur=con.cursor()
cur.execute("create table BWORDS(words char(10))")
cur.execute("insert into BWORDS(words) values(?)",i)
cur.execute("select words from BWORDS")
for d in cur.fetchall():
    print d[0].encode('gbk')
结果：
你
我是
好哈
IDE编码设置为GBK。从文本文件（为ANSI格式）读取数据为str类型，然后第一步进行解码gbk：decode('gbk') 成utf8，再包装成tuple：     i=(i.decode('gbk'),)   。最后，输出数据，还要编码为gbk： d[0].encode('gbk')
代码二：
# -*- coding:gbk -*-
import sqlite3 as db
i=open("C:\\1.txt").readlines()
con=db.connect(":memory:")
cur=con.cursor()
cur.execute("create table BWORDS(words char(10))")
for r in i:
    cur.execute("insert into BWORDS(words) values(?)",(r.decode('gbk'),))
cur.execute("select words from BWORDS")
for d in cur.fetchall():
    print d[0].encode('gbk')
cur.execute("select count(*) from BWORDS")
for q in cur.fetchall():
    print q[0]
结果：
你
我是
好哈
3
====================================================================
cur.execute("select int,chinese from FREQTABLE where freq>0")
for t in cur.fetchall():
    print t[0].encode('gbk'),t[1]
当数表中有多列时，并且某列含有中文，这时候需要将结果转换为gbk编码：t[0].encode('gbk') ，整型则无需任何转换！
====================================================================
以下文字选自：http://hi.baidu.com/daping_zhang/blog/item/09dda71ea9d7d21f4134173e.html

x = u"中文你好"
print s

运行上述代码，Python会给出下面的错误提示

SyntaxError: Non-ASCII character '\xd6' in file G:\workspace\chinese_problem\src\test.py on line 1, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

说是遇到非ASCII字符了，并让我们参考pep-0263。PEP-0263（Python Enhancement Proposal）上面说得很清楚了，Python也意识到了国际化问题，并提出了解决方案。根据提案上面的要求，我们有如下代码

# -*- coding:gb2312 -*- ＃必须在第一行或者第二行
print "-------------code 1----------------"
a = "中文a我爱你"
print a
print a.find("我")
b = a.replace("爱", "喜欢")
print b
print "--------------code 2----------------"
x = "中文a我爱你"
y = unicode(x, "gb2312")
print y.encode("gb2312")
print y.find(u"我")
z = y.replace(u"爱", u"喜欢")
print z.encode("gb2312")
print "---------------code 3----------------"
print y

程序运行的结果如下：

-------------code 1----------------
中文a我爱你
5
中文a我喜欢你
--------------code 2----------------
中文a我爱你
3
中文a我喜欢你
---------------code 3----------------
Traceback (most recent call last):
File "G:\Downloads\eclipse\workspace\p\src\hello.py", line 16, in <module>
print y
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

     我们可以看到，通过引入编码声明，我们可以正常地在使用中文了，而且在code 1和2中，控制台也能正确的把中文打印出来。但是，很明显，上面的代码也反映出了不少的问题：
    1、code 1 和 2在使用print时采用了不同的方式，1是直接print，而2在print之前先进行编码
    2、code 1 和 2中在同样的字符串查找同一个字符“我”，得出的结果不一样（分别是5和3）
    3、code 3 中直接打印unicode字符串 y时出现错误（这也是为什么code 2中要先进行编码的原因）

    为什么？为什么？我们可以先在脑海中模拟一下我们使用Python的流程：首先，我们先用编辑器编写好源代码，保存成文件。如果源代码中有编码声明而且用的编辑器支持该语法，那么该文件就以相应的编码方式保存在磁盘中。注意：编码声明和源文件的编码不一定是一致的，你完全可以在编码声明中声明编码为UTF-8，但是用GB2312来保存源文件。当然，我们不可能自寻烦恼，故意写错，而且好的IDE也能强制保证两者的一致性，但是，如果我们用记事本或者EditPlus等编辑器来编写代码的话，一不小心就会出现这种问题的。
    得到一个.py文件后，我们就可以运行它了，这是，我们就把代码交给Python解析器来完成解析工作。解析器读入文件时，先解析文件中的编码声明，我们假设文件的编码为gb2312，那么先将文件中的内容由gb2312转换成Unicode，然后再把这些Unicode转换为UTF-8格式的字节串。完成这一步骤后，解析器把这些UTF-8字节串分段，解析。如果遇到使用Unicode字符串，那么就使用相应的UTF-8字节串创建Unicode字符串，如果程序中使用的是一般的字符串，那么解析器先将UTF-8字节串通过Unicode转换成相应编码（这里就是gb2312编码）的字节串，并用其创建一般的字符串对象。也就是说，Unicode字符串跟一般字符串在内存中的存放格式是不一样的，前者使用UTF-8的格式，后者使用GB2312格式。
    好了，内存中的字符串存放格式我们知道了，下面我们要了解print的工作方式。print其实只是负责把内存中相应的字节串交给操作系统，让操作系统相应的程序（譬如cmd窗口）进行显示。这里有两种情况：
   1、若字符串是一般的字符串，那么print只需把内存中相应的字节串推送给操作系统。如例子中的code 1。
    2、如果字符串是Unicode字符串，那么print在推送之前先进行相应的encode：我们可以显示使用Unicode的encode方法使用合适的编码方式来编码（例子中code 2），否则Python使用默认的编码方式进行编码，也就是ASCII（例子中的code 3）。当然ASCII是不可能正确编码中文的，因此Python报错。
    至此，上面的三个问题我们已经可以解析第一和第三个了。至于第二个问题，因为Python中有两种字符串，一般字符串和Unicode字符串，两者都有各自的字符处理方法。对于前者，方法是以字节的方式进行的，而且在GB2312中，每个汉字占用两个字节，因此得到的结果是5；对于后者，也就是 Unicode字符串，所有字符都是统一看待的，因此得到3。
     虽然上面只提到了控制台程序的中文问题，但是文件读写以及网络传输中出现的中文问题在原理上都是类似的。Unicode的出现可以很大程度上解决软件的国际化问题，同时Python为Unicode提供了极为良好的支持，因此，我建议大家在编写Python的程序时，都统一使用Unicode方式。保存文件时使用UTF-8的编码方式。How to Use UTF-8 with Python有详细的描述，大家可以参考一下。

Python中文GBK编码解决实例的更多相关文章

Sublime Text 2/3如何支持中文GBK编码（亲测实现）
Sublime Text 2/3如何支持中文GBK编码听语音 | 浏览:17594 | 更新:2014-03-17 10:52 1 2 3 4 5 分步阅读 Sublime Text默认是只支持UT ...
python中文字符串编码问题
接口测试的时候,发现接口返回内容是uncodie类型但是包含中文.在使用print进行打印时输出提示错误: UnicodeEncodeError: 'ascii' codec can't encode ...
Qt5程序参数包含中文GBK编码的问题
1.背景 Qt5程序(WeekReport.exe)的main函数里有如下代码: //only for test int main(int argc, char *argv[]) { QCoreApp ...
python中文utf8编码后是占3个字符,unicode汉字为2字节
一个中文utf8编码后是占3个字符,所以求长度的函数可以这样写 def str_len(str): try: row_l=len(str) utf8_l=len(str.encode('utf-8') ...
百度AI开放平台情感倾向分析实例以及gbk编码解决
f=open('test.txt','a+',encoding='utf-8') for index,row in cxzg.iterrows(): text=str(row['text']) tex ...
Sublime Text 2/3如何支持中文GBK编码
Sublime Text默认是只支持UTF8的编码,所以有些时候,当我们打开GBK文件时候,文件内会出先部分的乱码, 在菜单栏选择"Preferences"-->" ...
西文字符与中文GBK编码的区别
一般来讲二者读取的时候西文字符的数值是正,而中文字符的数值是负的,此时读取的是中文字符的前一半,需要再读取一个char类型的数据,在大多数运行环境下这个规则都是用. ps:转自算法竞赛的笔记,要注意在 ...
php输出json中文显示编码-解决办法
$str = "中华人民共和国";$ar = array( "a" => "a0", "b" => &quo ...
【已解决】python中文字符乱码（GB2312，GBK，GB18030相关的问题）
http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ [已解决]python中文字符乱码(GB2312,GB ...

随机推荐

jquery.placeholder.min.js让吃屎的IE浏览器支持placeholder去吧
描述:现在都是HTML5时代了,所有的浏览器都支持placeholder,唯独IE不支持.现在我们有了这款插件,IE下终于可以支持了! 图片展示: 兼容浏览器:IE6+/Firefox/Goog ...
docker之启动创建容器流程
libcontainer的工作流程 execdriver的run方法通过docker daemon提交一份command信息创建了一份可供libcontainer解读的容器配置container,继而 ...
ios之数据持久化
9.1 数据持久化概述 iOS中可以有四种持久化数据的方式: 属性列表.对象归档.SQLite3和Core Data 9.2 iOS应用程序目录结构 iOS应用程序运行在Mac os模拟器时候,有一下 ...
node.js从入门到放弃（一）
以下内容全是我个人理解写出,如有不对,请立刻练习本人进行更改.以免被刚入门的被我带入坑里. —node是什么?我想大家应该都知道. node是前端未来干掉后端的一种语言,是用JavaScript来编写 ...
Centos7中yum安装jdk及配置环境变量
系统版本 [root@localhost ~]# cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) #安装之前先查看一下有无系统 ...
react-native打包apk常见错误收集
react-native 0.59打包报错,信息如下,根据错误信息是因为react-native-cookies的sdk版本问题导致的 ./gradlew assembleRelease > C ...
剑指Offer（书）：剪绳子
题目:给你一根长度为n的绳子,请把绳子剪成m段,每段绳子的长度记为k[0],k[1]....,k[m].请问k[0]xk[1]x...,k[m]可能的最大乘积是多少.例如:长度为8剪成2 3 3 得到 ...
《算法导论》 — Chapter 7 快速排序
序快速排序(QuickSort)也是一种排序算法,对包含n个数组的输入数组,最坏情况运行时间为O(n^2).虽然这个最坏情况运行时间比较差,但是快速排序通常是用于排序的最佳实用选择,这是因为其平均性 ...
gitHub网站上常见英语翻译2
repositories资料库 compilers with rich code analysis APIs.编译器具有丰富的代码分析API. plugins插件 With a variety of ...
POJ 1904：King's Quest【tarjan】
题目大意:给出一个二分图的完美匹配(王子和公主的烧死名单表),二分图x部和y部均只有n个点,问对于每一个x部的点,他能选择哪些点与之匹配使得与之匹配后,剩余图的最大匹配仍然是n 思路:这题是大白书3 ...

Python中文GBK编码解决实例

Python中文GBK编码解决实例的更多相关文章

随机推荐

热门专题