Python字符编码讲解
声明:本文参考 Python字符编码详解
在计算机中我们不管用什么语言和程序,最终数据在计算机中的都是字节码(也就是01形式)的形式存在的,如果
计算机直接把字节码显示在屏幕上,很明显一般人看不懂字节码,我们能看懂的只有字符,所以就需要用程序把字节码翻译成字符,要
将字节码翻译成字符,必须在字节码和字符之间建立一种逻辑映射的关系, 我们就使用这种逻辑映射的关系在字节码和字符之间互相
转化,这种逻辑映射关系我们就称之为字符集。
所以字节码和字符之间的翻译过程就是编码或者解码的过程,至于这种逻辑映射关系,计算机早期是老外发明的,而他们顶多使用
128个字符,所以就建立了一种称之为ASCII的逻辑映射关系,但是随着计算机的普及很明显128个字符不能表示所有人类所能识别的字
符,于是各个国家各个名族就发明了合适自己语言的逻辑映射关系比如中文的GBK,韩文的ks_c_。多种逻辑映射关系就使得写程序变
得混乱,于是就建立一个全球通用的逻辑映射关系UCS,USC几乎可表示全球所有的字符,USC中每个字符对应一个码元(也就是一个整数
),比如 "汉" 子对应的码元是 67721(6c49)。
当然UCS只是定义了一个标准的逻辑映射关系,至于怎么实现则有很多种方式,比如"汉"在UCS中的码元是 6C49,我们知道在计算机
中任何数据都是以一个字节一个字节的形式存储的,6C49 很明显不能用一个字节表示,那么改用几个字节表示合适呢?于是就有了几
中不同的解决方案 UCS-2(也就是UTF-16)则使用2个字节表示,USC-2是定长存储中所有字符都是用两个字节表示,按照楼主说法美国
人觉得亏了英文字母只用一个字节就能保存了,英文之外在用多字节表示也就是UTF-8解决方案。也就说UCS只是一个可扩展的字典(
如果遇到一个它不能翻译的字符,则把它加入到这个字典中,并为这个字符定义一个码元),UTF-8,UTF-16则是具体的实现方式。
str和unicode都是basestring的子类。严格意义上说,str其实是字节串,它是unicode经过编码后的字节组成的序列。对UTF-8编码的str'汉'使用len()函数时,结果是3,因为实际上,UTF-8编码的'汉' == '\xE6\xB1\x89'。
unicode才是真正意义上的字符串,对字节串str使用正确的字符编码进行解码后获得,并且len(u'汉') == 1。
Python中的 str 本质是一个 字节串类似于 Java中的 byte[],而unicode则相当于Java中的 String
下面通过Python和Java代码的例子来对比:
Python代码:
u = u'汉'
s = '汉'
print repr(u) #输出 u'\u6c49'
print repr(s) #输出 '\xe6\xb1\x89'
print len(u) #输出 1
print len(s) #输出 3
print repr(s[1:]) #输出 '\xb1\x89' s2 = u.encode('utf-8')
print repr(s2) #输出 '\xe6\xb1\x89'
u2 = s2.decode('utf-8')
print repr(u2) #输出 u'\u6c49'
我们可以用看出 unicode 表示真正的字符串,而 str 只是 unicode编码后的字节串(可以理解为字节数组)
如果我们直接用 s = '汉' 其实python已经对 '汉'进行了编码,也就是说 s 指向的是'汉'编码后的字节串
上段Python代码中编码和解码的过程用Java表示为:
String s = "汉";
byte[] bytes = s.getBytes("UTF-8"); //编码的过程
String s2 = new String(bytes, "UTF-8") //解码的过程
Python中读写文件本质上是对字节串的读写
f = open('test.txt')
u = u'汉'
s = u.encode('utf-8')
f.write(s)
f.close()
我们打开test.txt文本后,文本中显示"汉"
Java代码:
String s = "汉";
byte[] bytes = s.getBytes("UTF-8");
RandomAccessFile f = new RandomAccessFile("test2.txt", "rw");
f.write(data)
f.close()
同样打开test2.txt后文本后,文本中显示 "汉"
Python中读文件
f = open('test.txt', 'r')
s = f.read()
u = s.decode('UTF-8')
Java读文件
FileInputStream fin = new FileInputStream("test2.txt");
byte[] bytes= new byte[3];
fin.read(data2);
fin.close();
String s = new String(bytes, "UTF-8")
所以如果你对文本读操作之前要明白文本编码集,你才能进行正确的解码操作。
Python字符编码讲解的更多相关文章
- python 字符编码讲解
ANSI不是一种具体的编码格式 ANSI在中文Windows操作系统代码指的是GBK编码 ANSI在中文Mac操作系统代码指的是UTF-8编码 ANSI在其他国家的操作系统中有其他的编码格式 #ASC ...
- python 字符编码练习
通过下面的练习,加深对python字符编码的认识 # \x00 - \xff 256个字符 >>> a = range(256)>>> b = bytes(a) # ...
- 深入理解Python字符编码--转
http://blog.51cto.com/9478652/2057896 不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError ...
- 深入理解Python字符编码
不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError.UnicodeDecodeError 错误,每当遇到错误我们就拿着 enc ...
- Python字符编码详解,str,bytes
什么是明文 “明文”是可以是文本,音乐,可以编码成mp3文件.明文可以是图像的,可以编码为gif.png或jpg文件.明文是电影的,可以编码成wmv文件.不一而足. 什么是编码?把明文变成计算机语言 ...
- Python字符编码补充
字符编码: Python字符编码贯穿Python学习的始终,现在应用的是Python2中字符编码的问题是很多的. 这次是要彻底解决Python字符编码的问题!!! 1 字符编码的发展过程: 1 .AS ...
- python --- 字符编码学习小结(二)
距离上一篇的python --- 字符编码学习小结(一)已经过去2年了,2年的时间里,确实也遇到了各种各样的字符编码问题,也能解决,但是每次都是把所有的方法都试一遍,然后终于正常.这种方法显然是不科学 ...
- 转1:Python字符编码详解
Python27字符编码详解 声明 一 字符编码基础 1 抽象字符清单ACR 2 已编码字符集CCS 3 字符编码格式CEF 31 ASCII初创 311 ASCII 312 EASCII 32 MB ...
- 转2:Python字符编码详解
1. 字符编码简介 1.1. ASCII ASCII(American Standard Code for Information Interchange),是一种单字节的编码.计算机世界里一开始只有 ...
随机推荐
- Huffman树及其应用
哈夫曼树又称为最优二叉树,哈夫曼树的一个最主要的应用就是哈夫曼编码,本文通过简单的问题举例阐释哈夫曼编码的由来,并用哈夫曼树的方法构造哈夫曼编码,最终解决问题来更好的认识哈夫曼树的应用--哈夫曼编码. ...
- 【Android - 框架】之Glide的使用
一.Glide简介: Glide是Google官方推荐的一个图片加载和缓存的开源库,它不仅能实现平滑的图片列表滚动效果,还支持远程图片的获取.大小调整和展示,并且可以加载GIF图片.Glide相比与U ...
- uboot中的mmc命令
一:mmc的命令例如以下: 1:对mmc读操作 mmc read addr blk# cnt 2:对mmc写操作 mmc write addr blk# cnt 3:对mmc擦除操作 mmc eras ...
- 基于xmpp openfire smack开发之smack类库介绍和使用[2]
http://blog.csdn.net/shimiso/article/details/8816540 关于Smack编程库,前面我们提到,它是面向Java端的api,主要在PC上使用,利用它我们可 ...
- 分享一个牛逼的PHP无限极分类生成树方法,巧用引用(转)
你还在用浪费时间又浪费内存的递归遍历无限极分类吗,看了该篇文章,我觉得你应该换换了.这是我在OSChina上看到的一段非常精简的PHP无限极分类生成树方法,巧在引用,整理分享了. function g ...
- ZFS+Dtrace+Zones+KVM=SMARTOS + dtrace 详细文档
https://smartos.org/ http://dtrace.org/guide/chp-io.html http://blog.csdn.net/babyfacer/article/deta ...
- CoreText 实现图文混排
CoreText 实现图文混排 相关博文推荐 IOS CoreText.framework - 基本用法 IOS CoreText.framework - 段落样子CTParagraphStyle h ...
- div css背景图片不显示
我们在写页面时,为了便于维护,css样式通常都是通过link外部导入html的,有时在css中写入背景图片时,此时背景图片的路径应该是相对css文件的.比如,此时的文件有index.html,css. ...
- JavaScript正则验证数字、英文、电话号、身份证号、邮箱地址、链接地址等
验证是否为数字:/^[0-9]*$/验证是否为汉字:/^[\u4e00-\u9fa5],{0,}$/验证x-y位的数字:/^\d{x,y}$/验证由26个英文字母组成的字符串:/^[A-Za-z]+$ ...
- DNS服务器的原理
当用户去访问一个网站(百度)的时候,首先去请求dns服务器,根据对应的域名返回所在ip,然后再使用ip去访问自己所在服务器空间.简单的说,DNS服务器就像114客服,dns服务器是树状结构的,dns服 ...