python3与python2的编码问题

在讲这个问题之前，我们先说说unicode的工作原理。unicode包含了跟全球所有国家编码的映射关系，就是不管你用哪个国家的编码，unicode都能找到它在unicode中的编码。那么无论你用什么编码储存数据，只要这台电脑的系统支持unicode,那么你把数据放到内存里读，系统就会用unicode把你的编码解出来。现在所有的系统和编程语言都默认支持unicode。

下图是unicode的关系映射,其包含了跟全球所有国家编码的关系映射：

utf-8是unicode的一种优化，utf-8在英文占1个字节、欧洲语系占2个、东亚占3个，其它及特殊字符占4个。值得注意的是：utf-8在进行内存储存时还是用的unicode编码，在文件储存中用的才是utf-8编码。原因如下：

下面进入正题：

phython3默认编码是utf-8, 内存里(也就是字符串) 是编码是unicode，即使声明了某种编码，在内存里还是unicode。

python2文件默认编码是ASCII,字符串默认也是ASCII，但是如果文件头声明了某种编码，那字符串编码就是那个编码。但是python2有一个问题，就是如果你想写中文，你的文件头声明了utf-8,python2的解释器会用你声明的编码去给你解码，加载到内存后也是用utf-8给你解码，而不是unicode!这就意味着，你用windows(中文版windwos默认编码是gbk)去执行的话就会出现乱码。因为在windows上只有2种情况，你的windows上显示才不会乱：

字符串以GBK格式显示
字符串是unicode编码

为什么在内存中用utf-8会出现乱码，用unicode就不会呢？原因如下：

utf-8虽然压缩了存储空间，但是如果在内存中存储，使用utf-8却由于它的长度不固定，带来了很大的不便，使得在内存处理字符变得复杂。应对这个问题的解决策略是：在内存中存储字符时还是使用unicode编码，因为unicode编码的长度固定，处理起来很方便。而在文件的存储中，则使用utf-8编码，可以压缩内存，节省空间。这里一般有个自动转换的机制，即从文件中读取utf-8编码到内存时，会自动转换为unicode编码，而从内存中将字符保存到文件时，则自动转换为utf-8编码。

解决办法就是用decode和 encode

什么是decode和encode:

字符串在Python内部的表示是Unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符解码(decode)成unicode,再从unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符转换成unicode编码,如str1,decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2,encode('gb2312'),表示将unicode编码的字符串str2转换成gb2312编码。

因此,转码的时候一定要明白,字符串str是什么编码,然后decode成unicode编码,然后再encode成其他编码。

另外，在python2里unicode是一个单独的类型。

参考：https://www.cnblogs.com/alex3714/articles/7550940.html

python3与python2的编码问题的更多相关文章

python2.x编码问题实例
1,编码问题,主要是区分面向人类的字符串,面向计算机的字节序列在python3中,字符串是str(默认即unicode),字节序列是bytes 在python2中,字符串是unicode,字节序列是 ...
Python3与Python2的差异
基于python3浅谈python3与python2的差异.由于现今主流Python3,但是之前用Python2做的项目,还得维护,所以作为python工作者,不免要了解其中差异,其中,Python2 ...
python3与python2使用python原生SimpleHTTPRequestHandler
python3 使用时如下: #!/usr/bin/env python3 #coding=utf-8 from http.server import SimpleHTTPRequestHandler ...
同时装了Python3和Python2，怎么用pip？
问题:同时装了Python3和Python2,怎么用pip? Ubuntu13.04, 系统内同时装了Python3.3 和 2.7 用sudo apt-get install python-pip ...
python3.x Day3 文件编码
文件编码: 知识点不多,但及其重要,python2和python3处理机制还有不同点,需要注意. 首先: 编码.数据类型,完全不同的概念. 文件编码:可以遵循开发环境.可以自行设定. 变量值编码:py ...
python3.x设置默认编码(sys.stdout.encoding和sys.defaultencoding)
查了一会资料得出的结论是如果你用的是python3.x,那么就最好别去设置sys.defaultencoding或者sys.stdout.encoding记住在需要编码的时候用encode,解码的时候 ...
转：Python2字符编码问题汇总
这篇文章的部分问题在Python3以后不再存在,老猿只是觉得文章的部分内容还是有参考价值,因此在此原文转发连接: Python2字符编码问题汇总
Win10下python3和python2同时安装并解决pip共存问题
特别说明,本文是在Windows64位系统下进行的,32位系统请下载相应版本的安装包,安装方法类似. 使用python开发,环境有Python2和 python3 两种,有时候需要两种环境切换使用,下 ...
【转】Win10下 python3和python2同时安装并解决pip共存问题
1.下载python3和python2 进入python官网,链接https://www.python.org/ 选择Downloads--->Windows,点击进入就可以看到寻找想要的pyt ...

随机推荐

net core (上)
net core (上) 本文是基于Windows10的. 下载地址: https://code.visualstudio.com/ insider 版下载地址: https://code.visua ...
HDU 1176 免费馅饼矩阵取数， dp + 滚动数组
http://acm.hdu.edu.cn/showproblem.php?pid=1176 首先可以处理出整张地图的状态. book[T][POS]表示第T秒,在第pos个地方有多少个馅饼. dp[ ...
(转)Linux下select, poll和epoll IO模型的详解
Linux下select, poll和epoll IO模型的详解原文:http://blog.csdn.net/tianmohust/article/details/6677985 一).Epoll ...
filter配置多个url-pattern和排除个别servlet
转载自:https://blog.csdn.net/hanghangde/article/details/51298221 侵删最近做项目遇到一个Filter需要配置多个url-pattern,上网 ...
SharePoint 2016 如何修改Library 地址
Scenario #1 如何为一个Library 修改下访问网络路径地址 1.点击library,点开open with explorer,使用Windows资源管理器打开文档库 2.在文件夹层次结 ...
oracle 、server和my sql 语法区别
1.总结Oracle .sqlserver和mysql中查询10-20条记录的写法一: oracle数据库写法: 1:select * from (select rownum rn ,* from ...
c# winform 关于DataGridView的一些操作
转自:http://heisetoufa.iteye.com/blog/405317 设置字段名设置字段值设定单元格表示 Error图标设定当前单元格取得当前单元格内容取得当前单元格的列 I ...
hiho一下第四十五周博弈游戏·Nim游戏·二(转成NIm)
Alice和Bob这一次准备玩一个关于硬币的游戏:N枚硬币排成一列,有的正面朝上,有的背面朝上,从左到右依次编号为1..N.现在两人轮流翻硬币,每次只能将一枚正面朝上的硬币翻过来,并且可以随自己的意愿 ...
COGS 1619. [HEOI2012]采花
★★☆ 输入文件:1flower.in 输出文件:1flower.out 简单对比时间限制:5 s 内存限制:128 MB [题目描述] 萧薰儿是古国的公主,平时的一大爱好是采花. 今 ...
NGUI类之间的关系架构
NGUI Drawcall 1.使用同一个altals的元素尽量放在同一个UIPanel下面,在NGUI中,它消耗的drawcall是以每个Panel为独立计算单位进行计算的. 2.如果一个UIPan ...

python3与python2的编码问题

python3与python2的编码问题的更多相关文章

随机推荐

热门专题