python3的编码问题

Python3对文本(str)和二进制数据(bytes)作了更为清晰的区分。

文本默认是以Unicode编码（python2默认是ascii），由str类型表示，二进制数据则由bytes类型表示。

str='中文ENGLISH'

str是文本类型，即str类型

>>> str.encode('utf-8')

b'\xe4\xb8\xad\xe6\x96\x87ENGLISH'

>>> str.encode('gb2312')

b'\xd6\xd0\xce\xc4ENGLISH'

>>> bytes(str,'utf-8')

b'\xe4\xb8\xad\xe6\x96\x87ENGLISH'

bytes()函数同str.encode()，即把str类型编码为bytes类型

>>> b'\xe4\xb8\xad\xe6\x96\x87ENGLISH'.decode('utf-8')

'中文ENGLISH'

解码过程，即把bytes数据转化为str

>>> b'\xe4\xb8\xad\xe6\x96\x87ENGLISH'.encode('utf-8')

Traceback (most recent call last):

  File "<pyshell#42>", line 1, in <module>

    b'\xe4\xb8\xad\xe6\x96\x87ENGLISH'.encode('utf-8')

AttributeError: 'bytes' object has no attribute 'encode'

不能把bytes数据继续编码为bytes

>>> '中文ENGLISH'.decode('utf-8')

Traceback (most recent call last):

  File "<pyshell#44>", line 1, in <module>

    '中文ENGLISH'.decode('utf-8')

AttributeError: 'str' object has no attribute 'decode'

也不能把str数据继续解码为str

即编码过程是从str到bytes,解码过程是从bytes到str。

>>> b'\xe4\xb8\xad\xe6\x96\x87ENGLISH'.decode('gb2312')

Traceback (most recent call last):

  File "<pyshell#45>", line 1, in <module>

    b'\xe4\xb8\xad\xe6\x96\x87ENGLISH'.decode('gb2312')

UnicodeDecodeError: 'gb2312' codec can't decode byte 0xad in position 2: illegal multibyte sequence

上面是把以utf-8编码的bytes以gb2312的方式解码，结果出错了，因为0xad没有对应的gb2312编码

如果想知道一串bytes码是以何种unicode编码方式编码的，该如何呢？这个其实是无法百分之百确定的，不然的话乱码就不会发生了。

第三方库chardet，使用函数detect可以“猜”出编码方式。

from chardet import detect
>>> detect(b'\xe4\xb8\xad\xe6\x96\x87ENGLISH')

{'confidence': 0.7525, 'encoding': 'utf-8'}

这里置信0.7525，可以简单理解为概率0.7525，这里只有两个中文字符，如果bytes足够长，那么置信肯定更高

>>> detect(b'\xe6\x88\x91\xe6\x98\xaf\xe4\xb8\xad\xe6\x96\x87\xe6\x88\x91\xe7\x9c\x9f\xe7\x9a\x84\xe6\x98\xaf\xe4\xb8\xad\xe6\x96\x87')

{'confidence': 0.99, 'encoding': 'utf-8'}

这里有10个中文字符，结果置信就是0.99了

__________________________________________________________________________________

从txt文件读取的问题

有两个文件ansi.txt和utf8.txt，分别保存为ansi编码和utf-8编码，里面都是‘中文ENGLISH’

>>> f_ansi=open(r'd:\ansi.txt','r')

>>> f_ansi.read()

'中文ENGLISH'

>>> f_utf8=open(r'd:\utf8.txt','r')

>>> f_utf8.read()

'锘夸腑鏂嘐NGLISH'

>>> f_utf8=open(r'd:\utf8.txt','r',encoding='utf-8')

>>> f_utf8.read()

'\ufeff中文ENGLISH'
#带BOM的utf8

记事本的ansi编码为系统本地编码，我的是gbk，所以ansi.txt的编码方式是gbk

open()函数的encoding参数默认是本地编码，也就是gbk，所以直接打开读取ansi.txt是可以的

直接打开utf8编码的txt会以gbk的解码方式读取，所以会出现乱码

验证一下

>>> '锘夸腑鏂嘐NGLISH'.encode('gbk').decode('utf-8')

'\ufeff中文ENGLISH'

python3的编码问题的更多相关文章

s14 第4天关于python3.0编码函数式编程装饰器列表生成式生成器内置方法
python3 编码默认为unicode,unicode和utf-8都是默认支持中文的. 如果要python3的编码改为utf-8,则或者在一开始就声明全局使用utf-8 #_*_coding:utf ...
python3爬虫编码问题
使用爬虫爬取网页经常遇到各种编码问题,因此产生乱码今天折腾了一天,全部总结一遍环境:win10,pycharm,python3.41.首先先来网页编码是utf-8的:以百度首页为例:使用request ...
day008 字符编码之字符编码、Python2和Python3字符编码的区别
计算机基础(掌握) 启动应用程序的流程双击qq 操作系统接受指令然后把该操作转化为0和1发送给CPU CPU接受指令然后把指令发送给内存内存接受指令把指令发送给硬盘获取数据 qq在内存中运行文本 ...
Python3的编码整理总结
python3在内存中是用unicode编码方式存储的,所以不能直接储存和传输,要转化为其他编码进行储存和传输. 字符串通过编码转换成字节码,字节码通过解码成为字符串 encode:str --> ...
字符编码 + python2和python3的编码区别(day08整理)
目录昨日回顾二十三.元组内置方法二十四.散列表二十五.字典内置方法二十六.集合内置方法二十七.深浅拷贝拷贝浅拷贝深拷贝今日内容二十八.字符编码 1.文本编辑器存储信息的过程 2. ...
python3中编码与解码的问题
python3中编码与解码的问题 ASCII .Unicode.UTF-8 ASCII 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此 ...
Python3 字符编码
编码字符串是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节 ...
Python2 与 Python3 的编码对比
在 Python 中,不论是 Python2 还是 Python3 中,总体上说,字符都只有两大类: 通用的 Unicode 字符: (unicode 被编码后的)某种编码类型的字符,比如 UTF-8 ...
Python2与Python3字符编码的区别
目录字符编码应用之Python(掌握) 执行Python程序的三个阶段 Python2与Python3字符串类型的区别(了解) Python2 str类型 Unicode类型 Python3 字符编 ...

随机推荐

基于C/S架构的3D对战网络游戏C++框架_05搭建系统开发环境与Boost智能指针、内存池初步了解
本系列博客主要是以对战游戏为背景介绍3D对战网络游戏常用的开发技术以及C++高级编程技巧,有了这些知识,就可以开发出中小型游戏项目或3D工业仿真项目. 笔者将分为以下三个部分向大家介绍(每日更新): ...
Ajax入门(三)
get和post请求 1,get方式: 在url地址后面以请求字符串(传递的get参数信息)形式传递数据. 例: aj.open('get','./03.php?name=3tu'); 在传递特 ...
【C#】菜单功能，将剪贴板JSON内容或者xml内容直接粘贴为类
VS 2015菜单功能,将剪贴板JSON内容或者xml内容直接粘贴为类
django 缓存、中间件、信号、CSRF 详解
中间件 django 中的中间件(middleware),在django中,中间件其实就是一个类,在请求到来和结束后,django会根据自己的规则在合适的时机执行中间件中相应的方法. 在django项 ...
HAproxy的安装与配置讲解
1,安装官网下载 http://www.haproxy.org/#down cd /usr/local/src/ wget http://www.haproxy.org/download/1.4/s ...
使用ARP欺骗, 截取局域网中任意一台机器的网页请求,破解用户名密码等信息
ARP欺骗的作用当你在网吧玩,发现有人玩LOL大吵大闹, 用ARP欺骗把他踢下线吧当你在咖啡厅看上某一个看书的妹纸,又不好意思开口要微信号, 用arp欺骗,不知不觉获取到她的微信号和聊天记录,吓一 ...
SOD让你的旧代码焕发青春
最近接手了一个旧的系统,各种陈旧的问题比较多,其中最棘手的就是操作数据库的部分,具体如下: 1.核心库是一个最后修改时间为2008年的库,先不说有多陈旧,现在这个库只是一个DLL文件,没有源码,也已经 ...
Oracle中已有数据的字段类型修改
创建测试表 create table t_person( id varchar2(200) primary key, name varchar2(200), address varchar2(200) ...
C#微信公众平台接入示例代码
http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 这是微信公众平台提供的接入指南.官网只提供了php的示例代码 ...
MAC上安装 HLA(High Level Assembly）
1.安装HLA 最新版的hla汇编器可在这里下载,支持MacOs,Linux,Windows平台 2.安装步骤将下载好的hla程序包放在Mac根目录下最重要的一步是设置好环境变量,打开Mac根目录 ...

python3的编码问题

python3的编码问题的更多相关文章

随机推荐

热门专题