bytes类型和python中编码的转换方法

一、bytes类型

bytes类型是指一堆字节的集合，在python中以b开头的字符串都是bytes类型。例如：

>>> a = "中国"

>>> a.encode("utf-8")

b'\xe4\xb8\xad\xe5\x9b\xbd'

py3中字符串都是Unicode编码，显示正常字符，其余编码的数据都以bytes类型显示。

bytes类型的作用：

计算机只能存储2进制，我们的字符、图片、视频、音乐等想存到硬盘上，也必须以正确的方式编码成2进制后再存。

对于文字，我们可以以gbk编码，也可以以utf-8、ASCII编码。

对于图片，必须编码成PNG,JPEG等格式

对于音乐，必须编码成MP3,WAV等...

在python中，数据转成2进制后不是直接以0101010的形式表示的，而是用一种叫bytes(字节)的类型来表示，其中用16进制表示的二进制字节，即一个16进制表示四位二进制，2个16进制代表一个字节。

在python中，字符串必须编码成bytes后才能存到硬盘上。如果不在文件头声明编码，python3在文件存储中默认用utf-8编码。

另外，python中，字符的编码例如gbk、utf-8、ASCII等还可以识别转换，而图片、音乐、视频等，编码不能识别，只能以bytes形式出现，传输存储。

二、python中编码的转换方法

编码转换是指将一种编码转成另外一种编码，比如 utf-8 to gbk。

编码转换的作用：

不同操作系统编码不同， utf-8在win上没办法直接看，因为windows是GBK编码的，得转成gbk。

反过来如果你的GBK字符相在Linux\Mac上正常显示，就得转成utf-8编码。

另外，或者在python中将字符串定义直接定义为unicode编码，引号前加u，在任何系统都正常显示：

a = u"word"

>>> a

u'word'

>>> type(a)

<type 'unicode'>

编码转换的方法:

decode()解码，encode()编码

UTF-8 --> decode 解码 --> Unicode

Unicode --> encode 编码 --> GBK / UTF-8

例如：

>>> a = "中国"

>>> b = a.encode("utf-8")

>>> print(b)

b'\xe4\xb8\xad\xe5\x9b\xbd'

>>> b.decode("utf-8")

'中国'

注：以什么编码，就要以什么解码，要不然就出错或者乱码了

bytes类型和python中编码的转换方法的更多相关文章

Python3.x中bytes类型和str类型深入分析
Python 3最重要的新特性之一是对字符串和二进制数据流做了明确的区分.文本总是Unicode,由str类型表示,二进制数据则由bytes类型表示.Python 3不会以任意隐式的方式混用str和b ...
Sql Server中的数据类型和Mysql中的数据类型的对应关系(转)
Sql Server中的数据类型和Mysql中的数据类型的对应关系(转):https://blog.csdn.net/lilong329329/article/details/78899477 一.S ...
Python中编码的详细讲解
看这篇文章前,你应该已经知道了为什么有编码,以及编码的种类情况 ASCII 占1个字节,只支持英文 GB2312 占2个字节,支持6700+汉字 GBK GB2312的升级版,支持21000+汉字 S ...
python中编码问题
各种编码在内存中所占的大小: ascii: 英文:8bit (1B) uft-: 英文:8bit (1B) 中文:24bit (3B) GBK: 英文:8bit (1B) 中文:16bit (2B) ...
Python中编码问题：u'\xe6\x97\xa0\xe5\x90\x8d' 类型和 ‘\u559c\u6b22\u4e00\u4e2a\u4eba ’ 转为utf-8的解决办法
相信小伙伴们遇到过类似这样的问题,python2中各种头疼的转码,类似u'\xe6\x97\xa0\xe5\x90\x8d' 的编码,直接s.decode()是无法解决编码问题.尝试了无数办法,都无法 ...
Python中编码和字符串
编码和字符串编码在学习回顾中总结一下ASCII编码.Unicode编码和utf-8编码. 计算机中只能处理数字,我们若要处理文本的话就要将文件转换为数字.所以,这就涉及该怎样转换的问题,也就是编码 ...
理解Python中编码的应用
完全理解字符编码与 Python 的渊源前,我们有必要把一些基础概念弄清楚,虽然有些概念我们每天都在接触甚至在使用它,但并不一定真正理解它.比如:字节.字符.字符集.字符码.字符编码. 字节字节( ...
Python中编码问题：u'\xe6\x97\xa0\xe5\x90\x8d' 类型的转为utf-8的解决办法
相信小伙伴们遇到过类似这样的问题,python2中各种头疼的转码,类似u'\xe6\x97\xa0\xe5\x90\x8d' 的编码,直接s.decode()是无法解决编码问题.尝试了无数办法,都无法 ...
python小知识-__call__和类装饰器的结合使用，数据描述符__get__\__set__\__delete__（描述符类是Python中一种用于储存类属性值的对象）
class Decorator(): def __init__(self, f): print('run in init......') self.f = f def __call__(self, a ...

随机推荐

nodejs下cannot post错误
我写了一段CoffeeScript代码,主要是流程为: 1.当客户端请求方式为GET时,输出页面,页面上有个form,form 里有个submit按钮.form的 action="" ...
从新浪微博和MySQL的password保护机制谈HTTPS/SSL的必要性
尽管业界已经达成共识,在传输用户password等须要保密的信息时,尽可能採用HTTPS/SSL协议传输. 但我们还是能够看到少数没实用HTTPS/SSL加密的站点或应用. 新浪微博的登录页面和MyS ...
P2495 [SDOI2011]消耗战虚树
这是我做的第一道虚树题啊,赶脚不错.其实虚树也没什么奇怪的,就是每棵树给你一些点,让你多次查询,但是我不想每次都O(n),所以我们每次针对给的点建一棵虚树,只包含这些点和lca,然后在这棵虚树上进行树 ...
Linux基本命令文件管理上部
第1章 Linux入门相关目录基本知识 Linux一切从根开始倒挂的树形结构对路径与相对路径绝对路径: 从根开始的路径比如:/oldboy /data 相对路径: 没有从根开始的路径比如 ...
E20170919-hm
infinity n. <数>无穷大; 无限的时间或空间;
Paratroopers(最小割模型)
http://poj.org/problem?id=3308 题意:一个m*n的网格,有L位火星空降兵降落在网格中,地球卫士为了能同时消灭他们,在网格的行或列安装了一个枪支,每行或每列的枪支都能消灭这 ...
Django day26 HyperlinkedIdentityField，序列化组件的数据校验以及功能的（全局，局部）钩子函数，序列化组件的反序列化和保存
一:HyperlinkedIdentityField(用的很少):传三个参数:第一个路由名字,用来反向解析,第二个参数是要反向解析的参数值,第三个参数:有名分组的名字 -1 publish = ser ...
Sqoop 是什么？（二）
Sqoop 是传统数据库与 Hadoop 之间数据同步的工具,它是 Hadoop 发展到一定程度的必然产物,它主要解决的是传统数据库和Hadoop之间数据的迁移问题.Sqoop 是连接传统关系型数据库 ...
Java系列学习(三)-基础语法
1.关键字特点:全部小写 2.标识符 (1)就是给类,接口,方法等起名字的字符序列 (2)组成规则: A:英文大小写字母 B:数字 C:$和_ (3)注意事项: A:不能以数字开头 B:不能是jav ...
JavaScript的相关知识
Oject.assign() // Cloning an object var obj = { a: 1 }; var copy = Object.assign({}, obj); conso ...

bytes类型和python中编码的转换方法

bytes类型和python中编码的转换方法的更多相关文章

随机推荐

热门专题