python中字符编码及unicode和utf-8区别

ascii和unicode是字符集，utf-8是编码集

字符集：为每一个「字符」分配一个唯一的 ID（学名为码位 / 码点 / Code Point）
编码规则：将「码位」转换为字节序列的规则（编码/解码可以理解为加密/解密的过程）

ascii每个字符占用一个字节（8位），其中第一位恒为0，因此ascii一共可以表示128个字符

unicode每个字符占用两个字节（16位），可以用来表示汉字

链接：https://www.zhihu.com/question/23374078/answer/24385963
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

关于UTF-8

UTF-8 顾名思义，是一套以 8 位为一个编码单位的可变长编码。会将一个码位编码为 1 到 4 个字节：

unicode和ascii都是一种对字符的编码方式，规定了字符的二进制表示，却没规定这个二进制代码如何存储。

所以在一个系统中，如何正确的区分unicode和ascii编码呢？于是就有了utf-8，utf-8主要就是对【字符的二进制代码】进行编码

utf-8如何编码

对于单字节，utf-8就使用一个字节编码，第一位为0，剩下七位为【字符的二进制代码】，这和ascii是一样的。

对于多字节来说，假设是N字节，那么对于第一个字节来说前N位都是1，第N+1位是0，第二个字节前两位是10，第三个及后面的字节前两位也都是10，余下的位就用【字符的二进制代码】补充。

这就是对utf-8对unicode即【字符的二进制代码】的一种编码方式。

utf-8如何解码

如何第一位是0，表示是这个字节就是一个字符，如果第一位是1，统计一下一共多少个1，1的个数就表示字符的字节数

在UTF-8中字母占一个字节，汉字占三个字节

python中的字符编码问题

在python中默认的字符编码方式是ansii,所以当输入中文时会报错，这是需要在第一行加上#encoding=utf-8,就可以将中文用utf-8来进行编码了，对于英文来说它的编码方式还是ansii,

对于unicode来说，他就直接采用unicode编码方式

#encoding=utf-

import chardet //查看字符串编码方式

a = '哈哈'

b = 'abc'

c = u'你好'

print len(a) //utf-8,一个字符三位

print len(b)

print len(c) //unicode为什么是两位

print chardet.detect(a)

print chardet.detect(b)

print type(a)

print type(b)

print type(c)

------output---------

{'confidence': 0.7525, 'language': '', 'encoding': 'utf-8'}

{'confidence': 1.0, 'language': '', 'encoding': 'ascii'}

<type 'str'>

<type 'str'>

<type 'unicode'>

str和unicode转化

str是对【字符二进制代码】编码后的内容，它可以采用ansii,utf-8进行编码

unicode -> str 通过 encode('')方法，默认是ansii

str -> unicode 通过decode('')

d = a.decode('utf-8') //a为上文

print type(d)

------output-------

<type 'unicode'>

参考博客：

http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html

http://blog.51cto.com/9478652/2057896

python中字符编码及unicode和utf-8区别的更多相关文章

Python中字符编码及转码
python 字符编码及转码 python 默认编码 python 2.X 默认的字符编码是ASCII, 默认的文件编码也是ASCII python 3.X 默认的字符编码是unicode,默认的文件 ...
python的str，unicode对象的encode和decode方法, Python中字符编码的总结和对比bytes和str
python_2.x_unicode_to_str.py a = u"中文字符"; a.encode("GBK"); #打印: '\xd6\xd0\xce\xc ...
python中的编码问题：以ascii和unicode为主线
1.unicode.gbk.gb2312.utf-8的关系 http://www.pythonclub.org/python-basic/encode-detail 这篇文章写的比较好,utf-8 ...
Python的字符编码
Python的字符编码 1. Python字符编码简介 1. 1 ASCII Python解释器在加载.py文件的代码时,会对内容进行编码,一般默认为ASCII码.ASCII(American St ...
Python常见字符编码间的转换
主要内容: 1.Unicode 和 UTF-8的爱恨纠葛 2.字符在硬盘上的存储 3.编码的转换 4.验证编码是否转换正确 5.Python bytes类型前 ...
彻底搞懂Python的字符编码
前言:中文编码问题一直是程序员头疼的问题,而Python2中的字符编码足矣令新手抓狂.本文将尽量用通俗的语言带大家彻底的了解字符编码以及Python2和3中的各种编码问题. 一.什么是字符编码. 要彻 ...
转：Python常见字符编码及其之间的转换
参考:Python常见字符编码 + Python常见字符编码间的转换一.Python常见字符编码字符编码的常用种类介绍第一种:ASCII码 ASCII(American Standard Cod ...
Python基础-字符编码与转码
***了解计算机的底层原理*** Python全栈开发之Python基础-字符编码与转码需知: 1.在python2默认编码是ASCII, python3里默认是utf-8 2.unicode 分为 ...
小话python 中的编码转换
1.前言: 一直认为自己会了,也明白了其中的知识,但是过几天不用就马上忘记了,总不能天天复习吧!还是来个好记性不如烂笔头吧! 2.编码: python解释器在加载 .py 文件中的代码时,会对内容进行 ...

随机推荐

tomcat9 点击bin目录下的startup.bat一闪而过
我装的是tomcat9免安装版,jdk版本是11,之后去tomcat bin目录下点击startup.bat闪退(好吧,只有想办法解决了) 博客中的解决办法五花八门,什么环境变量没配好....不过都不 ...
Fourier Transform Complex Conjugate Discussion
FT of function $f(t)$ is to take integration of the product of $f(t)$ and $e^{-j\Omega t}$. By separ ...
基于opencv图片切割
基于opencv图片切割为n个3*3区块工作原因,切割图片,任务急,暂留调通的源码,留以后用. package com.rosetta.image.test; import org.opencv.c ...
kubernetes 利用label标签来绑定到特定node运行pod
利用label标签来绑定到特定node运行pod: 不如将有大量I/O的pod部署到配置了ssd的node上或者需要使用GPU的pod部署到某些安装了GPU的节点上查看节点的标签: kubectl ...
PHP——base64的图片转为文件图片
前言网上很多,真的是有毒吧,一个那么简单至于写的乱七八糟的嘛,醉了. 代码具体都写注释中了,不懂的可以评论或者私信我 public function upload() { //接收前台的值 $ba ...
洛谷P2858奶牛零食题解
题目这个题一开始能看出来是一道动态规划的题目,但是并不知道如何写状态转移方程,但是我们可以想一想这个题应该是一道区间DP,而区间DP的特点就是状态转移方程一般跟该区间的左节点和右节点或者中间断点有关 ...
洛谷P4281 紧急集合 / 聚会
LCA 题目要求找离三个点最近的点,我们先看两个点的情况,自然是找LCA,那么三个点的时候是否与LCA有关呢? 显然,离三个点最近的点一定是在这三个点联通的简单路径上. 可以简单证明一下,假设某个点离 ...
【BZOJ4653】【NOI2016】区间线段树
题目大意数轴上有$n$个闭区间$[l_1,r_1],[l_2,r_2],\ldots,[l_n,r_n]$,你要选出$m$个区间,使得存在一个$x$,对于每个选出的区间\([l_i, ...
【XSY1591】卡片游戏 DP
题目描述有标有数字为$1$~$9$的卡片各$a_1,a_2\cdots a_9$张,还有标有乘号的卡片$m$张.从中取出$n$张按任意顺序排列,取出两个乘号相邻和乘法在边界上的非 ...
Codeforces Round #530 (Div. 2) F (树形dp+线段树）
F. Cookies 链接:http://codeforces.com/contest/1099/problem/F 题意: 给你一棵树,树上有n个节点,每个节点上有ai块饼干,在这个节点上的每块饼干 ...

python中字符编码及unicode和utf-8区别

python中字符编码及unicode和utf-8区别的更多相关文章

随机推荐

热门专题