python中unicode和unicodeescape

在python中，unicode是内存编码集，一般我们将数据存储到文件时，需要将数据先编码为其他编码集，比如utf-8、gbk等。

读取数据的时候再通过同样的编码集进行解码即可。

#python3

>>> s = '中国'

>>> a = s.encode()

>>> a

b'\xe4\xb8\xad\xe5\x9b\xbd'

>>> b = a.decode()

>>> b

'中国'

但是其实还有一种unicode-escape编码集，他是将unicode内存编码值直接存储：

#python3

>>> s = '中国'

>>> b = s.encode('unicode-escape')

>>> b

b'\\u4e2d\\u56fd'

>>> c = b.decode('unicode-escape')

>>> c

'中国'

拓展：还有一种string-escape编码集，在2中可以对字节流用string-escape进行编码

#python2

>>> s = '中国'

>>> a = s.decode('gbk')

>>> print a

中国

>>> b = s.decode('utf-8')

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "D:\python\python2.7\lib\encodings\utf_8.py", line 16, in decode

    return codecs.utf_8_decode(input, errors, True)

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid c

ontinuation byte

>>> c = s.decode('string-escape')

>>> print c

中国

chardet.detect()

使用chardet.detect()进行编码集检测时很多时候并不准确，比如中文过少时会识别成IBM855编码集：

#python3

>>> s = '中国'

>>> c = s.encode('gbk')

>>> chardet.detect(c)

{'encoding': 'IBM855', 'confidence': 0.7679697235616183, 'language': 'Russian'}

注：855 OEM 西里尔语 IBM855。

中文比较多时，还是准确的：

>>> s = '中国范文芳威风威风'

>>> c = s.encode('gbk')

>>> chardet.detect(c)

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

python中unicode和unicodeescape的更多相关文章

Python中Unicode字符串
Python中Unicode字符串字符串还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte ...
python中unicode和str的组合
python中unicode对象和str对象拼接在一起,会自动将str对象转换成unicode对象即:a="aa" b=u"bb" c=a+b type(c) ...
python中unicode, hex, bin之间的转换
python中unicode, hex, bin之间的转换背景在smb中有个feature change notify, 需要改动文件权限dacl,然后确认是否有收到notify.一直得不到这个d ...
python中unicode、utf8、gbk等编码问题
转自:http://luchanghong.com/python/2012/07/06/python-encoding-with-unicode-and-gbk-and-utf8.html 概要:编码 ...
python中unicode 和 str相互转化
python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]. 而python中的unicode对象应该才是等同于java中的S ...
python中unicode utf-8的互换
比较简单明了,直接上例子 # -*- coding: utf-8 -*- t0 = u'测试' #u'\u6d4b\u8bd5' t1 = '测试' #'\xe6\xb5\x8b\xe8\xaf\x9 ...
Python中出现 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: truncated \UXXXXXXXX escape
Python中出现 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: t ...
Python中读取txt文本出现：SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape问题解决
windows中的路径是反斜杠\,然而反斜杠\在python中有着转义字符的意义,所以在py文件中写windows文件路径的时候,要特别注意反斜杠\的使用. 下面有三种解决方式: 方式一:转义的方式 ...
Python报错：SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
运行python文件的时候报错: SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2 ...

随机推荐

Android onConfigurationChanged 不执行
自从Android 3.2(API 13),screen size也开始跟着设备的横竖切换而改变. 所以,在AndroidManifest.xml里设置的MiniSdkVersion和 TargetS ...
探寻C++最快的读取文件的方案 ——C++ IO优化
在竞赛中,遇到大数据时,往往读文件成了程序运行速度的瓶颈,需要更快的读取方式.相信几乎所有的C++学习者都在cin机器缓慢的速度上栽过跟头,于是从此以后发誓不用cin读数据.还有人说Pascal的re ...
OpenCV学习(4) Mat的基本操作(1)
图像在OpenCV中都是通过Mat类来存储的,Mat可以用来表示N维矩阵,当然用的最多的还是二维矩阵. Mat类有两部分组成:第一部分是头信息,这些信息主要用来描述矩阵,比如矩 ...
java 中函数的参数传递详细介绍
java中函数的参数传递总结: 1.将对象(对象的引用)作为参数传递时传递的是引用(相当于指针).也就是说函数内对参数所做的修改会影响原来的对象. 2.当将基本类型或基本类型的包装集作为参数传递时 ...
Hibernate之一对一关联映射
Hibernate中一对一关联映射共分为两种,一种是一对一主键关联映射,另一种是一对一唯一外键关联映射.下面简单介绍一下这两种关联映射. 一对一主键关联映射一对一主键关联映射的两个实体有相同的ID. ...
关于DrawIndexedPrimitive函数的调用
函数的原型例如以下所看到的: HRESULT DrawIndexedPrimitive( [in] D3DPRIMITIVETYPE Type, [in] INT BaseVertexIndex, [ ...
UNIX网络编程调试工具：tcpdump、netstat和lsof
tcpdump程序 tcpdump一边从网络读入分组一边显示关于这些分组的大量信息.它还能够只显示与所指定的准则匹配的那些分组. netstat程序 netstat服务于多个目的: (1)展示网络端点 ...
uva：10487 - Closest Sums（二分查找）
题目:10487 - Closest Sums 题目大意:给出一组数据,再给出m个查询的数字. 要求找到这组数据里的两个数据相加的和最靠近这个查询的数据,输出那两个数据的和. 解题思路:二分查找.这样 ...
全栈project师体能备战--知识面（10--20）
WCF Windows Communication Foundation(WCF)是由微软开发的一系列支持数据通信的应用程序框架,能够翻译为Windows 通讯开发平台. 对于 WCF 的client ...
用sql语句查出和sql相关的性能计数器
一台服务器上,用性能监视器死活显示不出来一部分计数器,没办法,用sql语句查了 --所有和sql相关的计数器 select * from sys.dm_os_performance_counters ...

python中unicode和unicodeescape

python中unicode和unicodeescape的更多相关文章

随机推荐

热门专题