python中unicode和unicodeescape

在python中，unicode是内存编码集，一般我们将数据存储到文件时，需要将数据先编码为其他编码集，比如utf-8、gbk等。

读取数据的时候再通过同样的编码集进行解码即可。

#python3

>>> s = '中国'

>>> a = s.encode()

>>> a

b'\xe4\xb8\xad\xe5\x9b\xbd'

>>> b = a.decode()

>>> b

'中国'

但是其实还有一种unicode-escape编码集，他是将unicode内存编码值直接存储：

#python3

>>> s = '中国'

>>> b = s.encode('unicode-escape')

>>> b

b'\\u4e2d\\u56fd'

>>> c = b.decode('unicode-escape')

>>> c

'中国'

拓展：还有一种string-escape编码集，在2中可以对字节流用string-escape进行编码

#python2

>>> s = '中国'

>>> a = s.decode('gbk')

>>> print a

中国

>>> b = s.decode('utf-8')

Traceback (most recent call last):

  File "<stdin>", line 1, in <module>

  File "D:\python\python2.7\lib\encodings\utf_8.py", line 16, in decode

    return codecs.utf_8_decode(input, errors, True)

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd6 in position 0: invalid c

ontinuation byte

>>> c = s.decode('string-escape')

>>> print c

中国

chardet.detect()

使用chardet.detect()进行编码集检测时很多时候并不准确，比如中文过少时会识别成IBM855编码集：

#python3

>>> s = '中国'

>>> c = s.encode('gbk')

>>> chardet.detect(c)

{'encoding': 'IBM855', 'confidence': 0.7679697235616183, 'language': 'Russian'}

注：855 OEM 西里尔语 IBM855。

中文比较多时，还是准确的：

>>> s = '中国范文芳威风威风'

>>> c = s.encode('gbk')

>>> chardet.detect(c)

{'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}

python中unicode和unicodeescape的更多相关文章

Python中Unicode字符串
Python中Unicode字符串字符串还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte ...
python中unicode和str的组合
python中unicode对象和str对象拼接在一起,会自动将str对象转换成unicode对象即:a="aa" b=u"bb" c=a+b type(c) ...
python中unicode, hex, bin之间的转换
python中unicode, hex, bin之间的转换背景在smb中有个feature change notify, 需要改动文件权限dacl,然后确认是否有收到notify.一直得不到这个d ...
python中unicode、utf8、gbk等编码问题
转自:http://luchanghong.com/python/2012/07/06/python-encoding-with-unicode-and-gbk-and-utf8.html 概要:编码 ...
python中unicode 和 str相互转化
python中的str对象其实就是"8-bit string" ,字节字符串,本质上类似java中的byte[]. 而python中的unicode对象应该才是等同于java中的S ...
python中unicode utf-8的互换
比较简单明了,直接上例子 # -*- coding: utf-8 -*- t0 = u'测试' #u'\u6d4b\u8bd5' t1 = '测试' #'\xe6\xb5\x8b\xe8\xaf\x9 ...
Python中出现 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: truncated \UXXXXXXXX escape
Python中出现 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 12-13: t ...
Python中读取txt文本出现：SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape问题解决
windows中的路径是反斜杠\,然而反斜杠\在python中有着转义字符的意义,所以在py文件中写windows文件路径的时候,要特别注意反斜杠\的使用. 下面有三种解决方式: 方式一:转义的方式 ...
Python报错：SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
运行python文件的时候报错: SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2 ...

随机推荐

（Inside Out） Web地图坐标系——TDT的奇妙
一个GIS科班出生的研究生.把已还到课本的基础GIS知识,准备又一次学习,并结合这几年下来自身在行业中GIS的应用.总结一些有用的GIS知识点.一备不时之需,二为积累沉淀,三则是年龄越大.记性越差,加 ...
C#和Java交互相关研究
之前总觉得C#和Java可以交互应用,但是由于时间以及其他方面的原因,一直没有调研.今天抽空搜了一下,终于折腾出来了. 以下是我自己就C#和Java整合的一些提问和分析,如果有不对的地方,请路过的各位 ...
c# 注册表操作,创建,删除,修改,判断节点是否存在
用.NET下托管语言C#操作注册表,主要内容包括:注册表项的创建,打开与删除.键值的创建(设置值.修改),读取和删除.判断注册表项是否存在.判断键值是否存在. 准备工作: 1:要操作注册表,我们必须 ...
RUP（Rational Unified Process），统一软件开发过程
RUP(Rational Unified Process),统一软件开发过程 https://baike.baidu.com/item/RUP/8924595?fr=aladdin RUP最重要的它有 ...
win8.1安装开发工具 vs2015 Visual Studio 2015 Preview Downloads
1.首先全新安装win8.1 略破解激活.... 2.安装Visual Studio 2015 Visual Studio 2015 是免费的,不存在破解版本, 如果安装过程中存在问题,建议先把本文 ...
photoshop cs6 Mac版本
地址:http://trials2.adobe.com/AdobeProducts/PHSP/13/osx10/Photoshop_13_LS3.dmg 说明:http://www.nowmac.co ...
Reduce 优化（mapr）
1.合理设计桶的大小,插入桶的时候,桶的数目和reduce的数目一致,结合map的输出大小合理设置桶的大小,否则在reduce阶段就会非常慢. 2.查看reduce的copy的速率,如果map out ...
Citrix服务器虚拟化之二十九 XenApp 6.5发布服务器上的应用程序
Citrix服务器虚拟化之二十九 XenApp 6.5发布服务器上的应用程序 XenApp可发布以下类型的资源向用户提供信息访问,这些资源可在服务器或桌面上虚拟化: 1) 服务器桌面:发布场中服务 ...
从零开始编写自己的C#框架（25）——网站部署【转】
服务器安全部署文档目录1. 前言.. 3 2. 部署环境.. 3 2.1 服务器环境信息.. 3 3. 磁盘阵列配置.. 4 4. 安装操作系统.. ...
mybatis模糊查询语句
articletitle like concat('%',#{articletitle},'%')

python中unicode和unicodeescape

python中unicode和unicodeescape的更多相关文章

随机推荐

热门专题