字符编码,pyton中的encode,decode,unicode()
1.在计算机处理的程序中,对字符的处理有两种方式:编码或译码(encoding),解码(decoding)
encoding:将字符串中的字符转换到对应编码字符集对应的代码点
每一个代码点对于了一些数字,计算机真正存的是这些数字
如:
"python",转换到unicode码的对应为:
P y t h o n
0x50 00 00 00 79 00 00 00 74 00 00 00 68 00 00 00 6f 00 00 00 6e 00 00 00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
decoding:将别的编码解析为当前环境的编码,如当前环境是unicode,则
string.decode('utf8'),将将字符串从utf8转换为unicode
2.几种编码:
ASCLL, unicode, Latin-1又名ISO-8859-1
ASCLL:表示的范围为:0--127的字符
unicode: 表示的范围为0--(2^16-1)个字符
Latin-1或ISO-8859-1:0--(2^16-1)个字符
UTF-8:(Unicode Transformation Format),8表示使用8位数字编码,
表示的范围很广,有一个字节,两个字节,三个字节存储的
其中:unicode和Latin-1编码的前127个字符编码跟ASCLL一样,后面的unicode和
Latin-1不一样,所以当unicode和latin-1转码为ASCLL时,若都是英文,
是不会出错的,当是中文时,会出错,而当unicode转换为Latin-1时,只转换
大于127的字符编码的字符就可以了
ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,
0x00-0x7F之间完全和ASCII一致,0x80-0x9F之间是控制字符,0xA0-0xFF
之间是文字符号。
UTF-8:编码的规则:
1,如果代码点小于128,用一个字节存,这个和ASCLL兼容的
2,如果代码点的范围为128 -- 255,用两个字节存储
3,大于255的有的以三个字节存储,有的以四个字节存储
UTF-8的一些方便的特性:
1,可以操作unicode的代码点
2,一个unicode字符集编码的字符串,存在的编码中不含有0字节,这避免了字节的
排序问题,意味着,utf-8字符串可以使用C风格的函数如strcpy()来处理字符串,
(C语言中遇到0为字符串截至了)
3,一个ASCLL字符串也是有效的UTF-8字符串
4,utf-8使用紧凑压缩,大多数的代码点都转换为两个字节,小于128的转换
为一个字节
3.python 默认编码是ASCLL,所以要展示中文时,应该加一句其他编码声明,如utf-8,
在文件的第一或第二句添加:# -*- coding:utf-8 -*-
当文件中出错时,会报错不支持的ASCLL码,英文中文编码后,大于127,所以报错
4,python中unicode的应用:
1,unicode是python中内置的存储类型,这个来源于抽象数据类型basestring,这
也是str的祖先,如果想判断一个字符串类型的值可以这样:
if isinstance(value, basestring),python呈现unicode字符串在16位和32位
之间,这个依赖于相应的解析器
2,unicode()构造函数:
unicode(string, encoding, errors),string是将要被转换为unicode码
的字符串,encoding指定原字符串的字符集,errors有三个值:strict出现
转码错误时,报异常UnicodeDecodeError,replace将其以FFFD存储,ignore
不管这个错误,丢失掉这个字符
不写encoding时,默认为ASCLL码,如:
例子1:
>>> unicode('python')
u'python'
例子2:
>>> unicode('python' + chr(255))
Traceback (most recent call last):
...
UnicodeDecodeError: 'ascii' codec can't decode byte 0xff in
position 6: ordinal not in range(128)
例子3:
>>> unicode('\x80abc', errors='strict')
Traceback (most recent call last):
...
UnicodeDecodeError: 'ascii' codec can't decode byte 0x80 in position 0:
ordinal not in range(128)
例子4:
>>> unicode('\x80abc', errors='replace')
u'\ufffdabc'
例子5:
>>> unicode('\x80abc', errors='ignore')
u'abc'
3,使用unichr()函数可以自定代码点的值,得到对于的unicode表示
ord()函数可以将unicode编码格式得到其对应的十进制数字
如:
>>> unichr(409600)
u'\ua000' -> a000 = b1010000 00000000 = 40960
>>> ord(u'\ua000')
40960
4,因为unicode兼容8位的ASCLL编码,所以,对于英文字符串,或代码的值小于
128的都可以用一些8位字符串类型的操作,如搜索,格式化等:
string.count('e') -->计算字符串string中的e出现的次数
string.find('feather') -->查找在string中出现字串feather的第一个位置
找到返回第一个位置,为找到返回-1
string.replace('from','to'),将string中的所有from替换为to
但如果是大于127的使用这些函数,就会报错,如
>>> s = 'python'
>>> s.find('was\x9f')
Traceback (most recent call last):
...
UnicodeDecodeError: 'ascii' codec can't decode byte 0xff in
position 3: ordinal not in range(128)
5,string.encode(encoding, error)函数:
改函数为将string编码为指定的编码,error的参数跟unicode()函数类似
但前提是,原来的编码已经是8位数字的编码了,所以,在使用前,应该是:
1,string.decode('utf8').encode('utf8'),decode('utf8'),
将字符串string从utf8解析为unicode码,然后转换为utf8
2,string.decode('gbk').encode('utf8'),将原来的字符串从gbk编码
转换为unicode码,然后转换为utf8
如:
#原始字符串,包含了代码点为40960的字符,也有小于128的字符串abcd
>>> u = unichr(40960) + u'abcd' + unichr(1972)
#转换为对应的utf-8编码
>>> u.encode('utf-8')
'\xea\x80\x80abcd\xde\xb4'
#转换为对于的ASCLL码,由于有大于127的代码点,报错
>>> u.encode('ascii')
Traceback (most recent call last):
...
UnicodeEncodeError: 'ascii' codec can't encode character
u'\ua000' in position 0: ordinal not in range(128)
#当参数为ignore时,大于127的代码点的数据丢失
>>> u.encode('ascii', 'ignore')
'abcd'
#有两种替换方式,都可以使用
>>> u.encode('ascii', 'replace')
'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
'ꀀabcd'
字符编码,pyton中的encode,decode,unicode()的更多相关文章
- 字符编码和python使用encode,decode转换utf-8, gbk, gb2312
ASCII码 标准ASCII码使用7位二进制数表示大写或小写字母,数字0到9标点符号以及在美式英语中使用的特殊控制字符. 在标准ASCII码中,最高位(b7)用作奇偶校验位,所谓奇偶校验,是指在代码传 ...
- 字符编码终极笔记:ASCII、Unicode、UTF-8、UTF-16、UCS、BOM、Endian
1.字符编码.内码,顺带介绍汉字编码 字符必须编码后才能被计算机处理.计算机使用的缺省编码方式就是计算机的内码.早期的计算机使用7位的ASCII编码,为了处理汉字,程序员设计了用于简体中文的GB231 ...
- 第48篇 字符编码探密--ASCII,UTF8,GBK,Unicode
原文地址:http://blog.laofu.online/2017/08/22/encode-string/ ASCII 的由来 在计算机的“原始社会”,有人想把日常的使用的语言使用计算机来表示, ...
- 常见三种字符编码的区别:ASCII、Unicode、UTF-8
什么是字符编码? 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255( ...
- 字符编码的来源,ascii、unicode和utf-8编码的关系
字符编码 我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机在设计时采用8个比特 ...
- 字符编码的发展(ASCII、Unicode、utf-8)
最近一直在看廖雪峰老师的python网上教程,python内容简单易理解,就没整理,但是字符串编码作为一直困扰自己的问题,看了几遍文章,最终还是将其整理如下,本篇博客总结自廖雪峰老师的网上教程:htt ...
- 字符编码ANSI和ASCII区别、Unicode和UTF-8区别
ANSI码ANSI编码是一种对ASCII码的拓展:ANSI编码用0x00~0x7f (即十进制下的0到127)范围的1 个字节来表示 1 个英文字符,超出一个字节的 0x80~0xFFFF 范围来表示 ...
- python encode decode unicode区别及用法
decode 解码 encode 转码 unicode是一种编码,具体可以百度搜 # coding: UTF-8 u = u'汉' print repr(u) # u'\u6c49' s = u.en ...
- php字符编码转换中的iconv与mb_convert_encoding用法
iconv ( 'UTF-8' , 'GBK' , $str ); //将$str字符串 utf-8 编码转换成 gbk: 另外,5.4.0 这个版本起,字符非法时候会返回 FALSE,除非在输出字符 ...
随机推荐
- react与mox-react的shouldComponentUpdate 理解
react性能优化中,提到的就是通过 React.PureComponent 替换 React.Component 组件进行编程. 两个组件之间的不同主要就是PureComponent做了should ...
- js正则表达大合集【转载自:http://caibaojian.com】
[注明原文链接吧]:http://caibaojian.com 1 用户名正则 //用户名正则,4到16位(字母,数字,下划线,减号) var uPattern = /^[a-zA-Z0-9_-]{4 ...
- 【ASP.NET MVC】HTML5+MVC上传文件显示进度
head> <title>Index</title> <style type="text/css"> #statusBorder { po ...
- 2. 创建一个简单的Maven项目
☞ 创建项目 选定一个目录,如E:\workspace\maven,新建的项目将放在这个目录. 运行CMD,切换到该目录. 执行mvn archetype:generate直到输出"Choo ...
- Windows 下使用 mingw+msys 交叉编译 Android Unity Mono
对于没有升级到 Unity5.4的用户,发布安卓版本都会有对 C# 脚本进行加密的需求,我们项目在裸奔了很长时间后,决定开始做这件事. 网上查看了很多资料,我很希望直接在 windows 下编译而不去 ...
- 34、Flask实战第34天:修改邮箱
修改邮箱页面布局 新建cms/cms_resetemail.html {% extends 'cms/cms_base.html' %} {% block title %}修改邮箱-CMS管理系统{% ...
- 【BZOJ 3672】 3672: [Noi2014]购票 (CDQ分治+点分治+斜率优化)**
3672: [Noi2014]购票 Description 今年夏天,NOI在SZ市迎来了她30周岁的生日.来自全国 n 个城市的OIer们都会从各地出发,到SZ市参加这次盛会. 全国 ...
- codevs1033 蚯蚓的游戏问题 裸最小费用最大流,注意要拆点
因为蚯蚓走过的路径不能重合,所以把每个点拆成两个点,容量赋为1,保证不会走过相同的点,再加超级源点(程序中为1)和一个辅助点(程序中为2)容量赋为k来控制蚯蚓的数量,最后汇集到一个超级汇点上.做一遍最 ...
- SNOI2017(BZOJ5015~5018)泛做
T1:礼物 想错方向了,实际上很简单. 我想的是:显然题目求的是$\sum_{i=1}^{n} i^{k}2^{i}$,然后或许可以通过化式子变成与n无关的复杂度? 然后就不停往斯特林数反演和下降幂的 ...
- 【构造】【分类讨论】Codeforces Round #435 (Div. 2) C. Mahmoud and Ehab and the xor
题意:给你n,x,均不超过10^5,让你构造一个无重复元素的n个元素的非负整数集合(每个元素不超过10^6),使得它们的Xor和恰好为x. 如果x不为0: 随便在x里面找一个非零位,然后固定该位为0, ...