Python8_关于编码解码和utf-8

关于编码：
ASCII码是早期的编码规范，只能表示128个字符。7位二进制数表示

扩展ASCII码，由于ASCII码不够用，ASCII表扩充到256个符号，不同的国家有不同的标准；8位二进制数

Unicode 准确来说不是编码格式，而是字符集。这个字符集包含了世界上所有的符号
所有字符长度统一用16位表示，因此字符是定长的；

GB2312 在ASCII码表的基础上，小于127的字符意义与原来相同，而将大于127的字节连在一起，表示汉字
前一个字节从0xA1(161)到0xF7(247)共87个，称为高字节，后一个字节从0xA1(161)到0xFE(254)共94字节，称为低字节。
两者可组合处8000种组合。可以用来表示6763个简体汉字、数学符号、罗马字母，日文等；
127以下的称为半角字符，两个字节的编码称为全角字符；
简单而言，GB2312就是在ASCII基础上的简体汉字扩展；

GBK 是对GB2312的扩展，完全兼容GB2312，达到了21886个汉字和符号

GB18030 收录了70244个汉字和字符，更加全面，与GB2312-1980和GBK相兼容

UTF 有两个格式UTF-8 UTF-16，表示每次传输8个位还是16个位，UTF-8等编码体积比较大，占电脑空间多

======================================================

encode和decode：

编码（动词）：按照某种规则（这个规则称为：编码（名词））将“文本”转换为“字节流”。而在python 3中则表示：unicode变成str

解码（动词）：将“字节流”按照某种规则转换成“文本”。而在python3中则表示：str变成unicode

bytes主要是给计算机看的，string主要是给人看的
中间有个桥梁是编码规则，主要的趋势是utf8
bytes对象是二进制的，很容易转换成十六进制
string就是我们看到的内容，如'abc'

string经过编码encode，转换成二进制对象，给计算机识别，
bytes经过反编码decode，转化成string，给我们看。

python3中的str类型对象有点像Python2中的unicode
python3中的str是未编码的，str有一个encode方法，调用这个方法之后将产生一个编码后的byte类型字符串
byte类型字符串才支持decode。

str encode bytes
bytes decode str

记住python3中有两个类型：字符串类型（Unicode字符）、bytes类型

=======================================================

Python中编码、解码与Unicode的联系：
字符串在Python内部的表示是Unicode编码，因此，在做编码转换时，通常需要以Unicode作为中间编码，即先将其他编码的字符串解码（decode）成Unicode，再从Unicode编码（encode）成另一种编码。

在新版本的python3中，取消了unicode类型，代替它的是使用unicode字符的字符串类型(str),字符串类型（str）成为基础类型如下所示，而编码后的变为了字节类型(bytes)但是两个函数的使用方法不变：

decode encode
bytes ------> str(unicode)------>bytes

例子：
u = '中文' #指定字符串类型对象u
str = u.encode('gb2312') #以gb2312编码对u进行编码，获得bytes类型对象str
u1 = str.decode('gb2312')#以gb2312编码对字符串str进行解码，获得字符串类型对象u1
u2 = str.decode('utf-8')#如果以utf-8的编码对str进行解码得到的结果，将无法还原原来的字符串内容

文件读取问题：
假如我们读取一个文件，文件保存时，使用的编码格式，决定了我们从文件读取的内容的编码格式，例如，我们从记事本新建一个文本文件test.txt, 编辑内容，保存的时候注意，编码格式是可以选择的，例如我们可以选择gb2312,那么使用python读取文件内容，方式如下：

f = open('test.txt','r')
s = f.read() #读取文件内容,如果是不识别的encoding格式（识别的encoding类型跟使用的系统有关），这里将读取失败

'''假设文件保存时以gb2312编码保存'''
u = s.decode('gb2312') #以文件保存格式对内容进行解码，获得unicode字符串

'''下面我们就可以对内容进行各种编码的转换了'''
str = u.encode('utf-8')#转换为utf-8编码的字符串str
str1 = u.encode('gbk')#转换为gbk编码的字符串str1
str1 = u.encode('utf-16')#转换为utf-16编码的字符串str1

codecs进行文件的读取
python给我们提供了一个包codecs进行文件的读取，这个包中的open()函数可以指定编码的类型：

import codecs
f = codecs.open('text.text','r+',encoding='utf-8') #必须事先知道文件的编码格式，这里文件编码是使用的utf-8
content = f.read() #如果open时使用的encoding和文件本身的encoding不一致的话，那么这里将将会产生错误
f.write('你想要写入的信息')
f.close()
=====================================================
在python2中，python2的默认编码是ASCII码，在做编码转换时，通常需要以unicode作为中间编码，所以在python2中先将其他编码的字符串解码（decode）成unicode，再从unicode编码（encode）成另一种编码

通常使用如下

str.decode('utf-8').encode('utf-8')

但是在python3中， 字符串的默认编码就是unicode，所以不需要解码，直接就可以编码成另一种编码

通常使用如下

str.encode('utf-8')
总之，python3中，decode是将其他编码解码成unicode编码，encode是将unicode编码成其他编码

也就是说只要事先知道某文件的编码格式，用该编码格式打开该文件，则读取出来的字符串都是unicode编码（python读文件时自动将其他编码格式->unicode编码）。

=====================================================

Python8_关于编码解码和utf-8的更多相关文章

字符集&各种编码&编码解码
要理解乱码问题,首先需要理解几个概念:字符集.编码.编码规则.乱码 1. 字符集: 字符(Character)是各种文字和符号的总称,包括各国家文字.标点符号.图形符号.数字等.字符集(Charact ...
C# base 64图片编码解码
使用WinForm实现了图片base64编码解码的效果图: 示例base 64编码字符串: /9j/4AAQSkZJRgABAQEAYABgAAD/2wBDAAgGBgcGBQgHBwcJCQgKD ...
java中文乱码解决之道（五）-----java是如何编码解码的
在上篇博客中LZ阐述了java各个渠道转码的过程,阐述了java在运行过程中那些步骤在进行转码,在这些转码过程中如果一处出现问题就很有可能会产生乱码!下面LZ就讲述java在转码过程中是如何来进行编码 ...
java中文乱码解决之道（六）-----javaWeb中的编码解码
在上篇博客中LZ介绍了前面两种场景(IO.内存)中的java编码解码操作,其实在这两种场景中我们只需要在编码解码过程中设置正确的编码解码方式一般而言是不会出现乱码的.对于我们从事java开发的人而言, ...
Unicode编码解码在线转换工具
// Unicode编码解码在线转换工具 Unicode 是基于通用字符集(Universal Character Set)的标准来发展,并且同时也以书本的形式(The Unicode Standar ...
.NET编码解码(HtmlEncode与HtmlEncode)
编码代码: System.Web.HttpUtility.HtmlEncode("<a href=\"http://hovertree.com/\">何问起& ...
sed处理url编码解码=== web日志的url处理
URL 编码/解码方法(linux shell实现),方法如下: 1.编码的两种方法: admin@~ 11:14:29>echo '手机' | tr -d '\n' | xxd -plain ...
ASP.NET中Url编码解码
今天遇到Url编码解码的问题,纠结了一天的时间,结果上网一查才发现太二了我们. 同事写的代码把url用HttpUtility.UrlEncode编码和解码了,本地测试没有问题,部署到服务器上就提示转码 ...
C++ Base64 编码解码
C++实现 base64 字符串编码解码(GCC编译). /** * @brief C++ base64 编解码 * @author wid * @date 2013-20-25 * * @note ...

随机推荐

【JZOJ4855】【NOIP2016提高A组集训第6场11.3】荷花池塘
题目描述于大夫建造了一个美丽的池塘,用来让自己愉快的玩耍.这个长方形的池子被分割成了M 行和N 列的正方形格子.池塘中有些地方是可以跳上的荷叶,有些地方是不能放置荷叶也不能跳上的岩石,其他地方是 ...
【NS2】NS2修改MAC协议（转载）
NS2版本:2.34 涉及NS2代码文件: ns-2.34/mac/channel.h ns-2.34/mac/channel.cc ns-2.34/mac/wireless-phyExt.h n ...
jQuery简介,安装
什么是 jQuery ? jQuery是一个JavaScript函数库. jQuery是一个轻量级的"写的少,做的多"的JavaScript库. jQuery库包含以下功能: HT ...
install tushare in python 3.6
install tushare (D:\Anaconda3) C:\Users\Administrator>pip install tushare Collecting tushare Down ...
AIDL基本用法
1. AIDL有什么用?用TA到目的是什么? 2. 怎么用AIDL? 1. AIDL有什么用? 1.1. 为了提高代码执行速度,将部分逻辑封入C/C++代码中 1.2. 为了调用这部分代码,使用JN ...
Android 使用SwipeActionAdapter开源库实现简单列表的左右滑动操作
我们做listview左右滑动操作时,一般中情况下,都是像QQ那样,左滑弹出操作菜单(删除.编辑),然后选择菜单操作: 这样的效果不可谓不好,算是非常经典. 另外,有少数的APP,尤其是任务管理类的A ...
part10.2-字符设备驱动模型
shell去掉最后一个字符
实测过第一种写法,可正常删除 sed 's/.$//' awk '{sub(/.$/,"")}1' awk '{printf $0"\b \n"}' ufile ...
Ext.FormPanel-----FieldSet的用法
Ext.form.FieldSet的常用配置项: 1.checkboxToggle : Mixed True表示在lengend标签之前fieldset的范围内渲染一个checkbox,或者送入一个D ...
本地测试读取redis和普通文件缓存的速度，redis慢一倍？
重新测试了,换成了Linux服务器,php5.6,512内存.连续读取1千次不同的文件(每个文件41KB),redis也是1千个不同的key,文件缓存还是比redis快! 但是,但是,后来我换成连续读 ...

Python8_关于编码解码和utf-8

Python8_关于编码解码和utf-8的更多相关文章

随机推荐

热门专题