python基础一 ------Python 的编码
首先了解一下历史,但是本篇文章冗杂,如老太太裹脚布----------又臭又长
编码历史:
1. 计算机只能处理数字,文本文件只有转换为数字
才能处理。8bit==1字节 所以一个字节能表示的最大的数就是255
2. 美国人发明计算机。用英语,所有一个字节就表示了所有字符
就是ASCII(一个字节) 编码就是美国人的标准编码
3. 当中国人使用计算机时,需要表示中文字符,于是就发明了
GB2312的编码格式,即用两个字节表示一个汉字。同理,其他语言国家
也就创建了自己相应的编码。没有一个共同的标准,于是当不同语言用
了不对应的编码就会产生乱码
4.为统一标准,Unicode 编码出现了,所有语言统一到一套编码
Unicode与ASCII 编码比较
1) 字母A: ASCII 十进制65,二进制就是 0100 0001
汉字中 ASCII表示不了 采用Unicode编码为20013 二进制:01001110 00101101
2) 为计算机识别统一长度,所以A 前面位置补0 即 00000000 0100 0001
标准就此统一
5. 标准统一了,乱码问题解决了,但是Unicode编码长度较长,但计算机英文为主,
若内容若全是英文,Unicode编码就比ASCII编码多一倍存储空间,同时传输也多一倍
怎么解决呢?
6.要是Unicode 编码可以变化就好了,于是UTF-8 出现了
utf-8 中,字母一个字节,一个汉字3个字节,特别生僻的4-6个
于是节约了空间和存储
7,那么问题来了:计算机只认Unicode 编码
utf-8 之间怎样转换的
如图:
当需要被计算机识别时,就会加载到内存,此时采用的编码就必须是Unicode 编码
当需要在网络中传输时,或者存储在文件中时,就采用UTF-8编码,为了节约空间成本
所以就有了相互转化
python2 和python3 在Windows/Linux 上的编码转换
python2:
在Windows:
1. 先来看看window 本身是什么编码
import sys
sys.getdefaultencoding()
#out: "utf-8"
2. 字符串全部英文
s1= "abc" --> type(s1):str
s2 = u"abc" --> type(s2):Unicode
u""的意义:表示将后面的字符串以unicode格式存储
s1.encode("utf8") 成功
s2.encode("utf8") 成功
3. 当出现中文时:
s1 = "你好" --> GB2312编码。windows下
s2 = u"你好"
s1.encode("utf8") 报错
s2.encode("utf8") 成功
报错原因:
在内存中是以Unicode 进行编码的,但是
s1 在传递过来时就是不是Unicode编码了(原因是存储浪费),而
encode是将一个Unicode 对象转化为参数中的编码格式进行编码
所以说 s2不会报错
解决办法:
先将这个gb2312的编码转化为unicode编码的对象
然后再转化为utf-8
s1.decode("gb2312").ecode("utf8") 成功 Windows下为"gb2312"
decode("xx")方法是将一个编码为"xx"的对象转化
为Unicode对象
在Linux下:
1. 先来看看linux 本身是什么编码
import sys
sys.getdefaultencoding()
#out: "ascii"
2. 字符串全部英文
s1= "abc" --> type(s1):str
s2 = u"abc" --> type(s2):Unicode
u""的意义:表示将后面的字符串以unicode格式存储
s1.encode("utf8") 成功
s2.encode("utf8") 成功
3. 当出现中文时:
s1 = "你好" --> utf-8编码。Linux下 为啥不是ascii? 那ascii能表示中文吗?
肯定是转化为了utf-8 了啊
s2 = u"你好"
s1.encode("utf8") 报错
s2.encode("utf8") 成功
解决办法:
先将这个utf-8的编码转化为unicode编码的对象
然后再转化为utf-8
s1.decode("utf8").ecode("utf8") 成功 Linux下中文为"utf-8"
等价于 s1 又转回去了,本身就是utf-8编码
python 3:
在python3 中,所有的str类型的都是Unicode 格式编码,可以直接encode为"utf-8"
在Windows:
1. 字符串全部英文
s1= "abc" --> type(s1):str
s2 = u"abc" --> type(s2):Unicode
u""的意义:表示将后面的字符串以unicode格式存储
s1.encode("utf8") 成功
s2.encode("utf8") 成功
2. 当出现中文时:
s1 = "你好" --> Unicode编码。windows下
s2 = u"你好" ---> 没有必要这样写 ,不加u"",3也认为这就是Unicode
s1.encode("utf8") 成功
s2.encode("utf8") 成功
在Linux下: 跟在window 下一样
总结:
谈谈 #-*-coding:UTF-8 -*-
python2与3 最大的区别:
2 中当文件有中文出现时就必须在开头加上,而且汉字字符串必须加u""
作用:
告知python 这个文件是按照utf-8格式编码的python就会按照这个编码进行解读,
然后在内部进行Unicode转换
为什么3中不用写:
3中Python都会将文件以Unicode进行解读
3
python基础一 ------Python 的编码的更多相关文章
- 二十一. Python基础(21)--Python基础(21)
二十一. Python基础(21)--Python基础(21) 1 ● 类的命名空间 #对于类的静态属性: #类.属性: 调用的就是类中的属性 #对象.属性: 先从自己的内存空间里找名 ...
- python基础知识3---字符编码
阅读目录 一 了解字符编码的知识储备 二 字符编码介绍 三 字符编码应用之文件编辑器 3.1 文本编辑器之nodpad++ 3.2 文本编辑器之pycharm 3.3 文本编辑器之python解释器 ...
- python基础——6(字符编码,文件操作)
今日内容: 1.字符编码: 人识别的语言与机器识别的语言转化的媒介 ***** 2.字符与字节: 字符占多少字节,字符串转化 *** 3.文件操作: 操作硬盘中的一块区域:读写操作 ...
- Python基础之字符串和编码
字符串和编码 字符串也是一种数据类型,但是字符串比较特殊的是还有个编码问题. 因为计算机自能处理数字,如果徐娅处理文本,就必须先把文本转换为数字才能处理,最早的计算机子设计时候采用8个比特(bit)作 ...
- Python基础-week01 Python安装/变量/输入/及循环语句使用
一.Python介绍 (1).目前Python主要应用领域: 云计算: 云计算最火的语言, 典型应用OpenStack WEB开发: 众多优秀的WEB框架,众多大型网站均为Python开发,You ...
- Python基础-1 python由来 Python安装入门 注释 pyc文件 python变量 获取用户输入 流程控制if while
1.Python由来 Python前世今生 python的创始人为吉多·范罗苏姆(Guido van Rossum).1989年的圣诞节期间,吉多·范罗苏姆为了在阿姆斯特丹打发时间,决心开发一个新的脚 ...
- Python基础+Pythonweb+Python扩展+Python选修四大专题 超强麦子学院Python35G视频教程
[保持在百度网盘中的, 可以在观看,嘿嘿 内容有点多,要想下载, 回复后就可以查看下载地址,资源收集不易,请好好珍惜] 下载地址:http://www.fu83.cc/ 感觉文章好,可以小手一抖 -- ...
- Python基础 初识Python
机器码 机器码(machine code),学名机器语言指令,有时也被称为原生码(Native Code),是电脑的CPU可直接解读的数据. 通常意义上来理解的话,机器码就是计算机可以直接执行,并且执 ...
- python基础实践 -python是一门动态解释性的强类型定义语言
python是一门动态解释性的强类型定义语言 Python能做什么? Python是一门综合性的语言,你几乎能在计算机上通过Python做任何事情,以下是Python应该最广泛的几个方面: 1.网络应 ...
随机推荐
- bzoj 3129
非常好的一道数学题,考察了大量数论和组合数学的知识 在做本题之前强烈建议先完成下列两个背景知识: ①: bzoj 2142礼物 因为本题的一部分数据需要利用到拓展卢卡斯定理,而礼物是拓展卢卡斯定理的裸 ...
- Python+selenium自动化测试中Windows窗口跳转方法
Python+selenium自动化测试中Windows窗口跳转方法 #第一种方法 #获得当前窗口 nowhandle=driver.current_window_handle #打开弹窗 drive ...
- Eciplce ALT+/失效的解决方法
最近公司电脑上的Eclipse没有了自动提示功能,也不是全部不提示,大多数情况下按下“alt+/”键还会产生提示,但是当我在java项目中邪main方法和syso的时候,“alt+/”则会失效,今天在 ...
- dump增加的表数据
备份mysql数据库表中,增加的部分 前提条件: 备份库和正式库表结构一样: 表名不一样可以改: 备份库:192.168.1.10 正式库:192.168.1.11 获取当前"备份" ...
- SQLServer索引及统计信息
索引除了提高性能,还能维护数据库. 索引是一种存储结构,主要以B-Tree形式存储信息. B-Tree的定义: 1.每个节点最多只有m个节点(m>=2) 2.除了根节点和叶子节点外的每个节点上最 ...
- IDEA 出现错误:找不到或无法加载主类
idea本身缓存问题 解决:清理缓存重启IDEAfile-->invalidate Cache/restart 之后再重新build. 还不行的话,设置一下file-->project s ...
- plsql的汉化问题
1:汉化工具下载地址:https://www.allroundautomations.com/bodyplsqldevreg.html 汉化吗.然后选择chinese就行了: 2:对安装(解压缩好的哦 ...
- ipmitool获取服务器信息
https://www.annhe.net/article-2987.html https://blog.csdn.net/wolovexiexiongfei/article/details/8270 ...
- VSCode Vue文件格式化
参考文档:https://vuejs.github.io/vetur/formatting.html 自从将VSCode更新之后,vue文件的html格式化就失效了,而且vue文件中的js ,css格 ...
- JavaScript 匿名函数
转载自:https://www.cnblogs.com/ClareZjy/p/6365891.html 零:介绍 匿名函数的基本形式为(function(){...})(); 前面的括号包含函数体 ...