相关阅读:字符集(Character Set)和编码(Encoding)的历史演化

字符集和编码的总结:

1. ASCII编码: 8bit, 1byte => 256(最大可表示)
2. GBK编码: Windows系统默认 16bit, 2byte => 65536(最大可表示)
3. Unicode编码:32bit => 4byte => 4294967296(因为浪费,没法用, 只是一个标准)
4. UTF-8编码: MAC系统默认

  • 英文: 8bit, 1byte => 256(最大可表示)
  • 欧洲文字: 16bit, 2byte => 65536(最大可表示)
  • 中文: 24bit, 3byte => 16777216(最大可表示)

5.GBK编码存储汉字(2byte)比UTF-8编码存储汉字(3byte)节省空间

6.GBK编码和UTF-8编码不能直接就进行转化。因为是2套标准,我军密码本(GBK)  <-> 转文字 <-> 敌军密码本(UTF-8)

许多程序的默认编码都是UTF-8,包括但不限于以下几种:

  1. Python:在Python 3.x版本中,字符串默认使用UTF-8编码。而在Python 2.x版本中,默认的编码方式是ASCII。
  2. CSV文件:新建的txt文件和wps文件默认是ANSI编码格式,而CSV文件的编码格式可以被修改为UTF-8。
  3. Web开发:网页开发中的HTML和HTTP协议默认使用UTF-8编码。
  4. 数据库:许多数据库系统,如MySQL、PostgreSQL和SQLite等,默认使用UTF-8编码存储和检索数据。
  5. 文本编辑器:许多文本编辑器,如Sublime Text、Notepad++和Visual Studio Code等,默认使用UTF-8编码打开和处理文本文件。
  6. 邮件系统:一些邮件系统,如Outlook和Gmail等,默认使用UTF-8编码发送和接收邮件。
  7. 操作系统:许多操作系统,如Windows(非中文)、macOS和Linux(非中文)等,默认使用UTF-8编码处理系统内的文本文件。

需要注意的是,虽然UTF-8是许多程序的默认编码,但在处理特定数据时,可能需要根据具体情况选择其他编码方式。例如Xshell或者SecureCRT等网络连接工具,用于在计算机上远程访问和管理服务器。Xshell的默认编码方式是UTF-8,但也可以手动修改为其他编码方式。如果在使用SecureCRT时出现了中文乱码问题,可以尝试将SecureCRT的默认Default编码方式修改为UTF-8,或者确认服务器的编码方式,就可以正常使用中文了。

以下为华为交换机CloudEngine S8700的字符集编码情况:如果设备需要输入中文字符,如设备名称、描述信息等,可以先执行命令language character-set character设置系统字符集编码支持中文。设备支持GBK、UTF-8和ISO8859-1三种字符集编码。其中,ISO8859-1仅支持英文输入,GBK和UTF-8既支持中文输入又支持英文输入。如果用户需要在设备上输入中文,请结合终端登录软件(Xshell或者SecureCRT等)支持的字符集情况,选择设置系统的字符集为GBK或UTF-8。缺省情况下,系统的字符集编码为ISO8859-1。

Python字符的编码encode和解码decode

  1. 进行编码str.encode("编码")
  2. 进行解码bytes.decode("编码") 

编码encode

s = "周杰伦"
bs1 = s.encode("gbk") # b'xxxx' bytes类型
bs2 = s.encode("utf-8")
print(bs1)
print(bs2) #输出结果
b'\xd6\xdc\xbd\xdc\xc2\xd7'
b'\xe5\x91\xa8\xe6\x9d\xb0\xe4\xbc\xa6'

在gbk编码下,每2个\x代表一个汉字(中文文档存储,更节省空间)

周 => \xd6\xdc

杰 => \xbd\xdc

伦 => \xc2\xd7

在utf-8编码下,每3个\x代表一个汉字(在程序代码方面,更通用)

周 => \xe5\x91\xa8

杰 => \xe6\x9d\xb0

伦 => \xe4\xbc\xa6

bytes类型的表示为:

b'\xd6\xdc\xbd\xdc\xc2\xd7'

怎么把一个gbk的字节转化成utf-8的字节?

解码decode

先解码变成文字符号(字符串)——再重新编码

bs = b'\xd6\xdc\xbd\xdc\xc2\xd7'
s = bs.decode("gbk") # 解码
print(s)
bs2 = s.encode("utf-8") # 重新编码
print(bs2) #输出结果
周杰伦
b'\xe5\x91\xa8\xe6\x9d\xb0\xe4\xbc\xa6'

扩展:

s = "abcd啊啊啊7890呃呃呃"
print(s.encode("utf-8"))
print(s.encode("gbk")) #输出结果
b'abcd\xe5\x95\x8a\xe5\x95\x8a\xe5\x95\x8a7890\xe5\x91\x83\xe5\x91\x83\xe5\x91\x83'
b'abcd\xb0\xa1\xb0\xa1\xb0\xa17890\xdf\xc0\xdf\xc0\xdf\xc0
  1. 这里可以看到abcd以及7890都是不需要转码存储的。
  2. 在utf-8格式下,每3个\x代表一个汉字,“\xe5\x95\x8a\”代表“啊”;“\xe5\x91\x83”代表“呃”;每个中文字占用3个字节。
  3. 在gbk格式下,  每2个\x代表一个汉字,“\xb0\xa1”代表“啊”;“\xdf\xc0”代表“呃”;每个中文字占用2个字节。
  4. 在utf-8格式下,每个字母或者数字占用1个字节。字母a应该表示为01100001。显示还是abcd,每个元素只占用1个字节空间。
  5. 在gbk格式下,  每个字母或者数字占用2个字节。字母a应该表示为00000000 01100001。显示虽然还是abcd,只是每个元素多占用了一个字节空间。

Python——第二章:字符的编码encode和解码decode的更多相关文章

  1. Python中编码encode()与解码decode()

    1 print('这是编码'.encode('utf-8')) # 结果 b'\xe8\xbf\x99\xe6\x98\xaf\xe7\xbc\x96\xe7\xa0\x81' 2 print('这是 ...

  2. Java如何进行Base64的编码(Encode)与解码(Decode)?

    https://blog.csdn.net/zhou_kapenter/article/details/62890262 *************************************** ...

  3. Java进行Base64的编码(Encode)与解码(Decode)

    关于base64编码Encode和Decode编码的几种方式 Base64是一种能将任意Binary资料用64种字元组合成字串的方法,而这个Binary资料和字串资料彼此之间是可以互相转换的,十分方便 ...

  4. Java如何进行Base64的编码(Encode)与解码(Decode)

    关于base64编码Encode和Decode编码的几种方式 Base64是一种能将任意Binary资料用64种字元组合成字串的方法,而这个Binary资料和字串资料彼此之间是可以互相转换的,十分方便 ...

  5. Python编码(encode)和解码(Decode)常见的两个错误

    项目地址:https://git.io/pytips 0x07 和 0x08 分别介绍了 Python 中的字符串类型(str)和字节类型(byte),以及 Python 编码中最常见也是最顽固的两个 ...

  6. Python 编码encode()、 解码decode()问题

    乱码这种东西,时不时出现.本来开开心心想着我要学习啦,然后兴高采烈打开了比火星文还火星文的字符-- 没事,我可以搞定这堆鬼画符. 先来讲一下为什么有乱码这种东西的存在 故事是这样滴: 字符串是Pyth ...

  7. C++字符数字的编码(Encode)与解码(Decode)

    在日常应用中,我们常用结构体或者类来存储一条信息,这种方式很方便,但是不利于数据的传输.例如在网络编程中,我们需要将结构中的数据转化为字节流才能进行传输,我们可以利用memcpy强行将结构化的数据转化 ...

  8. Swift学习笔记 - URL编码encode与解码decode

    使用swift有一段时间了,api的变换造成了很多困扰,下面是关于url编码和解码问题的解决方案 在Swift中URL编码 在Swift中URL编码用到的是String的方法 func addingP ...

  9. CS程序中XML编码Encode和解码Decode

    VB6的代码,原则上只要是Windows系统均可以使用此方法 Function XMLEncode(ByVal text As String) As String Dim xmldoc Set xml ...

  10. 简学Python第二章__巧学数据结构文件操作

    #cnblogs_post_body h2 { background: linear-gradient(to bottom, #18c0ff 0%,#0c7eff 100%); color: #fff ...

随机推荐

  1. 【Python爬虫】使用代理ip进行网站爬取

    使用代理IP进行网站爬取可以有效地隐藏你的真实IP地址,让网站难以追踪你的访问行为.本文将介绍Python如何使用代理IP进行网站爬取的实现,包括代理IP的获取.代理IP的验证.以及如何把代理IP应用 ...

  2. 想转行DevOps工程师?快来看看DevOps工程师的学习路径,少走弯路

    DevOps方法论 :::tips DevOps方法论的主要来源是Agile, Lean 和TOC, 独创的方法论是持续交付. ::: DevOps 是一种软件开发方法,涉及持续开发,持续测试,持续集 ...

  3. PAI-DSW常见问题

    PAI-DSW常见问题 更新时间:2023年6月5日 18:40:00 本文为您介绍PAI-DSW的相关问题. 什么是PAI-DSW? PAI-DSW实例如何挂载和使用自己的NAS文件系统? 如何在P ...

  4. buffer busy waits等待事件案例-vage

    转自vage 讨厌香草冰激凌的汽车与Buffer busy wiats的故事        记得好几年前看到过一个故事,通用公司曾收到一客户的邮件,邮件中客户描述了一个非常奇怪的问题.他们家有晚饭后去 ...

  5. CF707B

    题目简化和分析: 这题看着玄胡很水实际. 我们需要做什么? 只需对每个工厂周围的面包店遍历一遍打擂台取最小 注意只对面包店遍历,所以对工厂设标记 如果打完擂台发现 \(ans=inf\) 则说明全是工 ...

  6. nginx中一个请求匹配到多个location时的优先级问题,马失前蹄了

    背景 为什么讲这么小的一个问题呢?因为今天在进行系统上线的时候遇到了这个问题. 这次的上线动作还是比较大的,由于组织架构拆分,某个接入层服务需要在两个部门各自独立部署,以避免频繁的跨部门沟通,提升该接 ...

  7. 每天5分钟复习OpenStack(五)CPU虚拟化

    KVM 虚拟化之CPU 虚拟化存在是为了更高效的利用物理机的资源,而虚拟机技术主要是针对三大组件,分别是CPU虚拟化.存储虚拟化.网络虚拟化.下面我们分别介绍下三大组件的常用知识. CPU 虚拟化 1 ...

  8. [ABC207E] Mod i 题解

    Mod i 题目大意 给定一个序列 \(a\),问将其划分成若干段,满足第 \(i\) 段的和是 \(i\) 的倍数的划分方案的个数. 思路分析 考虑 DP,设 \(f_{i,j}\) 表示将序列中前 ...

  9. 深入理解 Python 虚拟机:进程、线程和协程

    深入理解 Python 虚拟机:进程.线程和协程 在本篇文章当中深入分析在 Python 当中 进程.线程和协程的区别,这三个概念会让人非常迷惑.如果没有深入了解这三者的实现原理,只是看一些文字说明, ...

  10. 用iptables做负载均衡实现高并发

    根据以往经验,在高配置服务器上部署Java服务,建议部署多个JVM实例,以提升JVM示例内存回收效率: 此时面临负载分发问题,常规想法是通过Nginx或者Apache做负载分流.然而在高并发情况下无论 ...