全网最适合入门的面向对象编程教程:53 Python 字符串与序列化-字符串与字符编码

摘要:

在 Python 中,字符串是文本的表示,默认使用 Unicode 编码,这允许你处理各种字符集,字符编码是将字符转换为字节的规则,常见的编码包括UTF-8、UTF-16和ASCII。

原文链接:

FreakStudio的博客

往期推荐:

学嵌入式的你,还不会面向对象??!

全网最适合入门的面向对象编程教程:00 面向对象设计方法导论

全网最适合入门的面向对象编程教程:01 面向对象编程的基本概念

全网最适合入门的面向对象编程教程:02 类和对象的 Python 实现-使用 Python 创建类

全网最适合入门的面向对象编程教程:03 类和对象的 Python 实现-为自定义类添加属性

全网最适合入门的面向对象编程教程:04 类和对象的Python实现-为自定义类添加方法

全网最适合入门的面向对象编程教程:05 类和对象的Python实现-PyCharm代码标签

全网最适合入门的面向对象编程教程:06 类和对象的Python实现-自定义类的数据封装

全网最适合入门的面向对象编程教程:07 类和对象的Python实现-类型注解

全网最适合入门的面向对象编程教程:08 类和对象的Python实现-@property装饰器

全网最适合入门的面向对象编程教程:09 类和对象的Python实现-类之间的关系

全网最适合入门的面向对象编程教程:10 类和对象的Python实现-类的继承和里氏替换原则

全网最适合入门的面向对象编程教程:11 类和对象的Python实现-子类调用父类方法

全网最适合入门的面向对象编程教程:12 类和对象的Python实现-Python使用logging模块输出程序运行日志

全网最适合入门的面向对象编程教程:13 类和对象的Python实现-可视化阅读代码神器Sourcetrail的安装使用

全网最适合入门的面向对象编程教程:全网最适合入门的面向对象编程教程:14 类和对象的Python实现-类的静态方法和类方法

全网最适合入门的面向对象编程教程:15 类和对象的 Python 实现-__slots__魔法方法

全网最适合入门的面向对象编程教程:16 类和对象的Python实现-多态、方法重写与开闭原则

全网最适合入门的面向对象编程教程:17 类和对象的Python实现-鸭子类型与“file-like object“

全网最适合入门的面向对象编程教程:18 类和对象的Python实现-多重继承与PyQtGraph串口数据绘制曲线图

全网最适合入门的面向对象编程教程:19 类和对象的 Python 实现-使用 PyCharm 自动生成文件注释和函数注释

全网最适合入门的面向对象编程教程:20 类和对象的Python实现-组合关系的实现与CSV文件保存

全网最适合入门的面向对象编程教程:21 类和对象的Python实现-多文件的组织:模块module和包package

全网最适合入门的面向对象编程教程:22 类和对象的Python实现-异常和语法错误

全网最适合入门的面向对象编程教程:23 类和对象的Python实现-抛出异常

全网最适合入门的面向对象编程教程:24 类和对象的Python实现-异常的捕获与处理

全网最适合入门的面向对象编程教程:25 类和对象的Python实现-Python判断输入数据类型

全网最适合入门的面向对象编程教程:26 类和对象的Python实现-上下文管理器和with语句

全网最适合入门的面向对象编程教程:27 类和对象的Python实现-Python中异常层级与自定义异常类的实现

全网最适合入门的面向对象编程教程:28 类和对象的Python实现-Python编程原则、哲学和规范大汇总

全网最适合入门的面向对象编程教程:29 类和对象的Python实现-断言与防御性编程和help函数的使用

全网最适合入门的面向对象编程教程:30 Python的内置数据类型-object根类

全网最适合入门的面向对象编程教程:31 Python的内置数据类型-对象Object和类型Type

全网最适合入门的面向对象编程教程:32 Python的内置数据类型-类Class和实例Instance

全网最适合入门的面向对象编程教程:33 Python的内置数据类型-对象Object和类型Type的关系

全网最适合入门的面向对象编程教程:34 Python的内置数据类型-Python常用复合数据类型:元组和命名元组

全网最适合入门的面向对象编程教程:35 Python的内置数据类型-文档字符串和__doc__属性

全网最适合入门的面向对象编程教程:36 Python的内置数据类型-字典

全网最适合入门的面向对象编程教程:37 Python常用复合数据类型-列表和列表推导式

全网最适合入门的面向对象编程教程:38 Python常用复合数据类型-使用列表实现堆栈、队列和双端队列

全网最适合入门的面向对象编程教程:39 Python常用复合数据类型-集合

全网最适合入门的面向对象编程教程:40 Python常用复合数据类型-枚举和enum模块的使用

全网最适合入门的面向对象编程教程:41 Python常用复合数据类型-队列(FIFO、LIFO、优先级队列、双端队列和环形队列)

全网最适合入门的面向对象编程教程:42 Python常用复合数据类型-collections容器数据类型

全网最适合入门的面向对象编程教程:43 Python常用复合数据类型-扩展内置数据类型

全网最适合入门的面向对象编程教程:44 Python内置函数与魔法方法-重写内置类型的魔法方法

全网最适合入门的面向对象编程教程:45 Python实现常见数据结构-链表、树、哈希表、图和堆

全网最适合入门的面向对象编程教程:46 Python函数方法与接口-函数与事件驱动框架

全网最适合入门的面向对象编程教程:47 Python函数方法与接口-回调函数Callback

全网最适合入门的面向对象编程教程:48 Python函数方法与接口-位置参数、默认参数、可变参数和关键字参数

全网最适合入门的面向对象编程教程:49 Python函数方法与接口-函数与方法的区别和lamda匿名函数

全网最适合入门的面向对象编程教程:50 Python函数方法与接口-接口和抽象基类

全网最适合入门的面向对象编程教程:51 Python函数方法与接口-使用Zope实现接口

全网最适合入门的面向对象编程教程:52 Python函数方法与接口-Protocol协议与接口

更多精彩内容可看:

给你的 Python 加加速:一文速通 Python 并行计算

一文搞懂 CM3 单片机调试原理

肝了半个月,嵌入式技术栈大汇总出炉

电子计算机类比赛的“武林秘籍”

一个MicroPython的开源项目集锦:awesome-micropython,包含各个方面的Micropython工具库

Avnet ZUBoard 1CG开发板—深度学习新选择

SenseCraft 部署模型到Grove Vision AI V2图像处理模块

文档和代码获取:

可访问如下链接进行对文档下载:

https://github.com/leezisheng/Doc

本文档主要介绍如何使用 Python 进行面向对象编程,需要读者对 Python 语法和单片机开发具有基本了解。相比其他讲解 Python 面向对象编程的博客或书籍而言,本文档更加详细、侧重于嵌入式上位机应用,以上位机和下位机的常见串口数据收发、数据处理、动态图绘制等为应用实例,同时使用 Sourcetrail 代码软件对代码进行可视化阅读便于读者理解。

相关示例代码获取链接如下:https://github.com/leezisheng/Python-OOP-Demo

正文

字符串与字符编码

字符串是 Python 中的基本类型,它所代表的是一组不可变的字符(即无法直接修改字符串的某一索引对应的字符,需要转换为列表处理),某种程度上可以认为字符串是特殊的元组类型。

Python 中的字符串都是通过 Unicode 表示的,Unicode 是一个字符编码标准,那么什么是字符编码标准呢?实际上,在计算机科学中,数据的处理与存储均基于二进制系统。对于文本信息的处理,需先将其转化为数字形式以适应计算机的运算逻辑。在计算机体系结构中,早期的设计以 8 位二进制数,即一字节,作为基本单位。数字形式以适应计算机的运算逻辑。在计算机体系结构中,早期的设计以 8 位二进制数,即一字节,作为基本单位。因此,一个字节所能表示的最大整数值为 255,这是由二进制数 11111111 转化为十进制数得出的结果。对于更大整数的表示,则需通过增加字节数来实现。例如,两个字节可表示的最大整数值为 65535,而四个字节则可表示的最大整数值高达 4294967295。

鉴于计算机技术的发源地是美国,早期的字符编码主要基于 ASCII 标准,仅涵盖 127 个字符,包括大小写英文字母、数字和一些常用符号。然而,对于非英文字符,如中文,单个字节的编码方式显然不足以满足需求。为此,中国制定了 GB2312 编码标准,采用至少两个字节的编码方式来表示中文字符,并确保与 ASCII 编码的兼容性。在全球范围内,不同的语言和文化背景导致了多样化的编码标准,如日本的 Shift_JIS 和韩国的 Euc-kr。这些不同的编码标准在多语言混合的文本环境中可能导致显示乱码的问题。Unicode 又被称为统一码、万国码;它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。****从这个角度来讲,我们可以把字符串看作一个不可变的 Unicode 字符序列。

Unicode 标准详细阐释了字符如何以码位(code point)的形式进行表达。码位的取值范围限定在 0 至 0x10FFFF 的整数范围内,理论上涵盖了大约 110 万个可能的值,但实际分配的数字并未达到这一规模。在 Unicode 标准以及本文的论述中,码位采用 U+265E 的表述方式,用以指代值为 0x265e 的字符,其十进制表示为 9822。

此外,Unicode 标准汇编了众多表格,这些表格详尽地列出了众多字符及其对应的码位信息。

上一段可以归结为:一个 Unicode 字符串是一系列码位(从 0 到 0x10FFFF 或者说十进制的 1,114,111 的数字)组成的序列。这一序列在内存中需被表示为一组码元(code unit),码元会映射成包含八个二进制位的字节。将 Unicode 字符串翻译成字节序列的规则称为字符编码,或者编码。

大家首先会想到的编码可能是用 32 位的整数作为代码位,然后采用 CPU 对 32 位整数的表示法。字符串“Python”用这种表示法可能会如下所示:

这种表示法非常直白,但也存在一些问题:

  • (1)不具可移植性;不同的处理器的字节序不同;
  • (2)非常浪费空间:在大多数文本中,大部分码位都小于 127 或 255,因此字节 0x00 占用了大量空间。相较于 ASCII 表示法所需的 6 个字节,以上字符串需要占用 24 个字节;
  • (3)与现有的 C 函数(如 strlen())不兼容,因此需要采用一套新的宽字符串函数。

因此这种编码用得不多,人们转而选择其他更高效、更方便的编码,比如 UTF-8。UTF-8 是最常用的编码之一,Python 往往默认会采用它。UTF 代表“Unicode Transformation Format”,'8'表示编码采用 8 位数。

UTF-8 编码把一个 Unicode 字符根据不同的数字大小编码成 1-6 个字节,常用的英文字母被编码成 1 个字节,汉字通常是 3 个字节,只有很生僻的字符才会被编码成 4-6 个字节。如果你要传输的文本包含大量英文字符,用 UTF-8 编码就能节省空间。UTF-8 编码还有一个额外的好处,就是 ASCII 编码实际上可以被看成是 UTF-8 编码的一部分,所以,大量只支持 ASCII 编码的历史遗留软件可以在 UTF-8 编码下继续工作。

实际上,Unicode 可使用下列任何一种字符编码方案来编码:

  • (1)UTF-8 :UTF-8 是 Unicode 的一种可变长度编码形式,它透明地保留了 ASCII 字符代码值。该形式在 Solaris Unicode 语言环境中用作文件代码。
  • (2)UTF-16:UTF-16 是 Unicode 的一种 16 位编码形式。在 UTF-16 中,多达 65,535 个字符被编码为单个 16 位值。映射在 65,535 到 1,114,111 的字符被编码为成对的 16 位值(代理)。
  • (3)UTF-32:UTF-32 是 Unicode 的一种固定长度的 21 位编码形式,通常用在 32 位容器或数据类型中。该形式在 Solaris Unicode 语言环境中用作进程代码(宽字符代码)。

字符串常见操作

从 Python 3.0 开始,str 类型包含了 Unicode 字符,这意味着用"unicode rocks!"、'unicode rocks!' 或三重引号字符串语法创建的任何字符串都会存储为 Unicode。

需要注意的是,Python 不支持单字符类型,单字符在 Python 中也是作为一个字符串使用。

str 类拥有大量的方法,使得字符串的操作更加简单。通过 Python 解释器中的 dir 和 help 指令可以得知所有方法的用法。

print(help(str))

这里对于字符串的基本方法应用和运算不做赘述,仅在下文中总结一个文档。本章重点在于帮助大家了解字符编码、序列化对象及应用正则表达式解析字符串并匹配任意模式。下表中我们列出来 str 类的常见方法和作用。

方法 作用
lower\upper 返回 S 字符串的小写、大写格式。对于以下背景为蓝色、红色的这些方法,需要注意输入的字符串是不会被改变的,而是返回一个全新的 str 实例。
title\capital 前者返回 S 字符串中所有单词首字母大写且其他字母小写的格式,后者返回首字母大写、其他字母全部小写的新字符串。
swapcase swapcase()对 S 中的所有字符串做大小写转换(大写--> 小写,小写--> 大写)。
istitle 注意它并不会严格执行英语语法定义中的标题格式,例如,Leigh Hunt 的诗 The Glove and the Lions 应该是一个合法的标题,尽管它并不是所有单词的首字母都大写了。Robert Service 的 The Gremation of Sam McGee 也是一个合法的标题,尽管最后一个单词中间含有大写字母。
isdecimal 检查字符串是否只包含十进制字符。字符串中若只包含十进制字符返回 True,否则返回 False。该方法只存在于 unicode 对象中。注意:定义一个十进制字符串,只需要在字符串前添加前缀 'u' 即可。
isdigit 检测字符串是否只由数字组成,字符串中至少有一个字符且所有字符都是数字则返回 True,否则返回 False。
Isnumeric 检测字符串是否只由数字组成。这种方法是只适用于 unicode 对象。字符串中只包含数字字符,则返回 True,否则返回 False。在使用 isdigit、isdecimal 和 isnumeric 方法时要注意许多 Unicode 字符也被认为是数字,而不仅仅是我们习惯使用的 10 个阿拉伯数字。更糟的是,我们用小数点组成的浮点数在字符串中并不会被认为是小数,因此对于'45.2'来说,isdecimal()返回的是 False。真正的小数点字符 Unicode 中的值是 0660,因此 45.2 应该是 45\u06602。再者,这些方法不会验证字符串是否是合法的数字,对于"127.0.0.1"来说这 3 个方法都会返回 True。
isalnum 检测字符串是否由字母和数字组成。str 中至少有一个字符且所有字符都是字母或数字则返回 True,否则返回 False。
isalpha 检测字符串是否只由字母组成。字符串中至少有一个字符且所有字符都是字母则返回 True,否则返回 False。
Center(width[, fillchar]) 将字符串居中,左右两边使用 fillchar 进行填充,使得整个字符串的长度为 width。fillchar 默认为空格。如果 width 小于字符串的长度,则无法填充直接返回字符串本身(不会创建新字符串对象)。
ljust/rjust ljust()使用 fillchar 填充在字符串 S 的右边,使得整体长度为 width。rjust()则是填充在左边。如果不指定 fillchar,则默认使用空格填充。如果 width 小于或等于字符串 S 的长度,则无法填充,直接返回字符串 S(不会创建新字符串对象)。
zfill 用 0 填充在字符串 S 的左边使其长度为 width。如果 S 前右正负号 +/- ,则 0 填充在这两个符号的后面,且符号也算入长度。如果 width 小于或等于 S 的长度,则无法填充,直接返回 S 本身(不会创建新字符串对象)。
Count(sub[, start[, end]]) 返回字符串 S 中子串 sub 出现的次数,可以指定从哪里开始计算(start)以及计算到哪里结束(end),索引从 0 开始计算,不包括 end 边界。
endswith/startswith endswith() 检查字符串 S 是否已 suffix 结尾,返回布尔值的 True 和 False。suffix 可以是一个元组(tuple)。可以指定起始 start 和结尾 end 的搜索边界。同理 startswith()用来判断字符串 S 是否是以 prefix 开头。
find\rfind\index\rindex find()搜索字符串 S 中是否包含子串 sub,如果包含,则返回 sub 的索引位置,否则返回"-1"。可以指定起始 start 和结束 end 的搜索位置。index()和 find()一样,唯一不同点在于当找不到子串时,抛出 ValueError 错误。rfind()则是返回搜索到的最右边子串的位置,如果只搜索到一个或没有搜索到子串,则和 find()是等价的。
Translate\maketrans str.maketrans()生成一个字符一一映射的 table,然后使用 translate(table)对字符串 S 中的每个字符进行映射。可以用该方法实现字符串的简单加密。注意,maketrans(x[, y[, z]]) 中的 x 和 y 都是字符串,且长度必须相等。
partition(sep)/rpartition(sep) 搜索字符串 S 中的子串 sep,并从 sep 处对 S 进行分割,最后返回一个包含 3 元素的元组:sep 左边的部分是元组的第一个元素,sep 自身是元组的二个元素,sep 右边是元组的第三个元素。partition(sep) 从左边第一个 sep 进行分割, rpartition(sep) 从右边第一个 sep 进行分割。如果搜索不到 sep,则返回的 3 元素元组中,有两个元素为空。partition()是后两个元素为空,rpartition()是前两个元素为空。以下几个字符串方法返回或作用于字符串。
Split(sep=None,maxsplit=-1)Rsplit(sep=None,maxsplit=-1)Splitlines([keepends]) 都是用来分割字符串,并生成一个列表。split()根据 sep 对 S 进行分割,maxsplit 用于指定分割次数,如果不指定 maxsplit 或者给定值为"-1",则会从做向右搜索并且每遇到 sep 一次就分割直到搜索完字符串。如果不指定 sep 或者指定为 None,则改变分割算法:以空格为分隔符,且将连续的空白压缩为一个空格。rsplit()和 split() 是一样的,只不过是从右边向左边搜索。splitlines()用来专门用来分割换行符。可以指定各种换行符,常见的是\n、\r、\r\n 。如果指定 keepends 为 True,则保留所有的换行符。
join(iterable) 将可迭代对象(iterable)中的字符串使用 S 连接起来。注意,iterable 中必须全部是字符串类型,否则报错。它接受一个字符串列表作为参数,并返回列表中所有字符串通过原始字符串连接起来之后的字符串。
strip\lstrip\rstrip 分别是移除左右两边、左边、右边的字符 char。如果不指定 chars 或者指定为 None,则默认移除空白(空格、制表符、换行符)。唯一需要注意的是,chars 可以是多个字符序列。在移除时,只要是这个序列中的字符,都会被移除。
replace(old, new, count) 把 str 中的 old 替换成 new,如果 count 指定,则替换不超过 count 次.。
expandtabs(N) 将字符串 S 中的\t 替换为一定数量的空格。默认 N=8。注意, expandtabs(8)不是将\t 直接替换为 8 个空格。例如 'xyz\tab'.expandtabs() 会将\t 替换为 5 个空格,因为"xyz"占用了 3 个字符位。另外,它不会替换换行符( \n 或 \r )时。

关于这些方法具体使用,可以看以下链接:

https://pythonhowto.readthedocs.io/zh-cn/latest/string.html#

同时,这里我们回顾一下字符串的转义字符和运算符,参考菜鸟教程即可:

全网最适合入门的面向对象编程教程:53 Python 字符串与序列化-字符串与字符编码的更多相关文章

  1. [Java入门笔记] 面向对象编程基础(二):方法详解

    什么是方法? 简介 在上一篇的blog中,我们知道了方法是类中的一个组成部分,是类或对象的行为特征的抽象. 无论是从语法和功能上来看,方法都有点类似与函数.但是,方法与传统的函数还是有着不同之处: 在 ...

  2. 最适合入门的Laravel中级教程(一)

    Laravel 是一个全栈框架: 我们使用 Laravel 开发业务常见有 3 个方向: 前端页面和后端逻辑混合的应用 主要是面向对 SEO 有需求的项目: 比如说新闻资讯博客文章等: 一般在控制器中 ...

  3. Python入门之面向对象编程(一)面向对象概念及优点

    概念 谈到面向对象,很多程序员会抛出三个词:封装.继承和多态:或者说抽象.一切都是对象之类的话,然而这会让初学者更加疑惑.下面我想通过一个小例子来说明一下 面向对象一般是和面向过程做对比的,下面是一个 ...

  4. JavaScript基础入门12 - 面向对象编程

    目录 JavaScript 面向对象编程 前言 构造函数创建对象 instanceof constructor 返回值 原型对象 关于对象的属性查找 in hasOwnProperty() JS当中实 ...

  5. [Java入门笔记] 面向对象编程基础(一):类和对象

    什么是面向对象编程? 我们先来看看几个概念: 面向过程程序设计 面向过程,是根据事情发展的步骤,按进行的顺序过程划分,面向过程其实是最为实际的一种思考方式,可以说面向过程是一种基础的方法,它考虑的是实 ...

  6. Python - 面向对象编程 - 什么是 Python 类、类对象、实例对象

    什么是对象和类 https://www.cnblogs.com/poloyy/p/15178423.html Python 类 类定义语法 最简单的类定义看起来像这样 class ClassName: ...

  7. 最适合入门的Laravel中级教程(二)用户认证

    之前的初级教程主要是学习简单的增删改查: 接着的中级教程的目标是在初级教程的基础上能写出更复杂更健壮的程序: 我们先来学习 laravel 的用户认证功能: 在现代网站中基本都有用户系统: 而我们每开 ...

  8. Python入门之面向对象编程(四)Python描述器详解

    本文分为如下部分 引言——用@property批量使用的例子来引出描述器的功能 描述器的基本理论及简单实例 描述器的调用机制 描述器的细节 实例方法.静态方法和类方法的描述器原理 property装饰 ...

  9. [Java入门笔记] 面向对象编程基础(三):成员变量和局部变量

    在类中,变量根据定义的位置不同,可以分为成员变量和局部变量.

  10. 最适合入门的Laravel中级教程(四)前端开发

    Laravel 使用 npm 安装前端依赖: npm 是一个类似 composer 的工具: 用于管理前端的各种依赖包: 在使用之前需要先安装 node : Windows 下可以在官网下载安装: h ...

随机推荐

  1. JVM系列(一) -浅谈虚拟机的成长史

    一.摘要 众所周知,Java 经过多年的发展,已经从一门单纯的计算机编程语言,发展成了一套成熟的软件解决方案.从互联网到企业平台,Java 是目前使用最广泛的编程语言. 以下这段内容是来自 Java ...

  2. git常用代码

    //当前文件夹删除的文件恢复git reset Head .// 查看所有分支git branch// 查看本地分支 对应的远程分支git branch -vv//git branch -vv//创建 ...

  3. springboot3整合高版本spring data neo4j

    本博客适用于springboo data neo4j 7.2.6版本,详情阅读官网https://docs.spring.io/spring-data/neo4j/reference/7.2/intr ...

  4. RPC和 HTTP协议

    RPC 和HTTP 的区别 服务发现 HTTP,知道服务域名,可以通过 DNS 解析 得到 服务的IP地址,从而进行访问 RPC 需要一个专门的中间服务去保存服务名和IP信息(注册中心,nacos.c ...

  5. 对比python学julia(第二章)--(第一节)隔沟算样—枚举策略

    1.1.  问题描述 在明代数学家程大位的<算法统宗>著作中记载了这样一道数学题: 甲乙隔沟放牧,二人暗里参详. 甲云得乙九个羊,多你一倍之上. 乙说得甲九只,两家之数相当. 两边闲坐恼心 ...

  6. 【Mybatis】09 日志工厂配置 & Log4J

    什么是日志 Log? 系统日志是记录系统中硬件.软件和系统问题的信息,同时还可以监视系统中发生的事件. 用户可以通过它来检查错误发生的原因,或者寻找受到攻击时攻击者留下的痕迹. 系统日志包括系统日志. ...

  7. 【Java-GUI】10 Swing05 JTree

    简单的Tree结构: package cn.dzz; import javax.swing.*; import javax.swing.tree.DefaultMutableTreeNode; pub ...

  8. 【Java-GUI】04 菜单

    --1.菜单组件 相关对象: MenuBar 菜单条 Menu 菜单容器 PopupMenu 上下文菜单(右键弹出菜单组件) MenuItem 菜单项 CheckboxMenuItem 复选框菜单项 ...

  9. wandb原来是可以网络直连的,国内可以无障碍使用

    一直不是很常使用神经网络训练可视化的工具,包括:tensorboard,等等,wandb平时也是直接就忽略,不过最近无意间看了看这个效果,感觉还是不错的,于是尝试了一下. 网上很多人说这个工具服务器在 ...

  10. 强化学习入门书籍《DeepReinforcementLearningHands-On-SecondEdition》

    前段时间在网上买了本强化学习入门的书籍,即<Deep-Reinforcement-Learning-Hands-On>,虽然是影印版的,但是感觉还是可以看看的,说的也蛮易懂的,感觉比现在市 ...