众所周知,Python 3.11 版本带来了较大的性能提升,但是,它具体在哪些方面上得到了优化呢?除了著名的“香农计划”外,它还包含哪些与性能相关的优化呢?本文将带你一探究竟!

作者:Beshr Kayali

译者:豌豆花下猫@Python猫

英文:https://log.beshr.com/python-311-speedup-part-1

转载请保留作者及译者信息

Python 3.11 在几天前发布了,它照例带来了很多新特性,例如异常组、细粒度的错误位置与堆栈回溯、标准库对 TOML 的解析支持,当然,还有备受大家期待的由 faster CPython 项目带来的速度提升。

根据 pyperformance 的基准测试,CPython 3.11 比 CPython 3.10 平均快 25%。这项改进的原因之一是 Guido 命名的“香农计划”(即 faster CPython)。对于 3.11 版本,这个计划在两个主要方向进行了大量优化:启动时和运行时。

除此之外,Python 3.11 还包含有其它的优化,这些优化不属于香农计划。

在本文中,我将详细介绍 3.11.0 稳定版中常规优化的细节(即非 faster CPython 项目的改进)。

(译注:作者表示将另写一篇文章介绍 faster CPython 的改进细节,届时,我也将继续翻译,敬请期待!)

目录

  • 优化了一些 printf 风格 % 的格式化代码
  • 优化了 Python 大整数的除法
  • 优化了数字 PyLongs 求和
  • 精简列表的扩容操作,提升了 list.append 性能
  • 减少了全 unicode 键的字典的内存占用
  • 提升了使用asyncio.DatagramProtocol 传输大文件的速度
  • 对于 math 库:优化了 comb(n, k) 与 perm(n, k=None)
  • 对于 statistics 库:优化了 mean(data)、variance(data, xbar=None) 与 stdev(data, xbar=None)
  • 纯 ASCII 字符串的 unicodedata.normalize(),提升到常数时间

优化了一些 printf 风格 % 的格式化代码

使用格式化的字符串字面量(formatted string literals)是最快的格式化字符串的方法。

Python 3.10 中的一个简单基准测试:

$ python -m pyperf timeit -s \
'k = "foo"; v = "bar"' -- '"%s = %r" % (k, v)'
.....................
Mean +- std dev: 187 ns +- 8 ns

但是使用 f-string 似乎要快 42%:

$ python -m pyperf timeit -s \
'k = "foo"; v = "bar"' -- 'f"{k!s} = {v!r}"'
.....................
Mean +- std dev: 131 ns +- 9 ns

优化性能的手段是将简单的 C 风格的格式化方法转换为 f-string 方法。在 3.11.0 中,只转换了 %s、%r 和 %a 三种,但是目前有一个待合入的 pull request,将会支持:%d、%i、%u、%o、%x、%X、%f、 %e、%g、%F、%E、%G。

例如,下面是 Python 3.11 中相同基准测试的结果:

$ python -m pyperf timeit -s \
'k = "foo"; v = "bar"' -- '"%s = %r" % (k, v)'
.....................
Mean +- std dev: 100 ns +- 5 ns

大约快了 87%!当然,3.11 中其它的优化对此也有影响,比如更快的解释器启动时间。

优化了 Python 大整数的除法

在 Python 3.10 中:

python -m pyperf timeit -s 'x=10**1000' -- 'x//10'
.....................
Mean +- std dev: 1.18 us +- 0.02 us

在 Python 3.11 中:

python -m pyperf timeit -s 'x=10**1000' -- 'x//10'
.....................
Mean +- std dev: 995 ns +- 15 ns

大约快了18%。

这项优化源自 Mark Dickinson 的一个发现,即编译器总会生成 128:64 的除法指令,尽管处理的是 30 位的数值。

即使在 x64 上,Python 的除法也有些残缺。假设是 30 位数字,则多精度除法所需的基本结构是 64 位除以 32 位的无符号整数除法,产生一个 32 位的商(理想情况下还会产生一个 32 位余数)。有一个 x86/x64 指令可以做到这一点,也就是 DIVL。但是如果不使用内联汇编,当前版本的 GCC 和 Clang 显然做不到从 longobject.c 中发出该指令——它们只会在 x64 上使用 DIVQ(128 位除以 64 位的除法,尽管被除数的前 64 位被设为零),而在 x86 上则使用固有的 __udivti3 或 __udivti4。

——Mark Dickinson(全文)

优化了数字 PyLongs 求和

这里有一个 issue,它发现 Python 2.7 中 sum 的速度比 Python 3 快得多。不幸的是,在某些条件下,3.11.0 似乎仍然如此。

Python 2.7:

$ python -m pyperf timeit -s 'd = [0] * 10000' -- 'sum(d)'
.....................
Mean +- std dev: 37.4 us +- 1.1 us

Python 3.10:

$ python -m pyperf timeit -s 'd = [0] * 10000' -- 'sum(d)'
.....................
Mean +- std dev: 52.7 us +- 1.3 us

Python 3.11:

$ python -m pyperf timeit -s 'd = [0] * 10000' -- 'sum(d)'
.....................
Mean +- std dev: 39.0 us +- 1.0 us

Python3.10 和 3.11 之间的区别在于,通过在 sum 函数的快速加法分支中内联对单个数字 PyLongs 的解包,可以提升在单个数字 PyLongs 上调用 sum 的性能。这样做可以避免在解包时调用 PyLong_AsLongAndOverflow

值得注意的是,在某些情况下,Python 3.11 在整数求和时仍然明显慢于 Python 2.7。我们希望在 Python 中通过实现更高效的整数,获得更多的改进。

精简列表的扩容操作,提升了 list.append 性能

在 Python 3.11 中,list.append 有了显著的性能提升(大约快 54%)。

Python 3.10 的列表 append:

$ python -m pyperf timeit -s \
'x = list(map(float, range(10_000)))' -- '[x.append(i) for i in range(10_000)]'
.....................
Mean +- std dev: 605 us +- 20 us

Python 3.11 的列表 append:

$ python -m pyperf timeit -s \
'x = list(map(float, range(10_000)))' -- '[x.append(i) for i in range(10_000)]'
.....................
Mean +- std dev: 392 us +- 14 us

对于简单的列表推导式,也有一些小的改进:

Python 3.10:

$ python -m pyperf timeit -s \
'' -- '[x for x in list(map(float, range(10_000)))]'
.....................
Mean +- std dev: 553 us +- 19 us

Python 3.11:

$ python -m pyperf timeit -s \
'' -- '[x for x in list(map(float, range(10_000)))]'
.....................
Mean +- std dev: 516 us +- 16 us

译注:记得在 3.9 版本的时候,Python 优化了调用 list()、dict() 和 range() 等内置类型的速度,在不起眼处,竟还能持续优化!

减少了全 unicode 键的字典的内存占用

这项优化令 Python 在使用全为 Unicode 键的字典时,缓存的效率更高。这是因为使用的内存减少了,那些 Unicode 键的哈希会被丢弃,因为那些 Unicode 对象已经有哈希了。

例如,在 64 位平台上,Python 3.10 运行结果:

>>> sys.getsizeof(dict(foo="bar", bar="foo"))
232

在 Python 3.11 中:

>>> sys.getsizeof(dict(foo="bar", bar="foo"))
184

(译注:插个题外话,Python 的 getsizeof 是一种“浅计算”,这篇《Python在计算内存时应该注意的问题?》区分了“深浅计算”,可以让你对 Python 计算内存有更深的理解。)

提升了使用asyncio.DatagramProtocol 传输大文件的速度

asyncio.DatagramProtocol 提供了一个用于实现数据报(UDP)协议的基类。有了这个优化,使用asyncio UDP 传输大文件(比如 60 MiB)将比 Python 3.10 快 100 多倍。

这是通过计算一次缓冲区的大小并将其存储在一个属性中来实现的。这使得通过 UDP 传输大文件时,asyncio.DatagramProtocol 有着数量级的提速。

PR msoxzw 的作者提供了以下的 测试脚本

对于 math 库:优化了 comb(n, k) 与 perm(n, k=None)

Python 3.8 在math 标准库中增加了 comb(n, k) 和 perm(n, k=None) 函数。两者都用于计算从 n 个无重复的元素中选择 k 个元素的方法数,comb 返回无序计算的结果,而perm 返回有序计算的结果。(译注:即一个求组合数,一个求排列数)

3.11 的优化由多个较小的改进组成,比如使用分治算法来实现 Karatsuba 大数乘法,以及尽可能用 C 语言unsigned long long 类型而不是 Python 整数进行comb计算(*)。

另外一项改进是针对较小的 k 值(0 <= k <= n <= 67):

(译注:以下两段费解,暂跳过)

对于 0 <= k <= n <= 67, comb(n, k) always fits into a uint64_t. We compute it as comb_odd_part << shift where 2 ** shift is the largest power of two dividing comb(n, k) and comb_odd_part is comb(n, k) >> shift. comb_odd_part can be calculated efficiently via arithmetic modulo 2 ** 64, using three lookups and two uint64_t multiplications, while the necessary shift can be computed via Kummer's theorem: it's the number of carries when adding k to n - k in binary, which in turn is the number of set bits of n ^ k ^ (n - k). *

One more improvement is that the previous popcount-based code for computing the largest power of two dividing math.comb(n, k) (for small n) got replaced with a more direct method based on counting trailing zeros of the factorials involved. (*).

Python 3.10:

$ python -m pyperf timeit -s \
'import math' -- 'math.comb(100, 55)'
.....................
Mean +- std dev: 3.72 us +- 0.07 us # --- $ python -m pyperf timeit -s \
'import math' -- 'math.comb(10000, 5500)'
.....................
Mean +- std dev: 11.9 ms +- 0.1 ms

Python 3.11:

$ python -m pyperf timeit -s \
'import math' -- 'math.comb(100, 55)'
.....................
Mean +- std dev: 476 ns +- 20 ns # --- $ python -m pyperf timeit -s \
'import math' -- 'math.comb(10000, 5500)'
.....................
Mean +- std dev: 2.28 ms +- 0.10 ms

对于 statistics 库:优化了 mean(data)、variance(data, xbar=None) 与 stdev(data, xbar=None)

3.11 优化了statistics模块中的 meanvariancestdev 函数。如果入参是一个迭代器,则会直接用于计算,而不是先将其转换为列表。这种计算方法 的速度比之前的快了一倍。*

Python 3.10:

# Mean
$ python -m pyperf timeit -s \
'import statistics' -- 'statistics.mean(range(1_000))'
.....................
Mean +- std dev: 255 us +- 11 us # Variance
$ python -m pyperf timeit -s \
'import statistics' -- 'statistics.variance((x * 0.1 for x in range(0, 10)))'
.....................
Mean +- std dev: 77.0 us +- 2.9 us # Sample standard deviation (stdev)
$ python -m pyperf timeit -s \
'import statistics' -- 'statistics.stdev((x * 0.1 for x in range(0, 10)))'
.....................
Mean +- std dev: 78.0 us +- 2.2 us

Python 3.11:

# Mean
$ python -m pyperf timeit -s \
'import statistics' -- 'statistics.mean(range(1_000))'
.....................
Mean +- std dev: 193 us +- 7 us # Variance
$ python -m pyperf timeit -s \
'import statistics' -- 'statistics.variance((x * 0.1 for x in range(0, 10)))'
.....................
Mean +- std dev: 56.1 us +- 2.3 us # Sample standard deviation (stdev)
$ python -m pyperf timeit -s \
'import statistics' -- 'statistics.stdev((x * 0.1 for x in range(0, 10)))'
.....................
Mean +- std dev: 59.4 us +- 2.6 us

纯 ASCII 字符串的 unicodedata.normalize(),提升到常数时间

对于 unicodedata.normalize() 方法,如果提供的入参是纯 ASCII 字符串,则通过 unicode 快速检查算法 迅速返回结果。这项检查使用的是PyUnicode_IS_ASCII 实现。

Python 3.10:

$ python -m pyperf timeit -s \
'import unicodedata' -- 'unicodedata.normalize("NFC", "python")'
.....................
Mean +- std dev: 83.3 ns +- 4.3 ns

Python 3.11:

$ python -m pyperf timeit -s \
'import unicodedata' -- 'unicodedata.normalize("NFC", "python")'
.....................
Mean +- std dev: 34.2 ns +- 1.2 ns

最后的话:

  • 我写这篇文章是为了加深自己对 Python 3.11 最新成果的认识。如果内容有错,请通过email 或者 Twitter告诉我。(译注:本翻译是出于促进自己学习及加强理解的目的,若有错漏,欢迎指正!)
  • 附 HackerNews 上的评论
  • 在下一篇文章中,我将分析 faster CPython 项目带来的优化点。敬请期待!

万万没想到,除了香农计划,Python3.11竟还有这么多性能提升!的更多相关文章

  1. 头条编程题 万万没想到之抓捕孔连顺 JavaScript

    [编程题] 万万没想到之抓捕孔连顺 时间限制:1秒 空间限制:131072K 我叫王大锤,是一名特工.我刚刚接到任务:在字节跳动大街进行埋伏,抓捕恐怖分子孔连顺.和我一起行动的还有另外两名特工,我提议 ...

  2. 字节跳动:[编程题]万万没想到之聪明的编辑 Java

    时间限制:1秒 空间限制:32768K 我叫王大锤,是一家出版社的编辑.我负责校对投稿来的英文稿件,这份工作非常烦人,因为每天都要去修正无数的拼写错误.但是,优秀的人总能在平凡的工作中发现真理.我发现 ...

  3. 万万没想到!ModelArts与AppCube组CP了

    摘要:嘘,华为云内部都不知道的秘密玩法,我悄悄告诉您! 双"魔"合璧庆双节 ↑开局一张图,故事全靠编 华为云的一站式开发平台ModelArts和应用魔方AppCube居然能玩到一起 ...

  4. 万万没想到,3D打印居然可以做这些逆天设计

    3D打印一直被冠以“高科技”头衔,似乎离我们的日常生活还很遥远.其实不然,随着技术的创新,3D打印技术逐渐深入各个领域,工业生产.商业.医学.建筑.艺术等领域都能看到3D打印技术的影子.它将会改变我们 ...

  5. 【问题总结】万万没想到,竟然栽在了List手里

    说明 昨天同事开发的时候遇到了一个奇怪的问题. 使用Guava做缓存,往里面存一个List,为了方便描述,称它为列表A,在另一个地方取出来,再跟列表B中的元素进行差集处理,简单来说,就像是下面这样: ...

  6. go 学习笔记之万万没想到宠物店竟然催生出面向接口编程?

    到底是要猫还是要狗 在上篇文章中,我们编撰了一则简短的小故事用于讲解了什么是面向对象的继承特性以及 Go 语言是如何实现这种继承语义的,这一节我们将继续探讨新的场景,希望能顺便讲解面向对象的接口概念. ...

  7. 万万没想到,面试中,连 ClassLoader类加载器 也能问出这么多问题…..

    1.类加载过程 类加载时机 「加载」 将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在内存上创建一个java.lang.Class对象用来封装类在方法区内的数据 ...

  8. 万万没想到,JVM内存区域的面试题也可以问的这么难?

    二.Java内存区域 1.Java内存结构 内存结构 程序计数器 当前线程所执行字节码的行号指示器.若当前方法是native的,那么程序计数器的值就是undefined. 线程私有,Java内存区域中 ...

  9. N皇后求解。万万没想到,只用一个一维数组就搞定了。还体现了回溯。

    一.啥是N皇后?先从四皇后入手 给定一个4x4的棋盘,要在棋盘上放置4个皇后.他们的位置有这样的要求,每一列,每一行,每一对角线都能有一个皇后. 你可能会对这个对角线有疑惑,其实就是每一个小正方形的对 ...

随机推荐

  1. 【HTML】学习路径3-段落标签和标题标签

    第一章:标题标签 <h1>  </h1> <h2>  </h2> 等等... 数字越大,字体尺寸越小. <!--标题会加粗.独占一行--> ...

  2. 【Java】学习路径44-多线程入门篇

    这一章,我们学习线程的创建.线程的启动.线程的名字设置.线程的休眠.线程的加入.守护线程. 一个线程是一个单独的类的对象. 想让一个普通的类变成多线程,那么这个类需要继承Thread. 创建多线程的步 ...

  3. 「学习笔记」单调队列优化dp

    目录 算法 例题 最大子段和 题意 思路 代码 修剪草坪 题意 思路 代码 瑰丽华尔兹 题意 思路 代码 股票交易 题意 思路 代码 算法 使用单调队列优化dp 废话 对与一些dp的转移方程,我们可以 ...

  4. 使用spfa算法判断有没有负环

    如果存在最短路径的边数大于等于点数,就有负环 给定一个n个点m条边的有向图,图中可能存在重边和自环, 边权可能为负数. 请你判断图中是否存在负权回路. 输入格式 第一行包含整数n和m. 接下来m行每行 ...

  5. SQL 时间范围和时间粒度

    前言 使用 SQL 进行业务数据计算时,经常会遇到两个概念:时间范围 和 时间粒度 .以 最近一天的每小时的用户访问人数 为例: 最近一天 是时间范围 每小时 是时间粒度 常见的时间范围:最近五分钟. ...

  6. .NET WebAPI 自定义 NullableConverter 解决请求入参 “”空字符触发转换异常问题

    最近在项目中启用了Nullable 可为空的类型,这个特性确实很好用,在 WebAPI 的入参上可以直接采用 ? 来标记一个字段是否允许为空,但是使用过程中遇到了如下一个问题,比如创建部门接口 我们定 ...

  7. vue方法同步(顺序)执行:async/await使用

    https://blog.csdn.net/qq_38591756/article/details/90173323 项目中有一个地方需要获取到接口返回值之后根据返回值确定之后执行的步骤,使用asyn ...

  8. 使用Gitlab CI/CD功能在本地部署 Spring Boot 项目

    前提条件: 1.Docker安装Gitlab,地址:https://www.cnblogs.com/sanduzxcvbnm/p/13814730.html 2.Docker安装Gitlab-runn ...

  9. kvm安装windows使用virtio驱动下载地址

    https://dl.fedoraproject.org/pub/alt/virtio-win/latest/images/bin/deprecated-README 老版本下载地址:https:// ...

  10. Oracle基础知识汇总一

    Oracle基础知识 以下内容为本人的学习笔记,如需要转载,请声明原文链接   https://www.cnblogs.com/lyh1024/p/16720759.html oracle工具: SQ ...