整数类型是编程中最常见的数据类型之一，但它的实现细节却鲜为人知。

与其他语言不同，Python 的整数是任意精度的，这意味着它们可以无限大，仅受限于内存。

这种特性使得 Python 在处理大整数时非常强大，但也增加了实现的复杂性。

今天，我们将探讨 Python 整数的内部实现，揭示其背后的奥秘。

1. 整数的内部表示

在大多数编程语言中，整数通常是固定精度的，例如 32 位或 64 位。

然而，Python 的整数是任意精度的，这意味着它们可以无限大，而不会出现溢出问题。

这种特性使得 Python在密码学、计算机代数等领域中非常实用。

# Python 中的整数可以非常大，而不会溢出

big_number = 1234567890123456789012345678901234567890

print(big_number * big_number)  # 输出一个更大的整数

这种任意精度的特性是如何实现的呢？

答案在于 Python 的整数实现方式。

Python 的整数是通过 CPython 的 PyLongObject 结构体实现的，

这个结构体定义了整数的存储方式，包括符号和数字。

PyLongObject的定义参考：Include/cpython/longintrepr.h 文件。

typedef struct _PyLongValue {

    uintptr_t lv_tag; /* Number of digits, sign and flags */

    digit ob_digit[1];

} _PyLongValue;

struct _longobject {

    PyObject_HEAD

    _PyLongValue long_value;

};

这里的_longobject就是PyLongObject，_PyLongValue中存储了数字的符号和个数。

Python 使用一种“大基数”表示法，而不是常见的十进制表示，

在 64 位平台上，基数为$2^{30}$ ，而在 32 位平台上，基数为$2^{15}$ 。

以64位平台（基数为$ 2^{30} $）为例，一个大数据1234567890123456789存储为[1038713109, 76039121, 1]。

def to_digits(n, base=2**30):

    digits = [n % base]

    n = n // base

    while n != 0:

        digits.append(n % base)

        n = n // base

    return digits

x = 1234567890123456789

print(f"整数 {x} 的底层数字表示: {to_digits(x)}")

# 整数 1234567890123456789 的底层数字表示: [1038713109, 76039121, 1]

如果要计算在32位平台上的表示，只要将传入to_digits的base参数改为2**15即可。

所以，任意大的整数，在Python内部都用用一个列表来存放，列表中的每个数值都小于$ 2^{30} $或者$ 2^{15} $。

2. 整数的内存优化

Python 整数占用较多内存，即使是小整数也需要 28 字节（在 64 位平台上）。

为了优化内存使用，CPython 采取了一些巧妙的策略，尤其是在处理小整数时。

我本机上的Python3.12.4版本中，小于等于$ 2^{64} $的整数都是缓存的。

i = 2**64

j = 2**64

print(f"addr i: {id(i)}, addr j: {id(j)}")

print(f"i 和 j 是否相同: {i is j}")

# addr i: 2595289736288, addr j: 2595289736288

# i 和 j 是否相同: True

i = 2**65

j = 2**65

print(f"addr i: {id(i)}, addr j: {id(j)}")

print(f"i 和 j 是否相同: {i is j}")

# addr i: 2595289736432, addr j: 2595289736480

# i 和 j 是否相同: False

从上面的示例可以看出，当整数$ \le 2^{64} $时，i和j的内存地址是一样的；反之则不一样。

不过，虽然CPython对整数的实现已经很高效了，但是但在处理大量整数时，内存占用仍然是一个需要考虑的问题。

以下是一些优化建议：

使用array模块或numpy：如果你需要存储大量同类型的整数，使用array模块或numpy会以更紧凑的方式存储数据。
避免不必要的整数创建：尽量复用已有的整数对象，尤其是在循环中。
使用生成器：如果只需要逐个处理整数，可以使用生成器而不是创建整个列表。

3. 整数的性能优化

CPython的整数实现不仅考虑了内存使用，还通过多种优化手段提高了运算性能。

位操作优化：对于大整数，CPython使用多精度算术，多精度整数在内存中以数组形式存储，每个元素代表一定位数的数值。

关联的源码可参考：Include/cpython/longintrepr.h 和 Objects/longobject.c

缓存机制优化：对于一些频繁出现的运算或者中间结果，会将其缓存起来。当再次需要这些结果时，直接从缓存中获取，而不是重新计算。

关联的源码可参考：Objects/longobject.c 和 Objects/object.c

并行计算支持：对于大整数加法，会将计算任务分解成多个子任务，并行地在多个核心上执行。

关联的源码可参考：Python/thread_pthread.h、Python/thread_pthread.c 和 Objects/longobject.c

代码生成优化：在将整数加法的 Python 代码转换为机器码时，生成更高效的指令序列。

关联的源码可参考：Python/compile.c和Python/ceval.c

4. 总结

Python 的整数实现是一个高效且灵活的任意精度整数系统。

通过CPython的源码，我们可以看到Python如何在内部处理大整数，以及如何通过优化策略提高性能和节省内存。

不过，虽然Python的整数实现已经非常强大，但在处理大量数据时，我们仍然可以通过一些技巧进一步优化内存使用和性能。

『Python底层原理』--Python整数为什么可以无限大的更多相关文章

操作系统底层原理与Python中socket解读
目录操作系统底层原理网络通信原理网络基础架构局域网与交换机/网络常见术语 OSI七层协议 TCP/IP五层模型讲解 Python中Socket模块解读 TCP协议和UDP协议操作系统底层原理 ...
『无为则无心』Python日志 — 64、Python日志模块logging介绍
目录 1.日志的作用 2.为什么需要写日志 3.Python中的日志处理 (1)logging模块介绍 (2)logging模块的四大组件 (3)logging日志级别 1.日志的作用从事与软件相关 ...
『无为则无心』Python基础 — 3、搭建Python开发环境
目录 1.Python开发环境介绍 2.Python解释器的分类 3.下载Python解释器 4.安装Python解释器 5.Python解释器验证 1.Python开发环境介绍所谓"工欲 ...
『无为则无心』Python基础 — 4、Python代码常用调试工具
目录 1.Python的交互模式 2.IDLE工具使用说明 3.Sublime3工具的安装与配置 (1)Sublime3的安装 (2)Sublime3的配置 4.使用Sublime编写并调试Pytho ...
『无为则无心』Python函数 — 34、lambda表达式
目录 1.lambda的应用场景 2.lambda语法 3.快速入门 4.示例:计算a + b 5.lambda的参数形式 6.lambda的应用 lambda表达式的主要作用就是化简代码. 匿名函数 ...
『无为则无心』Python面向对象 — 46、类和对象
目录 1.理解类和对象 2.类 3.对象 4.Python中的对象 5.类和对象的定义 (1)定义类 (2)创建对象 (3)练习 6.拓展:isinstance() 函数 1.理解类和对象 (1)类和 ...
python底层原理
有同学问到了一个问题,python中存储变量是通过内存地址来存储,那么python又是如何去判断内存中的地址是什么数据类型的呢.经过查找,找到这篇文章: 原博客地址:http://www.cnblog ...
Python 底层原理知识
1.Python是如何进行内存管理的? 答:从三个方面来说,一对象的引用计数机制,二垃圾回收机制,三内存池机制一.对象的引用计数机制 Python内部使用引用计数,来保持追踪内存中的对象,所有对象都 ...
『无为则无心』Python基础 — 2、编译型语言和解释型语言的区别
目录 1.什么是计算机语言 2.高级语言中的编译型语言和解释型语言 (1)编译型语言 (2)解释型语言 (3)编译型语言和解释型语言执行流程 3.知识扩展: 4.关于Python 1.什么是计算机语言 ...
『无为则无心』Python基础 — 7、Python的变量
目录 1.变量的定义 2.Python变量说明 3.Python中定义变量 (1)定义语法 (2)标识符定义规则 (3)内置关键字 (4)标识符命名习惯 4.使用变量 1.变量的定义程序中,数据都是 ...

随机推荐

扩容ext4分区容量16TB限制
#扩容ext4分区容量16TB限制环境: 系统 ubuntu 16 resize2fs 1.42.13 (17-May-2015) 使用resize2fs扩容时如下提示 resize2fs /dev ...
NoSQL 述评
作为主库的 nosql 只有 CockroachDB.TiKV 以及 MongoDB(从4.0后事务似乎可用了),CockrouchDB 已经收费,另外 YugabyteDB 也可选,但大家的反馈都不 ...
【C#】【FFmpeg】获取电脑可用音视频设备并输出到下拉列表框
[重要]不要边看文本边操作,本文由错误纠正,先看完一遍再说. 要使用的FFmpeg命令 ffmpeg -list_devices true -f dshow -i dummy 会输出的信息通过正则取 ...
kubectl cp
简介将文件.目录复制到容器:或从容器复制文件.目录. kubectl cp <file-spec-src> <file-spec-dest> 示例 # !!!重要提示!!! ...
Java保留两位小数的几种写法总结
转载本文列举了几个方法: 1. 使用java.math.BigDecimal 2. 使用java.text.DecimalFormat 3. 使用java.text.NumberFormat 4. ...
Git Permission denied
问题现象家里电脑 git pull 项目时,提示:Permission denied,ssh -T 测试又是正常的,如下图同样配置和密钥,在公司电脑就可以正常 pull .push . 问题原因 ...
SINE：上下文示例驱动，打造真正的通用分割模型 | NeurIPS'24
来源:晓飞的算法工程笔记公众号,转载请注明出处论文: A Simple Image Segmentation Framework via In-Context Examples 论文地址:http ...
BotSharp 4.0 Sidecar：迈向更大规模化的AI Agent平台框架
BotSharp 是一个功能强大的开源项目,由 SciSharp[1] 社区开发和维护,旨在实现.NET技术栈下高度可定制的多智能体解决方案.为开发高效的对话式 AI 系统提供了极大的灵活性.通过其模 ...
CDS标准视图：一次性账户的客户行项目 I_ONETIMEACCOUNTCUSTOMER
视图名称:一次性账户的客户行项目视图类型:基础视图代码: 点击查看代码 @EndUserText.label: 'One-Time Account Data for Customer Items' ...
x86平台SIMD编程入门(4)：整型指令
1.算术指令算术类型函数示例加 _mm_add_epi32._mm256_sub_epi16 减 _mm_sub_epi32._mm256_sub_epi16 乘 _mm_mul_epi32._ ...