Python 笔试集(2):你不知道的 Python 整数
面试题
分别给出下述代码在终端(e.g. IPyhon)中和在程序中的运行结果:
a = 256
b = 256
c = 257
d = 257
def foo():
e = 257
f = 257
print('a is b: %s' % (a is b))
print('c is d: %s' % (c is d))
print('c is e: %s' % (c is e))
print('e is f: %s' % (e is f))
foo()
- IPython 中运行的结果:
In [31]: a = 256
In [32]: b = 256
In [33]: c = 257
In [34]: d = 257
In [35]: def foo():
...: e = 257
...: f = 257
...:
...: print('a is b: %s' % (a is b))
...: print('c is d: %s' % (c is d))
...: print('c is e: %s' % (c is e))
...: print('e is f: %s' % (e is f))
...:
In [36]: foo()
a is b: True
c is d: False
c is e: False
e is f: True
- 在程序中运行的结果:
$ python foo.py
a is b: True
c is d: True
c is e: False
e is f: True
Emmmmm~ 显然两次执行的结果不尽相同,实际上在这个简单的代码之中包含了两个鲜为人知的 Python 技术内幕。
小整数与大整数
整数是最为简单且常用的数据类型,尤其在极端的科学计算场景中,上百万次计算就发生在数秒之间。对于这些场景,如果 Python 仍单纯的使用 malloc/free 函数来完成内存的分配与释放,那么其运行性能将会及其低下,并且会造成很大的浪费。所以,出于性能的考虑,Python 在内部对整数的实现做了许多优化工作,而优化的核心就是减少 malloc/free 函数的调用。
同时又因为在实际的应用中,应用程序对整数的使用有明显的数值区间划分。例如,数值较小的整数会更频繁的被使用,而数值较大的整数虽然使用得不那么频繁,但却要占用更大的内存空间。为了更好的区分优化,在 Python 的源码实现中,将整数的定义细分为「小整数」和「大整数」,前者的数值范围在 [-5, 257) 之间,其余的数值均归为后者。
小整数对象缓存池
小整数的使用是最为频繁的,为了避免反复创建和销毁带来的资源开销,Pyhton 干脆直接将这些小整数都缓存到一个特定的 small_ints 链表中,该链表会存在于 Python 解释器的整个生命周期中,但凡需要使用小整数时,则直接从链表中获取。这就是Python 的「小整数对象缓存池技术」,简单来说就是小整数对象会在 Python 全局解释器范围内被重复引用,且永远不会被 GC 回收。那么对于小整数而言,只会在初始化 small_ints 时调用 malloc/free 函数。
通用整数对象缓冲池
Python 运行环境会为大整数对象分配一定的缓冲内存空间,该内存空间会被大整数对象轮流使用,直到占满为止,再继续再开辟一块新的内存空间。这就是 Python 的「通用整数对象缓冲池技术」。
通用整数对象缓冲池相关的结构体定义:
struct _intblock {
struct _intblock *next;
PyIntObject objects[N_INTOBJECTS];
};
typedef struct _intblock PyIntBlock;
static PyIntBlock *block_list = NULL;
static PyIntObject *free_list = NULL;
PyIntObject(Python 整数对象)会以数组的形式存在于 PyIntBlock 中,一个 block 大约能够存放 82 个 PyIntObject。block_list 用于维护分配给 PyIntObject 所有的内存空间,而 free_list 则用于维护 PyIntObject 可用的剩余内存空间。只有当 free_list 为 NULL(剩余空间为 0)时,Python 才会调用 fill_free_list 函数再 malloc 出来一个 block。并且当一个大整数对象的引用计数为 0 而需要被回收时,其占有的内存并不会归还给系统,而是重新回到 free_list,供新创建的整数对象使用。由此可见,通用整数对象缓冲池同样能够有效的减少 malloc/free 函数的调用。
在理解了大、小整数实现的不同后,再看看下面的运行结果,我想大家应该不会再感到奇怪:
In [25]: a = 256
In [26]: b = 256
In [27]: a is b
Out[27]: True
In [28]: c = 257
In [29]: d = 257
In [30]: c is d
Out[30]: False
但这依旧不足以解释面试题中同为大整数的变量 c、d、e、f,为什么 c/d、e/f 的内存地址却是两两相同的结果。这就涉及到了另一个知识点——「Python 的解析模式」。
逐行解释与整体解释的差异
整体解释
整体解释指的是通过应用程序的方式来运行 Python 代码,对应面试题在程序中运行的结果。对于此时的 Python 代码而言,解析器 CPython 的「编译单元」是一个函数(Python 顶层代码也被当作一个函数来进行编译),即题目中的函数 foo 会被单独编译,而得到一个 PyFunctionObject 对象,该对象中包含了字节码、常量池等信息。
每个 PyFunctionObject 都拥有有一个独立的常量池,如果在同一个 PyFunctionObject 里创建了值相同的常量,那么这些常量只会在常量池里出现一份。也就是说位于顶层的变量 c、d 和位于 foo 函数中 e、f 实际上都分别引用了来自同一个 PyFunctionObject 的常量池中的内存对象,所以变量 c/d、e/f 的内存地址才会两两相同。同理,因为变量 c 和 e 分别存在于两个不同的 PyFunctionObject 中,所以即便两者的值相同,也不是同一个内存对象。
需要注意的是这里提到的「常量」,通常指的是整数类型对象。又因为整型中的小整数具有小整数缓存池机制,所以即便是在不同的 PyFunctionObject 中,小整数变量也依旧会引用同一个内存对象。
逐行解释
在交互式解释器中执行 Python 代码,对应面试题中在 IPython 中运行的代码。每输入一行语句就会立即执行,所以此时的「编译单元」为一行语句。注意这里所说的“一行”指的是一次完整性输入,例如:
In [33]: c = 257
In [34]: d = 257
In [35]: def foo():
...: e = 257
...: f = 257
...:
...: print('a is b: %s' % (a is b))
...: print('c is d: %s' % (c is d))
...: print('c is e: %s' % (c is e))
...: print('e is f: %s' % (e is f))
...:
上述代码块实际上属于 3 次完整性输入,分别得到了 3 个不同的 PyFunctionObject,所以变量 c、d 自然也就不存在于同一个常量池中,所以 (c is d) == False。
最后
实际上这一个看是并没有什么卵用的知识点,掌握与否并不会影响到日常的编程任务。但往往是这种“大隐隐与市”的知识点,最能区别出开发者对一门语言的理解,以及开发者是否具有专研精神的考量。
其次,我们能通过 Python 对整数实现的优化得到一些启发,就是 pool 的设计与机制是一种能够降低应用系统中性能损耗的有效手段。
Python 笔试集(2):你不知道的 Python 整数的更多相关文章
- Python 笔试集(4):True + True == ?
目录 目录 前文列表 面试题True Ture 布尔值 布尔类型是特殊的整数类型 前文列表 Python 笔试集:什么时候 i = i + 1 并不等于 i += 1? Python 笔试集(1):关 ...
- Python 笔试集(3):编译/解释?动态/静态?强/弱?Python 是一门怎样的语言
面试题 解释/编译?动态/静态?强/弱?Python 到底是一门怎样的语言? 编译 or 解释? 编译.解释都是指将(与人类亲和的)编程语言翻译成(计算机能够理解的)机器语言(Machine code ...
- Python 笔试集(1):关于 Python 链式赋值的坑
前言 Python 的链式赋值是一种简易型批量赋值语句,一行代码即可为多个变量同时进行赋值. 例如: x = y = z = 1 链式赋值是一种非常优雅的赋值方式,简单.高效且实用.但同时它也是一个危 ...
- Python 笔试集:什么时候 i = i + 1 并不等于 i += 1?
增强型赋值语句是经常被使用到的,因为从各种学习渠道中,我们能够得知 i += 1 的效率往往要比 i = i + 1 更高一些(这里以 += 为例,实际上增强型赋值语句不仅限于此).所以我们会乐此 ...
- 『Python题库 - 填空题』151道Python笔试填空题
『Python题库 - 填空题』Python笔试填空题 part 1. Python语言概述和Python开发环境配置 part 2. Python语言基本语法元素(变量,基本数据类型, 基础运算) ...
- python垃圾回收机制与小整数池
python垃圾回收机制 当引用计数为0时,python会删除这个值. 引用计数 x = 10 y = x del x print(y) 10 引用计数+1,引用计数+1,引用计数-1,此时引用计数为 ...
- 实现Redis Cluster并实现Python链接集群
目录 一.Redis Cluster简单介绍 二.背景 三.环境准备 3.1 主机环境 3.2 主机规划 四.部署Redis 4.1 安装Redis软件 4.2 编辑Redis配置文件 4.3 启动R ...
- 你不知道的Python容器
你不知道的Python容器 你不知道的Python容器 散列表 ChainMap MappingProxyType 线性表 堆 参考资料 昨天阅读了<Python Tricks: The Boo ...
- 有哪些你不知道的python小工具
python作为越来越流行的一种编程语言,不仅仅是因为它语言简单,有许多现成的包可以直接调用. python中还有大量的小工具,让你的python工作更有效率. 1.- 快速共享 - HTTP服务器 ...
随机推荐
- window环境下,php+sphinx+coreseek实现简单的中文全文搜索
就以我个人理解来说,sphinx其实是介于客户端和mysql之间的一个索引表,把数据库的没一条记录假设为文档,那么这个索引表其实保存的就是这条记录的关键词及其对应的文档id 1.sphinx的安装 下 ...
- ARIMA模型
ARIMA模型(英语:Autoregressive Integrated Moving Average model),差分整合移动平均自回归模型,又称整合移动平均自回归模型(移动也可称作滑动),时间序 ...
- useradd 创建用户
useradd 创建用户 1.命令功能 useradd 创建一个新用户或者更改默认新用户信息. 2.语法格式 useradd option username useradd -D option ...
- css画心形、三角形的总结
.heart { width: 10px; height: 10px; /* position: fixed; */ background: #fff; transform: rotate(45deg ...
- Java 指令重排
Java 指令重排 java 指令重排 package com.feshfans; /** * 用来演示指令重排 * 指令重排会发生在两个阶段: * 1. 编译期(jvm 加载字节码时) * 2. c ...
- 报表解决方案Telerik Reporting发布R2 2019 SP1|支持MS Access
Telerik Reporting拥有直观.无代码的Win.网页与PDF报表的创建功能,直观的设计与具有特定风格的报表,无代码数据打包.向导.语法开发工具.自动操作.分类整理.过滤.有条件格式化.转化 ...
- python接口自动化四(json数据处理)
前言 有些post的请求参数是json格式的,这个前面第二篇post请求里面提到过,需要导入json模块处理. 一般常见的接口返回数据也是json格式的,我们在做判断时候,往往只需要提取其中几个关键的 ...
- NOIP2016提高A组五校联考2总结
第一题用组合数各种乱搞,其恶心程度不一般.搞了很久才调对,比赛上出了一点bug,只拿了30分. 第二题我乱搞得出个错误的结论,本来自信满满60分,结果爆零了. 第三题,树形dp,在一开始的时候想到了, ...
- 25.复杂链表的复制(python)
题目描述 输入一个复杂链表(每个节点中有节点值,以及两个指针,一个指向下一个节点,另一个特殊指针指向任意一个节点),返回结果为复制后复杂链表的head.(注意,输出结果中请不要返回参数中的节点引用,否 ...
- The Preliminary Contest for ICPC Asia Shanghai 2019 J. Stone game
题目:https://nanti.jisuanke.com/t/41420 思路:当a(a∈S′)为最小值 如果Sum(S′)−a≤Sum(S−S′)成立 那么(∀t∈S′,Sum(S′)−t≤Sum ...