『Python底层原理』--CPython 虚拟机
在 Python 编程的世界里,我们每天都在使用 python 命令运行程序,但你是否曾好奇这背后究竟发生了什么?
本文将初步探究 CPython(Python 中最流行的实现)的一些内部机制,为了更好的来理解 Python 语言的底层运作。
1. CPython 简介
CPython 是用** C 语言**编写的 Python 解释器,在众多 Python 实现(如 PyPy、Jython、IronPython 等)中,它以其原创性、良好的维护性和高人气脱颖而出。
了解 CPython 的一些内部机制,对我们学习和使用Python语言本身也有很大的帮助:
- 有助于深入理解
Python语言:了解实现细节能让我们更轻松地掌握Python的一些特性 - 实现细节在实际应用中至关重要:对象存储方式、垃圾回收机制以及多线程协调等方面的知识,对于理解语言的适用性、局限性、性能评估和效率检测都非常关键
CPython提供的Python/CAPI 允许我们用 C 扩展 Python 或在 C 中嵌入 Python,而有效使用该 API 需要对CPython的工作原理有深入理解
CPython是开源的,源码在github.com上:https://github.com/python/cpython
每个版本的Python都有相应的CPython实现,我目前使用的Python3.12,
所以本文后续如果有参考的代码,参考的是CPython 3.12分支中的代码。

2. Python执行的流程
宏观上来来看,一个Python程序的执行大致分为三个阶段:
第一个阶段是初始化阶段,CPython 在此阶段初始化运行 Python 所需的数据结构,包括内置类型、配置和加载内置模块、设置导入系统等。
这个阶段虽然重要,但常常被忽视,因为它主要为程序的运行做一些准备工作。
第二个阶段是编译阶段,CPython是解释器,虽不生成机器码,但会将源代码转换为中间表示形式。
它会解析源代码构建抽象语法树(AST),从 AST 生成字节码,并进行一些字节码优化。
这个阶段虽然名称是编译,但是和C/C++这类编译型语言的编译不是一个含义。
Python代码经过编译之后的字节码是可以查看的,比如下面简单写一个加法函数。
def add(x, y):
return x + y
命令行中使用:python.exe -m dis .\cpython-vm.py查看字节码。

LOAD_FAST 指令将局部变量压入栈中,
BINARY_ADD 指令从栈中弹出两个对象,将它们相加,并将结果压回栈中。
最后,RETURN_VALUE 指令弹出栈顶的任何内容,并将结果返回给调用者。
最后一个阶段是解释阶段,CPython 的核心是一个执行字节码的虚拟机。字节码是一系列指令,每条指令由一个操作码和一个参数组成。
CPython 虚拟机是基于栈的,通过栈来存储和检索数据,执行指令。字节码执行在一个巨大的求值循环中进行,直到没有指令可执行或发生错误。
3. 核心概念
通过CPython虚拟机的内部机制来了解Python的底层原理,首先要关注的就是CPython虚拟机中的一些核心概念。包括:代码对象,函数对象,帧对象。
3.1. 代码对象
代码对象是 CPython 中存储代码块相关信息的结构,像模块、函数体这类作为独立执行单元的代码,其信息都保存在代码对象里。
它包含字节码(程序编译后的中间表示形式),以及代码块内使用的变量名列表等关键信息。
从本质上讲,代码对象是对一段可执行代码的抽象表示,为函数的调用、模块的运行提供了必要的指令和数据描述。
其相关定义在源码文件:cpython/Include/cpython/code.h
#define _PyCode_DEF(SIZE) { \
PyObject_VAR_HEAD \
// 省略... \
/* The hottest fields (in the eval loop) are grouped here at the top. */ \
PyObject *co_consts; /* list (constants used) */ \
PyObject *co_names; /* list of strings (names used) */ \
PyObject *co_exceptiontable; /* Byte string encoding exception handling \
table */ \
int co_flags; /* CO_..., see below */ \
\
/* The rest are not so impactful on performance. */ \
int co_argcount; /* #arguments, except *args */ \
int co_posonlyargcount; /* #positional only arguments */ \
int co_kwonlyargcount; /* #keyword only arguments */ \
int co_stacksize; /* #entries needed for evaluation stack */ \
int co_firstlineno; /* first source line number */ \
\
/* redundant values (derived from co_localsplusnames and \
co_localspluskinds) */ \
int co_nlocalsplus; /* number of spaces for holding local, cell, \
and free variables */ \
int co_framesize; /* Size of frame in words */ \
int co_nlocals; /* number of local variables */ \
int co_ncellvars; /* total number of cell variables */ \
int co_nfreevars; /* number of free variables */ \
uint32_t co_version; /* version number */ \
\
PyObject *co_localsplusnames; /* tuple mapping offsets to names */ \
PyObject *co_localspluskinds; /* Bytes mapping to local kinds (one byte \
per variable) */ \
PyObject *co_filename; /* unicode (where it was loaded from) */ \
PyObject *co_name; /* unicode (name, for reference) */ \
PyObject *co_qualname; /* unicode (qualname, for reference) */ \
PyObject *co_linetable; /* bytes object that holds location info */ \
PyObject *co_weakreflist; /* to support weakrefs to code objects */ \
// 省略...
}
/* Bytecode object */
struct PyCodeObject _PyCode_DEF(1);
定义比较长,这里只列出了一部分。
以上一节中示例中的函数add(x, y)函数为例,CPython 会为add函数体创建一个代码对象。
在这个代码对象中,字节码部分记录了如何加载变量x和y、执行加法操作并返回结果等指令序列。
同时,还包含co_argcount(参数数量,此处为 2)等属性,这些属性描述了函数的参数使用情况。
此外,代码对象还会记录函数定义所在的文件名(co_filename )、起始行号(co_firstlineno)等信息,方便调试和代码分析。
3.2. 函数对象
函数对象不仅仅包含可执行代码(即代码对象),还存储了与函数相关的其他重要信息,如函数名、文档字符串(docstring)、默认参数、外部作用域变量值等。
函数对象将代码对象与函数运行所需的上下文信息整合在一起,使得函数可以在不同的环境中被正确调用和执行。
多个函数对象可以引用同一个代码对象,通过不同的外部信息实现不同的功能,例如闭包的实现。
其相关定义在源码文件:cpython/Include/cpython/funcobject.h
typedef struct {
PyObject_HEAD
_Py_COMMON_FIELDS(func_)
PyObject *func_doc; /* The __doc__ attribute, can be anything */
PyObject *func_dict; /* The __dict__ attribute, a dict or NULL */
PyObject *func_weakreflist; /* List of weak references */
PyObject *func_module; /* The __module__ attribute, can be anything */
PyObject *func_annotations; /* Annotations, a dict or NULL */
PyObject *func_annotate; /* Callable to fill the annotations dictionary */
PyObject *func_typeparams; /* Tuple of active type variables or NULL */
vectorcallfunc vectorcall;
uint32_t func_version;
} PyFunctionObject;
3.3. 帧对象
帧对象在 CPython 中用于跟踪代码执行过程中的各种状态信息。
当虚拟机执行代码对象时,帧对象负责记录变量的值、维护值栈(用于指令执行时的数据存储和操作),还会记录代码执行的位置(如当前行号、上一条执行的指令位置等),以便在函数调用、返回以及异常处理等情况下,能够正确恢复和继续执行代码。
可以说,帧对象为代码对象的执行提供了一个动态的上下文环境,它随着代码的执行而创建和销毁,形成一个调用栈,反映了函数调用的层次结构。
其相关定义在源码文件:cpython/Include/internal/pycore_frame.h
struct _frame {
PyObject_HEAD
PyFrameObject *f_back; /* previous frame, or NULL */
struct _PyInterpreterFrame *f_frame; /* points to the frame data */
PyObject *f_trace; /* Trace function */
int f_lineno; /* Current line number. Only valid if non-zero */
char f_trace_lines; /* Emit per-line trace events? */
char f_trace_opcodes; /* Emit per-opcode trace events? */
PyObject *f_extra_locals; /* Dict for locals set by users using f_locals, could be NULL */
/* This is purely for backwards compatibility for PyEval_GetLocals.
PyEval_GetLocals requires a borrowed reference so the actual reference
is stored here */
PyObject *f_locals_cache;
/* The frame data, if this frame object owns the frame */
PyObject *_f_frame_data[1];
};
当调用函数时,会创建一个新的帧对象并压入调用栈。
当函数执行结束返回时,该帧对象从调用栈中弹出,虚拟机根据帧对象中记录的f_back(指向前一个帧对象的引用)等信息,恢复到调用函数之前的状态,继续执行后续代码。
4. 总结
本文主要对 CPython 执行 Python 程序的过程做一个初步的宏观介绍,了解了其主要的阶段和核心概念。
后续打算进一步就CPython某个部分的具体实现细节来介绍,逐步对CPython的内部机制进行深入的了解。
『Python底层原理』--CPython 虚拟机的更多相关文章
- 『Python基础-1 』 编程语言Python的基础背景知识
#『Python基础-1 』 编程语言Python的基础背景知识 目录: 1.编程语言 1.1 什么是编程语言 1.2 编程语言的种类 1.3 常见的编程语言 1.4 编译型语言和解释型语言的对比 2 ...
- 『Python基础-12』各种推导式(列表推导式、字典推导式、集合推导式)
# 『Python基础-12』各种推导式(列表推导式.字典推导式.集合推导式) 推导式comprehensions(又称解析式),是Python的一种独有特性.推导式是可以从一个数据序列构建另一个新的 ...
- 『Python基础-11』集合 (set)
# 『Python基础-11』集合 (set) 目录: 集合的基本知识 集合的创建 访问集合里的值 向集合set增加元素 移除集合中的元素 集合set的运算 1. 集合的基本知识 集合(set)是一个 ...
- 『Python基础-10』字典
# 『Python基础-10』字典 目录: 1.字典基本概念 2.字典键(key)的特性 3.字典的创建 4-7.字典的增删改查 8.遍历字典 1. 字典的基本概念 字典一种key - value 的 ...
- 『Python基础-9』元祖 (tuple)
『Python基础-9』元祖 (tuple) 目录: 元祖的基本概念 创建元祖 将列表转化为元组 查询元组 更新元组 删除元组 1. 元祖的基本概念 元祖可以理解为,不可变的列表 元祖使用小括号括起所 ...
- 『Python基础-8』列表
『Python基础-8』列表 1. 列表的基本概念 列表让你能够在一个地方存储成组的信息,其中可以只包含几个 元素,也可以包含数百万个元素. 列表由一系列按特定顺序排列的元素组成.你可以创建包含字母表 ...
- 『Python基础-7』for循环 & while循环
『Python基础-7』for循环 & while循环 目录: 循环语句 for循环 while循环 循环的控制语句: break,continue,pass for...else 和 whi ...
- 『Python基础-6』if语句, if-else语句
# 『Python基础-6』if语句, if-else语句 目录: 条件测试 if语句 if-else语句 1. 条件测试 每条if语句的核心都是一个值为True或False的表达式,这种表达式被称为 ...
- 『Python基础-5』数字,运算,转换
『Python基础-5』数字,运算,转换 目录 基本的数字类型 二进制,八进制,十六进制 数字类型间的转换 数字运算 1. 数字类型 Python 数字数据类型用于存储数学上的值,比如整数.浮点数.复 ...
- 『Python基础-4』字符串
# 『Python基础-4』字符串 目录 1.什么是字符串 2.修改字符串 2.1 修改字符串大小 2.2 合并(拼接)字符串 2.3 使用乘号'*'来实现字符串的叠加效果. 2.4 在字符串中添加空 ...
随机推荐
- Taro首个支持鸿蒙的 UI 库,同时还兼容 React Native、小程序、H5
Taro 4.0 已经推出一段时间了,4.0 版本主要是支持了鸿蒙端的开发以及 Vite 编译工具的支持.duxapp 在这段时间也跟随 Taro 的脚步,实现的对鸿蒙端的支持,并且也将之前的 dux ...
- Mybatis中foreach的使用
首先我们要明白的是foreach的本质就是把数据库能执行的sql在xml中按照一定语法来进行拼接,所以拼接之前,我们了解一下foreach标签中几个常见元素的作用 1.collection List ...
- 【一步步开发AI运动小程序】九、姿态辅助调试桌面工具的使用
随着人工智能技术的不断发展,阿里体育等IT大厂,推出的"乐动力"."天天跳绳"AI运动APP,让云上运动会.线上运动会.健身打卡.AI体育指导等概念空前火热.那 ...
- ibatis源码分析
背景:调试模式下,单步运行一个查询订单协议操作,记录了ibatis框架的执行动作,侧面剖析其原理. 一.简介: 1. dal 层的dao接口实现类通常会继承SqlMapClientDaoSupport ...
- MongoDB之用户管理
注意点: 验证库: 建立用户时use到的库及用户的验证库,在使用用户时,要加上验证库才能登陆. 对于管理员用户,必须在admin下创建. 1. 建用户时,use到的库,就是此用户的验证库 2. 登录时 ...
- OS开发笔记(1)——硬盘引导的尝试
看前提醒:这一系列笔记完全是按照我的思考顺序写的,中间可能会绕弯路 定义 为了避免概念的混淆,我先在这里作一下(仅适用于本文的)名词的解释: 引导程序/boot程序:特指磁盘MBR或者VBR扇区中存放 ...
- 使用nginx 压缩
现在的程序使用单页面应用,因此程序会在一开始就会加载页面JS.如果带宽不够,那么会影响页面下载速度. 我们可以使用NGINX 进行压缩,加快文件下载. gzip on; gzip_min_length ...
- Winform窗体控件双向绑定数据模拟读写PLC数据
1.用Modbus工具模拟PLC 2.创建一个实体类 点击查看代码 internal class Data : INotifyPropertyChanged { ushort[] ushorts = ...
- AI产品落地的多角度探索与实践
AI产品落地的多角度探索与实践是一个复杂而多维的过程,它涉及技术创新.行业应用.人机协作等多个方面.在构建多智能体平台Agent Foundry的基础上,我们可以将其应用于制造业.教育.政府.跨境电商 ...
- ng-alain: Title Service
文档地址:https://ng-alain.com/theme/title/zh 源码地址: https://github.com/ng-alain/delon/blob/master/package ...