理解 Python 的执行方式，与字节码 bytecode 玩耍（上）

这里有个博客讲 Python 内部机制，已经有一些中文翻译。

可能因为我用的Python 3.5，例子跑起来有些不一样。

此外，我又查了其他一些参考资料，总结如下：

Python 的执行方式

先看一个比较详细的步骤分解：

>>> a = "hello"

输入这行代码之后，你一按回车，Python就会执行四步操作:

1 lexing：词法分析，就是把一个句子分解成 token。大致来说，就是用str.split()可以实现的功能。

2 parsing：解析，就是把这些 token 组装成一个逻辑结构。

3 compiling：编译，把这个逻辑结构转化成一个或者多个code object （代码对象）

4 interpreting：解释，执行每个code object 代表的代码。

还有一种比较简单的说法是这样的：

Python 程序的执行过程就是，它先把代码编译成 bytecode （字节码）指令，交给虚拟机，逐条执行 bytecode 指令。

这两种说法基本上是一样的，只是存在一个code object 和 bytecode 的差异。那么它们之间存在怎样的关系呢？

从操作上说，bytecode 可以在 code object 的属性中找到。

分清function object、code object ，以及 bytecode

>>> def double(a):

    return a*2

>>> double

<function double at 0x000001D8082E48C8>

为什么粘贴到这里对齐会是这样？先不管了。

从上面可以看到，定义一个函数之后，它就成了一个function object （函数对象）。只要不使用函数调用符号——也就是小括号——这个函数就不会执行。

但是它已经被编译了，可以通过这个function object 的__code__ 属性找到它的 code object

>>> def double(a):
return a*2

>>> double
<function double at 0x00000169C5F7FF28>

>>> type (double)
<class 'function'>

>>> double.__code__ #找到double 函数对象的 code object

>>> type(double.__code__)
<class 'code'>

最后一行可以看到， code object 的类型是 ‘code’

前面说过，bytecode 是 code object 的一个属性的值。这个属性名为 co_code

在 code object 的co_code属性里面，存放了一个字符串，它就是bytecode 序列：

>>> double.__code__.co_code

b'|\x00\x00d\x01\x00\x14S'

bytecode 是几个意思？

>>> double.__code__.co_code

b'|\x00\x00d\x01\x00\x14S'

>>> type(double.__code__.co_code)

<class 'bytes'>

>>> len(double.__code__.co_code)

8

它的类型是‘bytes’ ，长度是8。你可能觉得奇怪，这个8是怎么数出来的？

注意: Python 3 中 str 类型大致相当于 Python 2 中的unicode 类型，但是 Python 3 中 bytes 类型并不是Python 2 中的 str 类型改了个名字。

bytes 是二进制序列，它的每个元素都是一个整数，值在0-255之间。

>>> for i in double.__code__.co_code:

    print (i, end="    ")

124    0    0    100    1    0    20    83   
 

>>> double.__code__.co_code[-1]

83

是不是正好8个元素？第一个是124，最后一个是83

>>> chr(124)

'|'

>>> chr(83)

'S'

这里是一个很让人迷惑的地方：为什么要把 '|' 、'S'这样的字符和 x00 这样的十六进制表示混在一起？这其实只是Python 在显示 bytes 类型的对象给你看的时候，会把ASCII 码范围内的十六进制元素直接用ASCII 字符显示出来。就像你们学校的成绩光荣榜上，前20名会显示照片，第21名之后只显示名字了。人家的显示方法就是这样。

这段 bytecode 由8个整数组成，每个整数都有深刻的含义，不亚于昆汀的《八恶人》

可能你已经猜到，其中必定有一些代表着指令，整数是一个字典中的键，我们需要的是这个字典中的值，也就是指令的名字

这个字典就在文件opcode.py里。

def_op('LOAD_CONST', 100)       # Index in const list

def_op('BUILD_TUPLE', 102)      # Number of tuple items

def_op('BUILD_LIST', 103)       # Number of list items

def_op('BUILD_SET', 104)        # Number of set items

好像……这些整数才是键值对里的值，我们需要的是键。

有一个方法帮你找出值（不要忘了先 import opcode）

>>> opcode.opmap["LOAD_FAST"]

124

>>> opcode.opmap["RETURN_VALUE"]

83

找值好像没什么意思嘛，我们更需要的是找到键。

>>> opcode.opname[83]

'RETURN_VALUE'

>>> opcode.opname[124]

'LOAD_FAST'


其实找键也不需要，Python 有个dis反汇编工具可以用 （不要忘了先 import dis）

>>> dis.dis(double)

  2           0 LOAD_FAST                0 (a)

              3 LOAD_CONST               1 (2)

              6 BINARY_MULTIPLY

              7 RETURN_VALUE

再回头看看那8个整数（这就是 bytecode的意思 —— 用for循环把 bytecode 迭代一遍得到的数字，代表一个指令序列 ）


      124    0    0    100    1    0    20    83

偏移量  0     1    2     3     4    5    6     7 

很明显，第2列 的0 3 6 7 ，就是每个字节的偏移量咯

下篇在这里。

理解 Python 的执行方式，与字节码 bytecode 玩耍（上）的更多相关文章

理解 Python 的执行方式，与字节码 bytecode 玩耍（下）
上次写到,Python 的执行方式是把代码编译成bytecode(字节码)指令,然后由虚拟机来执行这些 bytecode 而 bytecode 长成这个样子: b'|\x00\x00d\x01\x0 ...
任何Python线程执行前，必须先获得GIL锁，然后，每执行100条字节码，解释器就自动释放GIL锁，让别的线程有机会执行
任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行多线程 - 廖雪峰的官方网站 https://www.liaoxuefeng ...
从底层理解Python的执行
摘要:是否想在Python解释器的内部晃悠一圈?是不是想实现一个Python代码执行的追踪器?没有基础?不要怕,这篇文章让你初窥Python底层的奥妙. [编者按]下面博文将带你创建一个字节码级别的追 ...
Python 字节码bytecode
字节码bytecode python把源码文件编译成字节码文件,存放在__pycahe子目录内,用.pyc结尾.之后如果不再修改源码文件,运行时则使用*.pyc文件编译成机器码,这样不但运行速度快,而 ...
深入理解java虚拟机（5）---字节码执行引擎
字节码是什么东西? 以下是百度的解释: 字节码(Byte-code)是一种包含执行程序.由一序列 op 代码/数据对组成的二进制文件.字节码是一种中间码,它比机器码更抽象. 它经常被看作是包含一个执行 ...
深入理解JVM虚拟机5：虚拟机字节码执行引擎
虚拟机字节码执行引擎转自https://juejin.im/post/5abc97ff518825556a727e66 所谓的「虚拟机字节码执行引擎」其实就是 JVM 根据 Class 文件中给 ...
深入理解Java虚拟机06--虚拟机字节码执行引擎
一.前言物理机的执行引擎是直接在物理硬件如CPU.操作系统.指令集上运行的,但是对于虚拟机来讲,他的执行引擎由自己实现. 执行引擎有统一的外观(Java虚拟机规范),不同类型的虚拟机都遵循了这一规范 ...
JVM学习第三天(JVM的执行子系统)之字节码指令
早上看了Class类文件结构,晚上继续来看字节码指令,毕竟谁也不是一步登天的(说白了还是穷); 字节码指令 Java虚拟机的指令由一个字节长度的.代表着某种特定操作含义的数字(称为操作码,Opcode ...
【JVM源码解析】模板解释器解释执行Java字节码指令（上）
本文由HeapDump性能社区首席讲师鸠摩(马智)授权整理发布第17章-x86-64寄存器不同的CPU都能够解释的机器语言的体系称为指令集架构(ISA,Instruction Set Archit ...

随机推荐

Curl 基本命令
下载单个文件,默认将输出打印到标准输出中(STDOUT)中 curl http://www.centos.org 通过-o/-O选项保存下载的文件到指定的文件中:-o:将文件保存为命令行中指定的文件名 ...
小强学渲染之OpenGL状态机理解
状态机是理论上的一种机器,呃这个说法非常非常的抽象.通俗一点理解,状态机描述了一个对象在其生命周期内所经历的各种状态,状态间的转变,发生转变的动因,条件及转变中所执行的活动.或者说,状态机是一种行为, ...
[leetcode]2. Add Two Numbers两数相加
You are given two non-empty linked lists representing two non-negative integers. The digits are stor ...
Linux磁盘空间分析及清理（df、du、rm）
1.df磁盘空间查看 df可以查看一级文件夹大小.使用比例.档案系统及其挂入点. [root@oms ~]# df -Th Filesystem Type Size Used Avail Use% M ...
ios tableView的header高度不对
tableView的header高度不对,一般都是header是从xib加载出来的第一步: 新建xib的时候选择的是View,当选择 Size 为 Freeform 时,view的约束就变成这样了, ...
Fefora 14 源
默认的源不能用,需要用下边的源路径. [fedora] name=Fedora $releasever - $basearch failovermethod=priority #baseurl=htt ...
Subarray Sums Divisible by K LT974
Given an array A of integers, return the number of (contiguous, non-empty) subarrays that have a sum ...
说说Runnable与Callable
Callable接口: public interface Callable<V> { V call() throws Exception; } Runnable接口: public int ...
FreeRTOS的内存管理
FreeRTOS提供了几个内存堆管理方案,有复杂的也有简单的.其中最简单的管理策略也能满足很多应用的要求,比如对安全要求高的应用,这些应用根本不允许动态内存分配的. FreeRTOS也允许你自己实现内 ...
关于esp32的ADC采集
对于ADC采集程序源码如下: /* ADC1 Example This example code is in the Public Domain (or CC0 licensed, at your ...

理解 Python 的执行方式，与字节码 bytecode 玩耍 （上）

理解 Python 的执行方式，与字节码 bytecode 玩耍 （上）的更多相关文章

随机推荐

热门专题

理解 Python 的执行方式，与字节码 bytecode 玩耍（上）

理解 Python 的执行方式，与字节码 bytecode 玩耍（上）的更多相关文章