理解 Python 的执行方式,与字节码 bytecode 玩耍 (上)
这里有个博客讲 Python 内部机制,已经有一些中文翻译。
可能因为我用的Python 3.5,例子跑起来有些不一样。
此外,我又查了其他一些参考资料,总结如下:
Python 的执行方式
先看一个比较详细的步骤分解:
>>> a = "hello"
输入这行代码之后,你一按回车,Python就会执行四步操作:
1 lexing: 词法分析,就是把一个句子分解成 token。大致来说,就是用str.split()可以实现的功能。
2 parsing:解析,就是把这些 token 组装成一个逻辑结构。
3 compiling:编译,把这个逻辑结构转化成一个或者多个code object (代码对象)
4 interpreting:解释,执行每个code object 代表的代码。
还有一种比较简单的说法是这样的:
Python 程序的执行过程就是,它先把代码编译成 bytecode (字节码)指令,交给虚拟机,逐条执行 bytecode 指令。
这两种说法基本上是一样的,只是存在一个code object 和 bytecode 的差异。那么它们之间存在怎样的关系呢?
从操作上说,bytecode 可以在 code object 的属性中找到。
分清function object、code object ,以及 bytecode
>>> def double(a):
return a*2 >>> double
<function double at 0x000001D8082E48C8>
为什么粘贴到这里对齐会是这样?先不管了。
从上面可以看到,定义一个函数之后,它就成了一个function object (函数对象)。只要不使用函数调用符号——也就是小括号——这个函数就不会执行。
但是它已经被编译了,可以通过这个function object 的__code__ 属性找到它的 code object
>>> def double(a):
return a*2
>>> double
<function double at 0x00000169C5F7FF28>
>>> type (double)
<class 'function'>
>>> double.__code__ #找到double 函数对象的 code object
<code object double at 0x00000169C5F36AE0, file "<pyshell#58>", line 1>
>>> type(double.__code__)
<class 'code'>
最后一行可以看到, code object 的类型是 ‘code’
前面说过,bytecode 是 code object 的一个属性的值。这个属性名为 co_code
在 code object 的co_code属性里面,存放了一个字符串,它就是bytecode 序列:
>>> double.__code__.co_code
b'|\x00\x00d\x01\x00\x14S'
bytecode 是几个意思?
>>> double.__code__.co_code
b'|\x00\x00d\x01\x00\x14S'
>>> type(double.__code__.co_code)
<class 'bytes'>
>>> len(double.__code__.co_code)
8
它的类型是‘bytes’ ,长度是8。 你可能觉得奇怪,这个8是怎么数出来的?
注意: Python 3 中 str 类型大致相当于 Python 2 中的unicode 类型,但是 Python 3 中 bytes 类型并不是Python 2 中的 str 类型改了个名字。
bytes 是二进制序列,它的每个元素都是一个整数,值在0-255之间。
>>> for i in double.__code__.co_code:
print (i, end=" ") 124 0 0 100 1 0 20 83
>>> double.__code__.co_code[-1]
83
是不是正好8个元素? 第一个是124,最后一个是83
>>> chr(124)
'|'
>>> chr(83)
'S'
这里是一个很让人迷惑的地方:为什么要把 '|' 、'S'这样的字符和 x00 这样的十六进制表示混在一起?这其实只是Python 在显示 bytes 类型的对象给你看的时候,会把ASCII 码范围内的十六进制元素直接用ASCII 字符显示出来。就像你们学校的成绩光荣榜上,前20名会显示照片,第21名之后只显示名字了。人家的显示方法就是这样。
这段 bytecode 由8个整数组成,每个整数都有深刻的含义,不亚于昆汀的《八恶人》
可能你已经猜到,其中必定有一些代表着指令,整数是一个字典中的键,我们需要的是这个字典中的值,也就是指令的名字
这个字典就在文件opcode.py里。
def_op('LOAD_CONST', 100) # Index in const list
def_op('BUILD_TUPLE', 102) # Number of tuple items
def_op('BUILD_LIST', 103) # Number of list items
def_op('BUILD_SET', 104) # Number of set items
好像……这些整数才是键值对里的值,我们需要的是键。
有一个方法帮你找出值 (不要忘了先 import opcode)
>>> opcode.opmap["LOAD_FAST"]
124
>>> opcode.opmap["RETURN_VALUE"]
83
找值好像没什么意思嘛,我们更需要的是找到键。
>>> opcode.opname[83]
'RETURN_VALUE'
>>> opcode.opname[124]
'LOAD_FAST'
其实找键也不需要,Python 有个dis反汇编工具可以用 (不要忘了先 import dis)
>>> dis.dis(double)
2 0 LOAD_FAST 0 (a)
3 LOAD_CONST 1 (2)
6 BINARY_MULTIPLY
7 RETURN_VALUE
再回头看看那8个整数(这就是 bytecode的意思 —— 用for循环把 bytecode 迭代一遍得到的数字,代表一个指令序列 )
124 0 0 100 1 0 20 83
偏移量 0 1 2 3 4 5 6 7 很明显,第2列 的0 3 6 7 ,就是每个字节的偏移量咯 下篇在这里。
理解 Python 的执行方式,与字节码 bytecode 玩耍 (上)的更多相关文章
- 理解 Python 的执行方式,与字节码 bytecode 玩耍 (下)
上次写到,Python 的执行方式是把代码编译成bytecode(字节码)指令,然后由虚拟机来执行这些 bytecode 而 bytecode 长成这个样子: b'|\x00\x00d\x01\x0 ...
- 任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行
任何Python线程执行前,必须先获得GIL锁,然后,每执行100条字节码,解释器就自动释放GIL锁,让别的线程有机会执行 多线程 - 廖雪峰的官方网站 https://www.liaoxuefeng ...
- 从底层理解Python的执行
摘要:是否想在Python解释器的内部晃悠一圈?是不是想实现一个Python代码执行的追踪器?没有基础?不要怕,这篇文章让你初窥Python底层的奥妙. [编者按]下面博文将带你创建一个字节码级别的追 ...
- Python 字节码bytecode
字节码bytecode python把源码文件编译成字节码文件,存放在__pycahe子目录内,用.pyc结尾.之后如果不再修改源码文件,运行时则使用*.pyc文件编译成机器码,这样不但运行速度快,而 ...
- 深入理解java虚拟机(5)---字节码执行引擎
字节码是什么东西? 以下是百度的解释: 字节码(Byte-code)是一种包含执行程序.由一序列 op 代码/数据对组成的二进制文件.字节码是一种中间码,它比机器码更抽象. 它经常被看作是包含一个执行 ...
- 深入理解JVM虚拟机5:虚拟机字节码执行引擎
虚拟机字节码执行引擎 转自https://juejin.im/post/5abc97ff518825556a727e66 所谓的「虚拟机字节码执行引擎」其实就是 JVM 根据 Class 文件中给 ...
- 深入理解Java虚拟机06--虚拟机字节码执行引擎
一.前言 物理机的执行引擎是直接在物理硬件如CPU.操作系统.指令集上运行的,但是对于虚拟机来讲,他的执行引擎由自己实现. 执行引擎有统一的外观(Java虚拟机规范),不同类型的虚拟机都遵循了这一规范 ...
- JVM学习第三天(JVM的执行子系统)之字节码指令
早上看了Class类文件结构,晚上继续来看字节码指令,毕竟谁也不是一步登天的(说白了还是穷); 字节码指令 Java虚拟机的指令由一个字节长度的.代表着某种特定操作含义的数字(称为操作码,Opcode ...
- 【JVM源码解析】模板解释器解释执行Java字节码指令(上)
本文由HeapDump性能社区首席讲师鸠摩(马智)授权整理发布 第17章-x86-64寄存器 不同的CPU都能够解释的机器语言的体系称为指令集架构(ISA,Instruction Set Archit ...
随机推荐
- kafka 学习笔记
一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...
- 复用微信小程序源码包后仍然有原小程序的版本管理怎么处理
前言: 复用微信小程序源码包后,重新创建项目导入源码包,会发现开发者工具版本管理中仍然有原来小程序的版本,这样就不太好了.毕竟是一个新的小程序,需要有新的版本控制的.那么这个问题怎么处理呢? 解决方案 ...
- SpriteKit 关于categoryBitMask collisionBitMask contactTestBitMask 遇到的一些问题
手写copy一下官方解释 首先是categoryBitMask /** 定义了这个物理刚体是属于哪个类别的掩码 .在一个场景中的每个物理刚体可以分配给达到 32 不同的类别(参数 int bitmas ...
- pythonj基础(五)元组和集合
一,什么是元祖 Python的元组与列表类似,不同之处在于元组的元素不能修改. 元组使用小括号,列表使用方括号. 元组创建很简单,只需要在括号中添加元素,并使用逗号隔开即可. 1.创建一个空元组 tu ...
- ORACLE数据库测试数据插入速度[z]
一,没有优化的速度:Executed in 69.436 seconds drop table t purge;create table t(x int);/*清空共享池,注意在生产环境中千万不能做这 ...
- 完全理解 Python 迭代对象、迭代器、生成器
完全理解 Python 迭代对象.迭代器.生成器 2017/05/29 · 基础知识 · 9 评论 · 可迭代对象, 生成器, 迭代器 分享到: 原文出处: liuzhijun 本文源自RQ作者 ...
- jenkins源码管理git分支参数化
多个分支来回切换构建时,每次都需要去很多个job里面改分支名称,比较费时,分支参数化后可以只改一处就ok啦 步骤: 1.进入系统管理--系统设置 2.勾选全局变量,然后输入分支变量名和对应的分支名称 ...
- 我的java学习之旅--一些基础
(因为我粗略学过C,C++,Python,了解过他们的一些语法,所以为了使得java的入门更为顺畅,便会忽略一些和C语法相类似的地方,着重点明一些java自己的特色之处.也减轻一下自己写文字的负担.) ...
- SQL 不常用的一些命令sp_OACreate,xp_cmdshell,sp_makewebtask
开启和关毕xp_cmdshell EXEC sp_configure 'show advanced options', 1;RECONFIGURE;EXEC sp_configure 'xp_cm ...
- 20175316盛茂淞 2018-2019-2 《Java程序设计》第5周学习总结
20175316盛茂淞 2018-2019-2 <Java程序设计>第5周学习总结 教材学习内容总结 第六章 接口与实现. 何谓接口 接口:书上没有明确地给出接口的定义,我理解的接口就是一 ...