Python 之父的解析器系列之六：给 PEG 语法添加动作

作者 | Guido van Rossum（Python之父）

译者 | 豌豆花下猫（“Python猫”公众号作者）

声明 | 本翻译是出于交流学习的目的，基于 CC BY-NC-SA 4.0 授权协议。为便于阅读，内容略有改动。

如果你在语法规则中还可以添加（某些）语义，那么语法就会更好。特别是对于我正在构建的 Python 解析器，我需要控制每个备选项返回的 AST 节点，因为 AST 的格式已经规定好。

【这是我的 PEG 系列的第 6 部分。其余部分请参阅系列概述】（译注：本系列的译文已在 Github 开源，项目地址：https://github.com/chinesehuazhou/guido_blog_translation）

许多语法都有支持给规则添加动作的约定，通常是 { 花括号 } 内的一段代码块。更确切地说，行动与备选项相关联。动作块中的代码通常与编写编译器的语言相同，如 C 语言，增加一些工具，用于引用备选项中的条目。在 Python 原始的 pgen 中，我没有添加此功能，但对于这个新项目，我希望使用它。

对于在这一系列博客文章中开发的简化版解析器生成器，下面是我们采用的做法。

一般而言，动作的语法如下：

rule: item item item { action 1 } | item item { action 2 }

因为它会使语法变得冗长，所以解析器生成器通常支持跨行分割规则，例如：

rule: item item item { action 1 }

    | item item { action 2}

它会使语法分析器变得复杂，但可读性更重要，所以我会使用这种方式。

一个永恒的问题是何时执行动作块。在 Yacc / Bison 中，因为没有回溯，一旦规则被解析器识别到，就会执行动作块。每个动作会立即执行，这意味着即使操作具有全局副作用，还是会顺利执行（例如更新符号表或其它编译器数据结构）。

在 PEG 解析器中，因为有无限回溯，我们有其它的选择：

延迟所有动作，直到解析完所有内容。这对我的目的没有用，因为我想在解析期间构造一个 AST。
只要识别出动作所对应的备选项就执行之，但要求操作代码是幂等的（即无论执行多少次，都具有相同的效果）。这意味着可以执行某个动作，但其结果最终会被丢弃。
缓存动作的结果，因此只有第一次在给定位置识别到备选项时，对应的动作才执行。

我要采用第三个选项——正好我们用 packrat 算法缓存东西，所以我们也可以缓存动作的结果。

关于 {花括号} 里面的内容，传统上是使用 C 语言，它约定用 $ 符号来引用已识别的备选项（例如，$1 引用第一个条目），并赋值给 $$ 以指示动作的结果。

在我看来这太老古董了（我记得曾在 Algol-60 中使用对函数名的赋值，来指定返回值），所以我会用一些更 Pythonic 的方式：在括号内，你需要放置一个单一的表达式，它的值是动作的值，而条目的引用则是一些简单的名称，给出着条目的文本。

举个例子，这是一个简单的计算器，可以作加减法：

start: expr NEWLINE { expr }

expr: expr '+' term { expr + term }

    | expr '-' term { expr - term }

    | term { term }

term: NUMBER { float(number.string) }

当我们运行时，给定输入 100+50-38-70 ，它会识别出各部分并计算答案，计算成((100+50)-38)-70 ，当然得出结果为 42。

一个小细节：在term 的动作中，变量number 保存了一个TokenInfo 对象，因此该动作必须使用其.string 属性来获取字符串形式的标识符。

当一个备选项中多次出现相同的规则名称时，我们该怎么办？对同一备选项中出现的规则，解析器生成器会给出唯一的名称，即在随后出现的规则上添加 1、2 等等。例如：

factor: atom '**' atom { atom ** atom1 }

      | atom { atom }

它的实现很无聊，所以我请你们 check out 代码，自己看看。试试这个：

python3.8 -m story5.driver story5/calc.txt -g story5.calc.CalcParser

可视化功能现在支持使用左右箭头键来回移动！

本文内容与示例代码的授权协议：CC BY-NC-SA 4.0

公众号【Python猫】，本号连载优质的系列文章，有喵星哲学猫系列、Python进阶系列、好书推荐系列、技术写作、优质英文推荐与翻译等等，欢迎关注哦。

Python 之父的解析器系列之六：给 PEG 语法添加动作的更多相关文章

Python 之父的解析器系列之七：PEG 解析器的元语法
原题 | A Meta-Grammar for PEG Parsers 作者 | Guido van Rossum(Python之父) 译者 | 豌豆花下猫("Python猫"公众 ...
Python 之父的解析器系列之五：左递归 PEG 语法
原题 | Left-recursive PEG grammars 作者 | Guido van Rossum(Python之父) 译者 | 豌豆花下猫("Python猫"公众号作者 ...
Python 之父的解析器系列之三：生成一个 PEG 解析器
原题 | Generating a PEG Parser 作者 | Guido van Rossum(Python之父) 译者 | 豌豆花下猫("Python猫"公众号作者) 声明 ...
Python爬虫——使用 lxml 解析器爬取汽车之家二手车信息
本次爬虫的目标是汽车之家的二手车销售信息,范围是全国,不过很可惜,汽车之家只显示100页信息,每页48条,也就是说最多只能够爬取4800条信息. 由于这次爬虫的主要目的是使用lxml解析器,所以在信息 ...
语法解析器续：case..when..语法解析计算
之前写过一篇博客,是关于如何解析类似sql之类的解析器实现参考:https://www.cnblogs.com/yougewe/p/13774289.html 之前的解析器,更多的是是做语言的翻译转换 ...
非标准的xml解析器的C++实现：二、解析器的基本构造：语法表
解析器的目的:一次从头到尾的文本遍历,文本数据转换为 xml节点数据. 这其实是全世界所有编程语言编译或者转换为虚拟代码的基础,学会这种方法,发明一种编程语言其实只是时间问题,当然了,时间也是世界上 ...
Python模块：配置文件解析器configparser
版权声明:本文为博主皮皮http://blog.csdn.net/pipisorry原创文章,未经博主同意不得转载. https://blog.csdn.net/pipisorry/article/d ...
Python之父新发文，将替换现有解析器
花下猫语: Guido van Rossum 是 Python 的创造者,虽然他现在放弃了"终身仁慈独裁者"的职位,但却成为了指导委员会的五位成员之一,其一举一动依然备受瞩目.近日 ...
Python爬虫零基础入门（系列）
一.前言上一篇演示了如何使用requests模块向网站发送http请求,获取到网页的HTML数据.这篇来演示如何使用BeautifulSoup模块来从HTML文本中提取我们想要的数据. update ...

随机推荐

kali,ubuntu, debain DNS 配置
kali 是基于 debain 的一个 Linux 发行版 DNS 的配置是在文件 /etc/resolv.conf 下. 但是,我们会发现 /etc/resolv.conf 每次重启都会失效, ...
如何获取app中的toast
前言 Toast是什么呢?在这个手机飞速发展的时代,app的种类也越来越多,那们在日常生活使用中,经常会发现,当你在某个app的输入框输入非法字符或者非法执行某个流程时,经常看到系统会给你弹出一个黑色 ...
深入理解struts的运行机制
扫码关注公众号,不定期更新干活在此申明本博文并非原创,原文:http://blog.csdn.net/lenotang/article/details/3336623,本文章是在此文章基础上进行优化 ...
【POJ - 2387】Til the Cows Come Home（最短路径 Dijkstra算法）
Til the Cows Come Home 大奶牛很热爱加班,他和朋友在凌晨一点吃完海底捞后又一个人回公司加班,为了多加班他希望可以找最短的距离回到公司.深圳市里有N个(2 <= N < ...
Java源码之阻塞队列
⑴背景阻塞队列常用于生产者消费者场景,生产者是向队列里添加元素的线程,消费者是向队列里取出元素的线程.阻塞队列的角色是供生产者存放元素,消费者取出元素的容器. ⑵阻塞队列阻塞队列是一个支持两个附加 ...
Flutter学习笔记（18）--Drawer抽屉组件
如需转载,请注明出处:Flutter学习笔记(18)--Drawer抽屉组件 Drawer(抽屉组件)可以实现类似抽屉拉出和推入的效果,可以从侧边栏拉出导航面板.通常Drawer是和ListView组 ...
webpack4 前端框架基础配置实例-解决css分离图片路径问题
1.安装nodejs 2. 需要全局和项目安装webpack和webpack-dev-server npm install webpack webpack-dev-server -g npm inst ...
springboot入门案例----eclipse编写第一个springboot程序
对于刚入门的springboot的新手来说,学的过程中碰到的一些问题记录下. 首先,配置好Maven环境及本地仓库之后进入Maven安装目录conf文件夹下的settings.xml配置文件,用No ...
聊聊我在这家公司设计的SSO
最近小明遇到一个需求:需要将几个独立的系统(子系统)汇总到一个集中的系统(父系统)当中,当用户在父系统登录过后,再点击这几个子系统,就可以免登录跳转到任意一个系统.当时一听,duang~duang~就 ...
Linux源码包安装apache(httpd)
我这里实验是用的CentOS7 #事先先检查一下自己的linux是否安装apache [root@localhost ~]#rpm –q httpd #如果已安装则先卸载原来的apache [root ...

Python 之父的解析器系列之六：给 PEG 语法添加动作

Python 之父的解析器系列之六：给 PEG 语法添加动作的更多相关文章

随机推荐

热门专题