版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明

http://www.blogbus.com/dreamhead-logs/10756716.html

探索Antlr》是两年前写的一篇文章,如今,Antlr 3.0已经发布了,有了一些变化,为了反映这些变化,我决定重写这篇《探索Antlr》。

探索Antlr(Antlr 3.0更新版)

简介

Antlr(ANother Tool for Language Recognition)是一个工具,它为我们构造自己的识别器(recognizers)、编译器(compiler)和转换器(translators)提供了一个基础。通过定义自己的语言规则,Antlr可以为我们生成相应的语言解析器,这样便可以省却了自己全手工打造的劳苦。



目标

如同程序设计语言入门大多采用“Hello World”一样,编译领域的入门往往选择计算器。而这里迈出的第一步更为简单:一个只能计算两个数相加的计算器,也就是说,它可以计算“1+1”。



基础知识

先来考虑一下如何下手,如果你曾经接受过编译原理的教育,权当忆苦思甜了。这个计算器工作的前提是有一个需要计算的东西,不管我们是以文件的形式提供,还是手工输入,至少我们可以让我们的计算器知道“1+1”的存在。



有了输入之后,我们要先检查输入的正确性,只有对正确的输入进行计算才是有意义的。如同写文章有形式和内容之分,这里的检查也要细分一下,率先完成的检查当然是面子功夫——形式上的东西,看看是否有错别字的存在,我们要做的是数值相加,结果人家给出了一个字母,这肯定不是我们希望得到的,所以我们有权力拒绝这个不合法的东西。对于程序员来说,如果在自己的程序里写了一个语言不接受的标识符,比如在Java里用“123r”做标识符,那编译器肯定会罢工,拒绝让程序通过编译的。在编译原理里面,这个过程叫做词法分析。在我们的计算器中,我们只接受整数和加号,其它的一概不理。这里我们说的是“整数”,而非
“1”、“2”……,对我们来说,它们代表着同一类的东西,编译原理教导我们把这这种东西叫做token,那些数字对我们来说,都是一样的token,不同的仅仅是它们的值而已。



形式说得过去并不代表内容就可以接受,南北朝时期许多骈体文让我们看到了隐藏在华丽的外表下的空虚灵魂。你可以说 “我吃饭”,如果说“饭吃我”,除非是在练习反正话的场合,否则没有人会认为它是有意义的,因为显然这不是我们习惯的主谓宾结构。只有在闯过了词法分析的关口,才能到达这里,在编译原理里面,我们把这个阶段叫做语法分析。如果说词法分析阶段的输入是字符流的话,那么语法分析阶段的输入就是token流——词法分析的输出。我们这里接受的合法语法是“整数 加号 整数”。



编写语法文件

好了,制订好自己的语言规则之后,我们需要以Antlr的语言把它描述出来。下面便是以Antlr的语言描述的语法:

grammar Calculator; 

 

expr:   INT PLUS INT; 

 

PLUS  : '+' ; 

INT   : ('0'..'9')+ ; 



Antlr的语法文件通常会保存在一个“.g”的文件中,我们的语法文件叫做“Caculator.g”。 

 

我们来看看这里的定义: 

expr:   INT PLUS INT; 

 

这条语句定义了expr,它等价于“:”右边的部分,也就是说, 

* 一个INT,后面跟着一个PLUS,后面再接着一个INT。 

 

至于INT和PLUS,它来自后面的定义: 

PLUS  : '+' ; 

INT   : ('0'..'9')+ ; 

 

* PLUS定义的token,就是一个单一的“+”

* INT定义的token,由从'0'到'9'之间任意的数字组成,后面的加号表示它是可以重复一次到多次 

 

如果你曾经与Antlr 2.x有过一面之缘,你会发现,这个语法文件与Antlr 2.x的语法文件有着些许不同。首先,我们没有区分词法分析和语法分析,由上面的代码可以看出,二者在形式上是一致的,不同的是,对于词法分析的输入是字符,而语法分析的输入是词法分析的结果,也就是token。Antlr 2.x必须显式的区分这二者,而在Antlr 3.0之后,Antlr会替你料理这一切。再有,这里的语法文件名必须与grammar定义的名字保持一致,对于Java程序员,这是一个顺其自然的选择。 



编译语法文件

如同不编译的程序是无法发挥其威力一样,单单语法文件对我们来说,并没有很大的价值。我们的工作就是使用Antlr提供工具对我们的语法文件进行编译,不同于日常的编译器输出可执行文件,这里的输出是程序语言的源文件。Antlr缺省目标语言是Java语言,它也可以支持C,C#和Python语言,其他的语言尚在开发之中,从3.0发布包结构来看,Ruby的支持很快就会加进来。

 

将Antlr提供的JAR文件加入到classpath中,其中包括Antlr 2.7.7,Antlr 3.0与其runtime,stringtemplate。你没看错,除了3.0,这里还包含着2.7.7。原因很简单,Antlr 3.0是基于之前版本开发的。 

 

然后把语法文件的名称作为参数传给语法编译器:

java org.antlr.Tool Caculator.g



在确保命令正确执行,且语法文件编写正确的情况下,Antlr为我们生成了几个文件: 

* CalculatorLexer.java

* CalculatorParser.java 

* Calculator__.g 

* Calculator.tokens 



正如前面说过的,Antlr替我们料理好了词法分析和语法分析,其中, CalculatorLexer.java就是我们的词法分析器,而CalculatorParser.java中包含了语法分析器,它们是我们这里关注的主要对象。至于另外两个文件,Calculator__.g是一个自动生成的lexer语法文件,而Calculator.tokens则是列出了我们定义的token,我们并不会在程序中和它们直接打交道,所以,让我们暂时忽略它们的存在。 



运行程序

生成代码之后,就是如何使用这些生成的代码。下面就是我们的主程序,它负责将词法分析部分(Lexer)和语法分析部分(Parser)驱动起来:

public class Main { 

    public static void main(String[] args) throws Exception { 

        ANTLRInputStream input = new ANTLRInputStream(System.in); 

        CalculatorLexer lexer = new CalculatorLexer(input); 

        CommonTokenStream tokens = new CommonTokenStream(lexer); 

        CalculatorParser parser = new CalculatorParser(tokens); 

 

        try { 

            parser.expr(); 

        } catch (RecognitionException e) { 

            System.err.println(e); 

        } 

    }

}

从这段代码中可以清晰的看出,Lexer的输入是一个字符流,而Parser则需要Lexer的协助来完成工作,用Lexer构造出的Token流作为其输入。一切就绪,我们让它跑起来,尝试输入一些内容,看它是否能够通过验证。事实证明,我们的程序可以轻松识别“1+1”,而对于不合法的东西,它会产生一些抱怨。



计算结果

还记得我们的目标吗?我们的目标是计算出“1+1”的结果,而现在这个程序刚刚能够识别出“1+1”,我们还要继续前进。



熟悉XML解析的朋友对于SAX和DOM一定不陌生,二者之间差别在于SAX属于边解析边处理,而DOM则是把所有的内容解析全部解析完(在内存中形成一棵树)之后,再统一处理。Antlr也有与之类似的两种处理方式,SAX的朋友是在Parser中加入处理动作(Action)处理将随着解析的过程进行,而DOM的伙伴则是解析形成一棵抽象语法树(Abstract Syntax Tree,简称AST),再对树进行处理。



加入Action

先来看看SAX的朋友。因为处理动作是加在expr上,其它部分保持不变。下面是修改过的expr: 

expr returns [int value=0] 

        : a = INT PLUS b = INT 

          { 

              int aValue = Integer.parseInt($a.text); 

              int bValue = Integer.parseInt($b.text); 

              value = aValue + bValue; 

          } 

        ; 





看到常用的字符串转整数的方法,熟悉Java的朋友想必已经露出了会心的微笑。没错,这里定义Action的方法采用就是Java语言,因为我们生成的目标是Java,如果你期待另辟蹊径,那这里的代码就要用你的目标语言来编写。



仔细看一下不难发现,action完全是在原有的规则基础上改造的来。首先用returns定义了这个Action的返回值,它将返回value这个变量的值,其类型是int,我们还顺便定义这个变量的初始值——“0”。接下来,我们用a、b拿住了两个token的值,我们前面说过,在检查的过程中,我们并不关心每个token具体的内容,只要token的类型满足需要即可,但在action中,我们要计算结果,那必须使用token具体的内容,所以,我们用变量拿住了token。这里我们用$a.text获取这个token的具体值。剩下的动作就很简单了,把文本转换为数字,进行加法运算。 

 

再给旧版本一些忆苦思甜的时间,Antlr 2.x写法有一些细微差别。首先,Antlr 2.x用“a : INT”将一个Token赋给一个变量,而这里用的是“a = INT”。再有,我们用$a.text获取token的值,而在Antlr 2.x中,我们会用a.getText(),当然,在Antlr 3.0中,我们也可以这么写,不过,a.getText()这种写法显然太过于Java。 

 

是不是对我们的计算器有些迫不及待了,那就挥动工具生成全新的Parser。不过,在新的体验之前,我们还要稍微修改一下主程序,以体现我们的劳动成果。 

public class Main { 

    public static void main(String[] args) throws Exception { 

        ANTLRInputStream input = new ANTLRInputStream(System.in); 

        CalculatorLexer lexer = new CalculatorLexer(input); 

        CommonTokenStream tokens = new CommonTokenStream(lexer); 

        CalculatorParser parser = new CalculatorParser(tokens); 

 

        try { 

            System.out.println(parser.expr()); 

        } catch (RecognitionException e) { 

            System.err.println(e); 

        } 

    }

}



好了,让这个计算器来为我们求证“1+1”吧!



AST

SAX的朋友表演完了,下面就是DOM的伙伴登场了。 



建立AST的方式很简单,只要我们加上一个AST的选项即可,不过,同DOM的处理方式一样,前面的解析只是为了后面的处理做准备,所以,这里我们要修改一下之前编写的语法文件,下面就是我们的新语法文件:

grammar Calculator; 

 

options { 

    output=AST; 

    ASTLabelType=CommonTree; 



 

expr : INT PLUS^ INT; 

 

PLUS  : '+' ; 

INT   : ('0'..'9')+ ;



稍微有些不同的地方是,我们加上了两个选项,告诉Antlr,我们要输出的是一个普通的AST。再有,在PLUS上面的“^”,这个符号用来告诉Antlr创建一个节点,以此作为当前树的根节点。



你也许会有些疑问,怎么没看到计算的加法的地方?正如前面所说,这里只描述了语法结构,这是为了后面的处理在做准备,那么后面如何处理呢?别急,大戏要压轴。下面登场的是Antlr整个故事最后一个大角,TreeParser: 

tree grammar CalculatorTreeParser; 

 

options { 

  tokenVocab=Calculator; 

  ASTLabelType=CommonTree; 



 

expr returns [int value] 

    : ^(PLUS a=INT b=INT)  

      { 

          int aValue = Integer.parseInt($a.text); 

          int bValue = Integer.parseInt($b.text); 

          value = aValue + bValue; 

      } 

    ; 

 

Antlr 可以接受三种类型语法规范——Lexer、Parser和Tree-Parser。如果说Lexer处理的是字符流、Parser处理的是Token流,那么TreeParser处理的则是AST。前面Action的处理方式中,我们看到,规则同处理放到了一起,显得有些混乱,而采用了AST的处理方式,规则同处理就完全分离了:在Parser中定义规则,在TreeParser中定义处理,如果我们需要对同样的语法进行另外的处理,我们只要重新 TreeParser,而不必在规则与Action混合的世界中苦苦挣扎。



有了前面Action的基础,再来看TreeParser也就简单许多,需要说明的就是:

^(PLUS a=INT b=INT)

除去变量的说明,简化一下这段代码

^(PLUS INT INT)

第一个符号PLUS对应了表示着根节点,两个INT则分别代表了两棵子树,这样刚好与前面生成的语法树对应上。



再来看看重新打造的主程序: 

public class Main { 

    public static void main(String[] args) throws Exception { 

        ANTLRInputStream input = new ANTLRInputStream(System.in); 

        CalculatorLexer lexer = new CalculatorLexer(input); 

        CommonTokenStream tokens = new CommonTokenStream(lexer); 

        CalculatorParser parser = new CalculatorParser(tokens); 

 

        try { 

            CommonTree t = (CommonTree)parser.expr().getTree(); 

            CommonTreeNodeStream nodes = new CommonTreeNodeStream(t); 

            CalculatorTreeParser walker = new CalculatorTreeParser(nodes); 

            System.out.println(walker.expr()); 

        } catch (RecognitionException e) { 

            System.err.println(e); 

        } 

    }





结语

体验过最简单的Antlr程序,我们就有了让它更为丰富的基础,接下来便是自己动手的时间了。

探索Antlr(Antlr 3.0更新版)的更多相关文章

  1. 软件测试面试-必掌握的 Linux常用命令大全--2.0更新版!

  2. 微软开放技术发布针对 Mac 和 Linux 的更新版 Azure Node.JS SDK 和命令行工具

    发布于 2013-12-04 作者 Eduard Koller 这次为我们使用Linux 的朋友带来了更多关于部署云上虚拟机的消息.今天,微软开放技术有限公司 (MS Open Tech),想与大家分 ...

  3. 最简单的基于FFmpeg的视频编码器-更新版(YUV编码为HEVC(H.265))

    ===================================================== 最简单的基于FFmpeg的视频编码器文章列表: 最简单的基于FFMPEG的视频编码器(YUV ...

  4. Elasticsearch .net client NEST使用说明 2.x -更新版

    Elasticsearch .net client NEST使用说明 目录: Elasticsearch .net client NEST 5.x 使用总结 elasticsearch_.net_cl ...

  5. 胡小兔的NOIP2017游记【出成绩后更新版】

    胡小兔的NOIP2017游记[出成绩后更新版] 2017.11.22 Update 前几天成绩出来啦,看这篇博客访问量还挺多的,下面就分享一下结果吧: 我的Day1T2和Day2T1两道最水的题都跪了 ...

  6. python 之并发编程更新版进程池与进程池比较与回调函数

    一.更新版进程池与进程池比较 from concurrent.futures import ProcessPoolExecutor, ThreadPoolExecutor import os, tim ...

  7. Windows 7 Ultimate(旗舰版)SP1 32/64位官方原版下载(2011年5月12日更新版)

    MSDN于2011年5月12日,最新发布简体中文Windows 7 Ultimate 旗舰版 SP1 DVD镜像安装包,分32位和64位两个版本.最新发行代号分别是:677486(32位),67740 ...

  8. (转载)Windows 7 Ultimate(旗舰版)SP1 32/64位官方原版下载(2011年5月12日更新版)

    MSDN于2011年5月12日,最新发布简体中文Windows 7 Ultimate 旗舰版 SP1 DVD镜像安装包,分32位和64位两个版本.最新发行代号分别是:677486(32位),67740 ...

  9. Win 10更新版1709有哪些新功能值得关注!

    windows 10秋季创意者更新版1709发布已经有段时间了,也有很多用户选择升级这次更新的系统.那么,这次Win 10 更新版1709有哪些新功能值得关注呢?下面,一起随主机吧来看一看吧! 1. ...

随机推荐

  1. LCD接口和RGB介绍

    1. 介绍 Video的显示离不开LCD, 所以这里简单介绍一下LCD的接口和RGB LCD的全称是Liquid Crystal Display 的简称, 即液晶显示器LCD目前已经取代CRT, 成为 ...

  2. python中str常用操作

    1. 字符串的操作 字符串的连接操作 符号: + 格式:str1 + str2 例如:str1 = 'I Love' str2 = 'You!' print(str1 + str2) >> ...

  3. glusterfs 4.0.1 api 分析笔记1

    一般来说,我们写个客户端程序大概的样子是这样的: /* glfs_example.c */ // gcc -o glfs_example glfs_example.c -L /usr/lib64/ - ...

  4. SQL之LIMIT ,OFFSET

    SELECT prod_name FROM Products LIMIT OFFSET ; LIMIT 4 OFFSET 3指示MySQL等DBMS返回从第3行(从0行计数)起的4行数据.第一个数字是 ...

  5. 自定义alert窗口样式

    <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

  6. bootmgr is missing 开机无法进系统怎么办

    认识 bootmgr: 启动管理器.Bootmgr是Boot Manager的缩写,是在Windows Vista和Windows 7中使用的新的启动管理器,以代替Windows xp中的启动管理器- ...

  7. 解决Mysql数据库拒绝远程连接和忘记密码的问题

    解决数据库忘记密码的问题 ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) 编辑m ...

  8. electron应用以管理员权限启动

    最近在用electron开发PC桌面应用,其中有个需求就是整个应用以管理员权限启动.很头痛,各种google,baidu. 最后终于解决了,可以分为三个步骤,做个总结分享. 一.如果没有manifes ...

  9. 深入理解null的原理

    --null的原理 --oracle一直将null和空字符串''<长度为0>同等对待<如'' is null是true,''=null为false,如果声明a varchar2:=' ...

  10. Pickle模块数据对象持久化操作

    Pickle模块的作用是持久化(序列化)的储存数据.因此我先解释下:什么是序列化与反序列化.什么是对象序列化和对象反序列化.通俗地讲,它们的定义如下:序列化: 把一个对象保存到一个文件或数据库字段中去 ...