ANTLR(pronounced Antler) 是一个语言识别工具,Another Tool forLanguage Recognition 的缩写。ANTLR由旧金山大学(University of San Francisco)的教授 Terence Parr 开发并维护的,其始于1989年,到了现在过了20多年,一直都是一个很活跃的项目。

ANTLR 一般用于构建  Domain-Specific Languages (DSL)。用户编写好特定语言的语法文件后,ANTLR 会根据该语法文件生成相应的源代码来识别该语言。ANTLR 3.4 (截至2011-10-15最新的版本) 支持的编程语言(runtime)包括:ActionScript, Csharp2, Delphi, JavaScript, Perl5, Ruby , C, CSharp3,  Java, ObjC,Python。其中 C runtime 由 Jim Idle 维护,C
runtime 也是本文关注的部分。在早期的版本中提供有C++的runtime,但是在最新的版本中只提供 C 语言的 runtime。

很多的开源的软件都使用了ANTLR 作为自己的DSL 解析工具,比如: Hibernate,一个在javaEE 中运用非常广泛的ORM 框架,使用ANTLR解析 HQL –一种类似于SQL 的面向对象的数据库查询语言;Apache Hive,一个建于Hadoop 之上的数据仓库查询语言,使用ANTLR解析HiveQL;TOra,Toolkit for Oracle,一个用 Qt写的Oracle 数据库管理工具,使用ANTLR解析Oracle SQL 和 PL/SQL。还有其他很多的软件也使用了ANTLR,比如Esper,StreamBase,这两个都是用 Java 写的数据流处理引擎。

本文主要基于一个例子简单的讲解如果使用 ANTLR,介绍一些ANTLR的基本概念,本文不包括语言识别的理论知识,和ANTLR的一些高级应用,想了解这些知识应该学习编译理论相关知识,并阅读Terence Parr编写的The Definitive ANTLR Reference 。

ANTLR支持生成词法分析器,语法解析器和树解析器,同时也支持把代码和语法规则混合在一起编写,个人觉得两者混合在一起写对于开发会很方便,可是这样会影响语法的可读性,所以在本文中语法与代码不会混合在一起写。

本文将一步步的从头开始使用C语言构造一个简单的StreamSQL 解析器。该StreamSQL 解析器实现对 CREATE INPUT STREAM,CREATE OUTPUT STREAM,CREATE SCHEMA,CREATE WINDOW,SELECT 等语句的解析。

工具准备

1.首先下载 ANTLR3.4。http://www.antlr.org/download.html  我们要下载的是ANTLR 3.4 distribution (Source for tools, targets, complete binaries)

2. 下载 ANTLRWorks。 ANTLRWorks 是一个可视化的开发工具,为语法的编写和调试提供了很大的方便。

3. 下载 ANTLR v3 plugin for eclipse。这是一个Eclipse的插件,可以在Eclipse 里为ANTLR语法文件提供语法高亮,也可以作为语法的调试工具,不过它的调试功能没有 ANTLRWorks 强大。

语法描述

我们要解析的语言如下表所示。

CREATE INPUT STREAM Packet PacketTuple;

CREATE OUTPUT STREAM Aggregate AggregateTuple;

CREATE SCHEMA PacketTuple (time INT,price DOUBLE );

CREATE SCHEMA AggregateTuple(

time INT,

maxprice DOUBLE ,

currenttime INT);

CREATE WINDOW Dimension1(SIZE 180 ADVANCE 10 ON time);

SELECT max(price) AS maxprice, max(time) AS currenttime

FROM Packet[Dimension1] INTO Aggregate;

用来解析上面语言的ANTLR语法。

grammar StreamSQL;

options {

language=C;

ASTLabelType=pANTLR3_BASE_TREE;

output=AST;

}

tokens {

TOK_CREATE_SCHEMA;

TOK_CREATE_STREAM;

TOK_CREATE_WINDOW;

TOK_SELECT;

TOK_SCHEMA_LIST;

TOK_NAME_TYPE;

TOK_SELEXPR;

TOK_SELITEM;

TOK_SELLIST;

}

statement

: selectStatement EOF

| createStatement EOF

;

selectStatement

: KW_SELECT selectList

KW_FROM instreamName=Identifier LSQUARE windowName=Identifier RSQUARE KW_INTO outstreamName=Identifier

-> ^(KW_SELECT selectList $instreamName $windowName $outstreamName)

;

selectList

: selectColumn (COMMA selectColumn)*

-> ^(TOK_SELLIST selectColumn+)

;

selectColumn

: selectItem

| selectExpression

;

selectItem

: Identifier KW_AS Identifier

-> ^(TOK_SELITEM Identifier Identifier)

;

selectExpression

: functionName=Identifier LPAREN itemName=Identifier RPAREN KW_AS asName=Identifier

-> ^(TOK_SELEXPR $functionName $itemName $asName)

;

createStatement

: KW_CREATE KW_SCHEMA Identifier schemaList

-> ^(TOK_CREATE_SCHEMA Identifier schemaList)

| KW_CREATE streamType KW_STREAM streamName=Identifier schemaName=Identifier

-> ^(TOK_CREATE_STREAM streamType $streamName $schemaName)

| KW_CREATE KW_WINDOW

windowName=Identifier LPAREN KW_SIZE Number KW_ADVANCE Number KW_ON onWhat=Identifier RPAREN

-> ^(TOK_CREATE_WINDOW $windowName Number Number $onWhat)

;

schemaList

: LPAREN columnNameType (COMMA columnNameType)* RPAREN

-> ^(TOK_SCHEMA_LIST columnNameType+)

;

streamType

: (KW_INPUT | KW_OUTPUT)

;

columnNameType

: coluName=Identifier dataType

-> ^(TOK_NAME_TYPE $coluName dataType)

;

dataType

: KW_INT

| KW_DOUBLE

;

// Keywords

KW_FROM : 'FROM';

KW_AS : 'AS';

KW_SELECT : 'SELECT';

KW_ON : 'ON';

KW_CREATE: 'CREATE';

KW_INT: 'INT';

KW_DOUBLE: 'DOUBLE';

KW_INTO: 'INTO';

KW_SCHEMA: 'SCHEMA';

KW_INPUT: 'INPUT';

KW_OUTPUT: 'OUTPUT';

KW_STREAM: 'STREAM';

KW_WINDOW: 'WINDOW';

KW_SIZE: 'SIZE';

KW_ADVANCE: 'ADVANCE';

// Operators

// NOTE: if you add a new function/operator, add it to sysFuncNames so that describe function _FUNC_ will work.

DOT : '.'; // generated as a part of Number rule

COMMA : ',' ;

SEMICOLON : ';' ;

LPAREN : '(' ;

RPAREN : ')' ;

LSQUARE : '[' ;

RSQUARE : ']' ;

MINUS : '-';

PLUS : '+';

// LITERALS

fragment

Letter

: 'a'..'z' | 'A'..'Z'

;

fragment

Digit

: '0'..'9'

;

fragment

Exponent

: 'e' ( PLUS|MINUS )? (Digit)+

;

fragment

Number

: (Digit)+ ( DOT (Digit)* (Exponent)? | Exponent)?

;

Identifier

: (Letter | Digit) (Letter | Digit | '_')*

;

WS  :  (' '|'\r'|'\t'|'\n') {$channel=HIDDEN;}

;

将该语法文件保存,文件名为 StreamSQL.g 文件名必须与语法名相同。

java -cp /opt/java_lib/antlr-3.4-complete.jar org.antlr.Tool   StreamSQL.g

运行上面的命令,ANTLR就会生成相应的词法和语法解析代码。

ls | egrep Lexer\|Parser\|tokens

StreamSQLLexer.c

StreamSQLLexer.h

StreamSQLParser.c

StreamSQLParser.h

StreamSQL.tokens

代码实现

pANTLR3_INPUT_STREAM input;

pSQLLexer lxr;

pANTLR3_COMMON_TOKEN_STREAM tstream;

pSQLParser psr;

const char * inputString = sqlStatement.c_str();

input = antlr3StringStreamNew((uint8_t *) inputString, ANTLR3_ENC_UTF8,

strlen(inputString), (uint8_t *) "test_statement");

lxr = SQLLexerNew(input);

tstream = antlr3CommonTokenStreamSourceNew(ANTLR3_SIZE_HINT,

TOKENSOURCE(lxr));

psr = SQLParserNew(tstream);

SQLParser_statement_return statementAST = psr->statement(psr);

/* get the AST root */

pANTLR3_BASE_TREE root = statementAST.tree;

pANTLR3_BASE_TREE treeNode;

treeNode = (pANTLR3_BASE_TREE) root->getChild(root, 0);

ANTLR3_UINT32 treeType = treeNode->getType(treeNode);

string result;

switch (treeType)

{

case TOK_CREATE_SCHEMA:

result = parseCreateSchema(treeNode);

break;

case TOK_CREATE_STREAM:

result = parseCreateStream(treeNode);

break;

case TOK_CREATE_WINDOW:

result = parseCreateWindow(treeNode);

break;

case TOK_SELECT:

result = parseSelect(treeNode);

break;

default:

WARN << "Unknown tree type... " << treeType;

break;

}

input->close(input);

lxr->free(lxr);

tstream->free(tstream);

psr->free(psr);

ANTLR 的 runtime 会根据输入生成对应的抽象语法树AST,我们只要从根节点遍历该AST 即可以完成该语句的解析。下图为CREATE SCHMEA 的一个抽象语法树:

未完成的章节

1. 出错提示:当遇到无法解析的语句时,应该可以给出提示在那一行那一个字符解析的时候出错了。

2. ANTLR的高级特性:backtracking, memoization, syntactic predicates, LL(*) parsing

 

同类的工具

1. flex/bison  PostgreSQL 用的是这个。

2. JavaCC

3. Yacc  MySQL 用的是这个

4. Lemon 一个小巧的词法语法解析器,SQLite 用的是这个。

参考资料

1. The Definitive ANTLR Reference Building Domain-Specific Languages – Terence Parr

2. http://www.antlr.org/wiki/display/ANTLR3/ANTLR+3+Wiki+Home

3. http://en.wikipedia.org/wiki/ANTLR

ANTLR3 简介及示例的更多相关文章

  1. Android查缺补漏(IPC篇)-- 进程间通讯之Socket简介及示例

    本文作者:CodingBlock 文章链接:http://www.cnblogs.com/codingblock/p/8425736.html 进程间通讯篇系列文章目录: Android查缺补漏(IP ...

  2. IdentityServer4 中文文档 -6- (简介)示例服务器和测试

    IdentityServer4 中文文档 -6- (简介)示例服务器和测试 原文:http://docs.identityserver.io/en/release/intro/test.html 目 ...

  3. Ruby简介,附带示例程序

    Ruby语言是日本人松本行弘于1993年器开始着手研发,经历2年时间,发布了Ruby语言的第一个版本:0.95版.     Ruby是一种非常简介的解释性语言,一种纯粹的面向对象编程语言,甚至比Jav ...

  4. IText简介及示例

    一.iText简介 iText是著名的开放源码的站点sourceforge一个项目,是用于生成PDF文档的一个java类库.通过iText不仅可以生成PDF或rtf的文档,而且可以将XML.Html文 ...

  5. Unity 3(一):简介与示例

    本文关注以下方面(环境为VS2012..Net Framework 4.5以及Unity 3): Ioc/DI简介: Unity简单示例 一.Ioc/DI简介 IoC 即 Inversion of C ...

  6. JavaScript简介及示例

    JavaScript简介及使用 一.简介 JavaScript一种直译式脚本语言,是一种动态类型.弱类型.基于原型的语言,内置支持类型.它的解释器被称为JavaScript引擎,为浏览器的一部分,广泛 ...

  7. Lambda表达式 简介 语法 示例

    Lambda 表达式也称为闭包,是匿名类的简短形式.Lambda 表达式简化了[单一抽象方法声明接口]的使用,因此 lambda 表达式也称为功能接口. 在 Java SE 7 中,单一方法接口可使用 ...

  8. Spring IO Platform简介及示例

    什么是Spring IO Platform Spring IO Platform,简单的可以认为是一个依赖维护平台,该平台将相关依赖汇聚到一起,针对每个依赖,都提供了一个版本号: 这些版本对应的依赖都 ...

  9. Lambda表达式 简介 语法 示例 匿名内部类

    在AS中使用 Lambda 表达式 Demo地址:https://github.com/baiqiantao/MultiTypeTest.git Gradle(Project级别)中添加classpa ...

  10. 003-unity3d 物理引擎简介以及示例

    一.概述 物理引擎就是模拟真实世界中物体碰撞.跌落等反应的引擎,通过ballence.愤怒的小鸟等理解.Unity3D的物理引擎使用的是Nvidia的PhysX. 物理引擎是一个计算机程序模拟牛顿力学 ...

随机推荐

  1. 记 Android 部分布局忽然无法显示

    总结:这是一个一开始方向错误的问题 某次,APK在测试手机上正常使用,故换了个荣耀X20的设备,想着兼容性应该没有问题, 结果,忽然发现A页面,一个底部布局无法显示,其它页面这个布局可以显示(使用的i ...

  2. Go语言中的交互式CLI开发:survey库简介

    在构建命令行工具时,良好的用户交互体验至关重要.尤其是在需要与用户进行复杂输入的场景下,传统的命令行参数和标志可能显得笨拙.github.com/AlecAivazis/survey/v2 是一个为 ...

  3. TypeScript – Get Started

    前言 我学 TypeScript 的时候是 Angular 2.0 beta 的年代... 现在 Angular 都快 14 了. 但由于已经有 1 年半没有写 Angular 和 TypeScrip ...

  4. Google Analytics & Ads 学习笔记 2 (GA4 版本)

    首先去 control panel admin 升级 GA4 https://support.google.com/analytics/answer/9744165?hl=en 它其实是开多一个 pr ...

  5. 以后基于 Topass 的博客加密方法通告

    Topass 加密方法 以后会将部分未公开内容公开,请你通过此加密途径来破解密码 特别地,为了保证博客的浏览体验,我不会通过这种方法加密任何一种应该公开的文章 话说你们不妨猜猜用的什么算法

  6. AD域下,没有登录服务器处理登录请求

    原因: IP地址配置有问题 或者 DNS : 解决办法: 重新设置 IP地址 和 DNS : 此案例中, 切换到 test 账户(域管理员)后发现 , 未配置 IP地址 和 DNS :

  7. nginx缓存加速笔记

    目录 1 服务端缓存原理 1.1 定义一个缓存目录 1.2 启用缓存 1.3 Nginx 作反代 1.4 缓存一时爽,全家火葬场. 1.5 ngx_cache_purge 1 服务端缓存原理 主要是缓 ...

  8. 【赵渝强老师】Oracle RAC集群的概念

    一.什么是Oracle RAC(Real Application Cluster)? Oracle RAC 是一个具有共享缓存架构的集群数据库,它克服了传统的无共享方法和共享磁盘方法的限制,为您的所有 ...

  9. 日干算命api接口_json数据_性格/爱情/事业/财运/健康运势免费接口

    ​ 该API接口基于传统的八字学原理,通过用户提供的日干信息,为用户提供性格.爱情.事业.财运和健康等多方面的运势分析和建议.以下是该接口的详细介绍: ‌一.功能概述‌ ‌性格分析‌:根据用户的日干信 ...

  10. [快速阅读八] HDR->LDR:Matlab中tonemapfarbman函数的解析和自我实现。

    最近受朋友的委托,想自己实现Matlab里的一个HDR转LDR的函数,函数名是tonemapfarbman,乘着十一假期,稍微浏览下这个函数,并做了一点C++的实现和优化. 为了看到这个函数的效果,需 ...