平台公式及翻译后的SparkSQL

平台公式的样子如下所示：

if (XX1_m001[D003]="邢おb7肮α䵵薇" || XX1_m001[H003]<"2") && XX1_m001[D005]!="wed" thenXX1_m001[H022,COUNT]

这里面字段值"邢おb7肮α䵵薇"为这个的目的是为了测试各种字符集是否都能匹配满足。
那么对应的SparkSQL应该是这个样子的,由于是使用的Hive on Spark，因而长得跟Oracle的SQL语句差不多：

SELECT COUNT(H022) FROM XX1_m001 WHERE (XX1_m001.D003='邢おb7肮α䵵薇' OR XX1_m001.H003<'2') ANDXX1_m001.D005<'wed'

总体而言比较简单，因为我只是想在这里做一个Demo。

平台公式的EBNF范式及词法解析设计

expr-condition ::= tableName "[" valueName "]" comparator Condition

expr-front ::= expr-condition (("&&"|"||")expr-front)*

expr-back ::= tableName "[" valueName "," operator "]"

expr ::= "if" expr-front "then" expr-back

其中词法定义如下

operator => [SUM,COUNT]

tableName,valueName =>ident  #ident为关键字

comparator => ["=",">=","<=",">","<","!="]

Condition => stringLit  #stringLit为字符串常量

使用Scala基于词法单元的解析器解析上述EBNF文法

Scala基于词法单元的解析器是需要继承StandardTokenParsers这个类的，该类提供了很方便的解析函数，以及词法集合。
我们可以通过使用lexical.delimiters列表来存放在文法翻译器执行过程中遇到的分隔符，使用lexical.reserved列表来存放执行过程中的关键字。
比如，我们参照平台公式，看到"=",">=","<=",">","<","!=","&&","||","[","]",",","(",")"这些都是分隔符，其实我们也可以把"=",">=","<=",">","<","!=","&&","||"当做是关键字，但是我习惯上将带有英文字母的单词作为关键字处理。因而，这里的关键字集合便是"if","then","SUM","COUNT"这些。
表现在代码中是酱紫的：

lexical.delimiters += ("=",">=","<=",">","<","!=","&&","||","[","]",",","(",")")

lexical.reserved   += ("if","then","SUM","COUNT")

是不是so easy~。
我们再来看一下如何使用基于词法单元的解析器解析前面我们设计的EBNF文法呢。我在这里先上代码：

class ExprParsre extends StandardTokenParsers{

  lexical.delimiters += ("=",">=","<=",">","<","!=","&&","||","[","]",",","(",")")

  lexical.reserved   += ("if","then","SUM","COUNT")

  def expr: Parser[String] = "if" ~ expr_front ~ "then" ~ expr_back ^^{

    case "if" ~ exp1 ~ "then" ~ exp2 => exp2 + " WHERE " +exp1

  }

  def expr_priority: Parser[String] = opt("(") ~ expr_condition ~ opt(")") ^^{

    case Some("(") ~ conditions ~ Some(")") => "(" + conditions +")"

    case Some("(") ~ conditions ~ None => "(" + conditions

    case None ~ conditions ~ Some(")") => conditions +")"

    case None ~ conditions ~ None => conditions

  }

  def expr_condition: Parser[String] = ident ~ "[" ~ ident ~ "]" ~ ("="|">="|"<="|">"|"<"|"!=") ~ stringLit ^^{

    case ident1~"["~ident2~"]"~"="~stringList => ident1 + "." + ident2 +"='" + stringList +"'"

    case ident1~"["~ident2~"]"~">="~stringList => ident1 + "." + ident2 +">='" + stringList +"'"

    case ident1~"["~ident2~"]"~"<="~stringList => ident1 + "." + ident2 +"<='" + stringList +"'"

    case ident1~"["~ident2~"]"~">"~stringList => ident1 + "." + ident2 +">'" + stringList +"'"

    case ident1~"["~ident2~"]"~"<"~stringList => ident1 + "." + ident2 +"<'" + stringList +"'"

    case ident1~"["~ident2~"]"~"!="~stringList => ident1 + "." + ident2 +"!='" + stringList +"'"

  }

  def comparator: Parser[String] = ("&&"|"||") ^^{

    case "&&" => " AND "

    case "||" => " OR "

  }

  def expr_front: Parser[String] = expr_priority ~ rep(comparator ~ expr_priority) ^^{

    case exp1 ~ exp2  => exp1 +  exp2.map(x =>{x._1 + " " + x._2}).mkString(" ")

  }

  def expr_back: Parser[String] = ident ~ "[" ~ ident ~ "," ~ ("SUM"|"COUNT") ~ "]" ^^ {

    case ident1~"["~ident2~","~"COUNT"~"]" => "SELECT COUNT("+ ident2.toString() +") FROM " + ident1.toString()

    case ident1~"["~ident2~","~"SUM"~"]" => "SELECT SUM("+ ident2.toString() +") FROM " + ident1.toString()

  }

  def parserAll[T]( p : Parser[T], input :String) = {

    phrase(p)( new lexical.Scanner(input))

  }

}

另参考:

Scala词法文法解析器　（二）分析C++类的声明

Scala词法文法解析器　（一）解析SparkSQL的BNF文法的更多相关文章

CDATA（不应由XML解析器进行解析的文本数据）、CDATA的使用场景
1.1. CDATA: CDATA(Unparsed Character Data)指的是不应由XML解析器进行解析的文本数据. 因为XML解析器会将“<”(新元素的开始)和“&”(字符 ...
dom4j解析器sax解析xml文件
1.使用dom4j解析器解析xml ***解析器dom4j是由dom4j组织提供的,针对xml进行解析.dom4j不是Javase的一部分,使用时需要导入dom4j的jar包(官网下载) 在eclip ...
php 解析json失败,解析为空,json在线解析器可以解析,但是json_decode()解析失败(原)
$str2='{"code":200,"datas":{"id":1,"coupon_id":"123&quo ...
Scala正则和抽取器：解析方法参数
在<正则表达式基础知识>中概括了正则表达式的基础知识, 本文讲解如何使用正则表达式解析方法参数,从而可以根据 DAO 自动生成 Service. 在做 Java 项目时,常常要根据 DAO ...
Scala词法文法解析器　（二）分析C++类的声明
最近一直在学习Scala语言,偶然发现其Parser模块功能强大,乃为BNF而设计.啥是BNF,读大学的时候在课本上见过,那时候只觉得这个东西太深奥.没想到所有的计算机语言都是基于BNF而定义的一套规 ...
boost之词法解析器spirit
摘要:解析器就是编译原理中的语言的词法分析器,可以按照文法规则提取字符或者单词.功能:接受扫描器的输入,并根据语法规则对输入流进行匹配,匹配成功后执行语义动作,进行输入数据的处理. C++ 程序员需要 ...
自己动手实现一个简单的JSON解析器
1. 背景 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式.相对于另一种数据交换格式 XML,JSON 有着诸多优点.比如易读性更好,占用空间更少等.在 ...
利用 druid 解析器解析SQL
最近参与一个开源项目,一个功能的实现,用到了 druid 解析器来解析SQL,记录下如果使用 druid 来解析SQL,实现对SQL的拦截改写. 1. 对 insert 语句进行解析: private ...
XML 解析器
所有现代浏览器都内建了供读取和操作 XML 的 XML 解析器.解析器把 XML 转换为 XML DOM 对象 - 可通过 JavaScript 操作的对象. 解析 XML 文档为DOM对象方法一: ...

随机推荐

leetcode求峰值，js实现
原题: 最开始是照着提示的思路进行,中规中矩,用时64ms /** * @param {number[]} nums * @return {number} */var findPeakElement ...
.Net Core部署Linux系统（CentOS7.6）
.net core版本:2.2 Linux:CentOS 7.6 所需工具: Xshell 6 + Xftp 6 第一步:在Startup类中加入这两行代码然后本地发布项目: 第二步,安装.Net ...
Go语言(golang)新发布的1.13中的Error Wrapping深度分析
Go 1.13发布的功能还有一个值得深入研究的,就是对Error的增强,也是今天我们要分析的 Error Wrapping. 背景做Go语言开发的,肯定经常用error,但是我们也知道error非常 ...
Java程序员需要掌握的技能
转自:https://www.cnblogs.com/harry335/p/5924505.html
解决：The web application [] registered the JDBC driver [] but failed to unregister it when the web application was stopped. To prevent a memory leak, the JDBC Driver has been forcibly unregistered.
问题描述在将Spring Boot程序打包生成的war包部署到Tomcat后,启动Tomcat时总是报错,但是直接在IDEA中启动Application或者用"java -jar" ...
联盟链IBM的超级账本Hyperledger Fabric框架，JP Morgan’s Quorum
联盟链IBM的超级账本Hyperledger Fabric框架,JP Morgan’s Quorum JP Morgan’s Quorum https://www.coindesk.com/jpmor ...
Qt Examples - Boxes (在Qt场景视图中结合OpenGL渲染)
QT自带例程Boxes使用QT Graphics View框架实现了2D图形和3D图形的混合渲染,综合性比较强,整合知识较多,值得学习. 可以使用鼠标通过以下方式控制演示中的元素: 按住鼠标左键的同时 ...
02篇ELK日志系统——升级版集群之kibana和logstash的搭建整合
[ 前言:01篇LK日志系统已经把es集群搭建好了,接下来02篇搭建kibana和logstash,并整合完成整个ELK日志系统的初步搭建. ] 1.安装kibana 3台服务器: 192.168.2 ...
Cron Expressions——Cron 表达式（QuartZ调度时间配置）
如果你需要像日历那样按日程来触发任务,而不是像SimpleTrigger 那样每隔特定的间隔时间触发,CronTriggers通常比SimpleTrigger更有用. 使用CronTrigger,你可 ...
Python基础（一）--变量、注释、文件头
一.变量 1.什么是变量变量是变化的量,用来保存程序执行的状态以及状态的变化 2.变量定义规范 #1. 变量名只能是:字母.数字或下划线的任意组合 #2. 变量名的第一个字符不能是数字 #3. 关键 ...

Scala词法文法解析器 （一）解析SparkSQL的BNF文法

平台公式及翻译后的SparkSQL

平台公式的EBNF范式及词法解析设计

使用Scala基于词法单元的解析器解析上述EBNF文法

Scala词法文法解析器 （二）分析C++类的声明

Scala词法文法解析器 （一）解析SparkSQL的BNF文法的更多相关文章

随机推荐

热门专题

Scala词法文法解析器　（一）解析SparkSQL的BNF文法

Scala词法文法解析器　（二）分析C++类的声明

Scala词法文法解析器　（一）解析SparkSQL的BNF文法的更多相关文章