前言

在实时计算中，通常是从队列中收集原始数据，这种原始数据在内存中通常是一个java bean，把数据收集过来以后，通常会把数据落地到数据库，供后面的ETL使用。举个一个简单的例子，对一个游戏来说，为了统计某个游戏，某个服务器的登陆注册

等事件，原始数据对应的java bean可能会是这样：

public class Event {

    private String userName;

    private String game;

    private String server;

    private String event;

}

Event

当数据量过大的时候，通常没有办法实时的去做一个些统计操作，例如统计按照游戏和服务器分组统计出登陆的人次是多少，对应的SQL大致如下：

select count(user_name) from event group by name,sever where event = 'login'

当有一个sql执行引擎，可以在内存中对于一批收集过来的数据执行sql计算的时候，无疑能够实时的计算出结果，另外由于sql是实时输入的，程序也可以比较灵活。

例如，收集过来的一批数据，可以换成成一个List<Map<String,Object>>形式的数据结构，通过sql执行引擎，执行某个特定的sql，得到结果(也是一个List<Map<String,Object>>形式的数据结构)，demo如下

----------------

[username:user1,game:lol,server:s1,event:login]

[username:user2,game:dota2,server:s2,event:register]

[username:user3,game:lol,server:s2,event:login]

[username:user4,game:dota2,server:s3,event:register]

[username:user5,game:lol,server:s10,event:login]

[username:user6,game:dota2,server:s1,event:login]

[username:user7,game:lol,server:s1,event:login]

[username:user8,game:lol,server:s1,event:login]

[username:user9,game:lol,server:s1,event:login]

----------------

 select count(*) as loginNum, game,server from event group by game,server where event='login'

----------------

[loginNum:1,game:lol,server:s2]

[loginNum:4,game:lol,server:s1]

[loginNum:1,game:lol,server:s10]

[loginNum:1,game:dota2,server:s1]

----------------

解析

此sql执行引擎只支持的sql语法中的一个很小的子集，所以我更加偏向称其为sql-like DSL(Domain Specific Language-特定领域语言),关于DSL的论述很多，我推荐两本书，一本是Martin大叔的Domain Specific Language，另外一个本是DSL in

action。之所以选择scala来实现，是因为scala语言中内置了对DSL的支持，可以很方便的实现一个自己的Parser,通过此Parser,可以解析你的DSL脚本(此处就是sql语句)，得到你想要的中间结果，通常我们将中间结果称为AST(Abstract syntax tree)，类似于

select {...} from {...} group by {...} where {...}order by{...} limit {...}形式的sql语句，我将它转化成如下类型的AST。

解析器的入口为

def select: Parser[SelectStmt] = "select" ~> projectionStatements ~ fromStatements ~ opt(groupStatements) ~ opt(whereExpr) ~ opt(orderByExpr) ~ opt(limit) ~ opt(";") ^^ {

    case p ~ f ~ g ~ w ~ o ~ l ~ end => SelectStmt(p, f, w, g, o, l)

  }

其中，fromStatements，groupStatements，whereExpr等有是一个单独的解析器，通过scala中已经提供的parser combinators(解析器组合子)，例如(~>,~,opt()...)等，将单独的解析器组合起来，可以得到更复杂的解析器，类似于lego积木，你编写一个解析

器，parserA, 只能解析某段特殊的文本,这个段文本的模式我们用patternA来表示。通过组合子 rep1sep（“,”,parserA）,你就得到了一个新的解析器，这个解析器能解析的partern = patternA[,patternA][,patternA][,patternA]...

例如sql语句中的group by子句，不考虑having语法的话，大致格式是这样的 group by [tableName.]coulumn1,[tableName.]coulumn1,[tableName.]coulumn1 可见[tableName.]coulumn1这种格式的文本，可以是基本的pattern，于是可以写出一个解析器来解析这种格式的文本：

def selectIdent: Parser[SqlProj] = {

    ident ~ opt("." ~> ident) ^^ {

      case table ~ Some(b: String) => FieldIdent(Option(table), b)

      case column ~ None => FieldIdent(None, column)

    }

  }

这个函数中ident值得的标示符，opt()表示的是可以有也可以没有，那么这个解析器解析的文本就可以有如下形式：标示符.标示符|标示符，那么通过rep1sep的组合子就能得到解析group by字句的解析器：

def groupStatements: Parser[SqlGroupBy] = "group" ~> "by" ~> rep1sep(selectIdent, ",") ^^ {

    case keys => SqlGroupBy(keys)

  }

其他部分的sql字句的解析大抵如此，整个项目的代码，在github上。下一篇讲拿到AST之后，怎么执行，得到想要的结果。

用scala实现一个sql执行引擎-(上)的更多相关文章

用scala实现一个sql执行引擎-(下)
执行上一篇讲述了如何通过scala提供的内置DSL支持,实现一个可以解析sql的解析器,这篇讲如何拿到了解析结果-AST以后,如何在数据上进行操作,得到我们想要的结果.之前说到,为什么选择scala ...
自己实现一个SQL解析引擎
自己实现一个SQL解析引擎功能:将用户输入的SQL语句序列转换为一个可运行的操作序列,并返回查询的结果集. SQL的解析引擎包含查询编译与查询优化和查询的执行,主要包含3个步骤: 查询分析: 制定逻 ...
自己动手写SQL执行引擎
自己动手写SQL执行引擎前言在阅读了大量关于数据库的资料后,笔者情不自禁产生了一个造数据库轮子的想法.来验证一下自己对于数据库底层原理的掌握是否牢靠.在笔者的github中给这个database起 ...
spark sql 执行计划生成案例
前言一个SQL从词法解析.语法解析.逻辑执行计划.物理执行计划最终转换为可以执行的RDD,中间经历了很多的步骤和流程.其中词法分析和语法分析均有ANTLR4完成,可以进一步学习ANTLR4的相关知识 ...
给隔壁的妹子讲『一个SQL语句是如何执行的？』
前言 SQL作为Web开发是永远离开不的一个话题,天天写SQL,可是你知道一个SQL是如何执行的吗? select name from user where id = 1; 上面是一个简单的查询语句, ...
Oracle数据库该如何着手优化一个SQL
这是个终极问题,因为优化本身的复杂性实在是难以总结的,很多时候优化的方法并不是用到了什么高深莫测的技术,而只是一个思想意识层面的差异,而这些都很可能连带导致性能表现上的巨大差异. 所以有时候我们应该先 ...
SQL执行过程中的性能负载点
一.SQL执行过程 1.用户连接数据库,执行SQL语句: 2.先在内存进行内存读,找到了所需数据就直接交给用户工作空间: 3.内存读失败,也就说在内存中没找到支持SQL所需数据,就进行物理读,也就是到 ...
Farseer.net轻量级开源框架中级篇：SQL执行报告
导航目录:Farseer.net轻量级开源框架目录上一篇:Farseer.net轻量级开源框架中级篇: 数据库切换下一篇:Farseer.net轻量级开源框架中级篇: 探究ORM(M ...
scrapy 源码解析（三）：启动流程源码分析(三) ExecutionEngine执行引擎
ExecutionEngine执行引擎上一篇分析了CrawlerProcess和Crawler对象的建立过程,在最终调用CrawlerProcess.start()之前,会首先建立Execution ...

随机推荐

IQ推理：红眼睛和蓝眼睛
题目: 有一个很古老的村子,这个村子的人分两种,红眼睛和蓝眼睛,这两种人并没有什么不同,小孩在没生出来之前,没人知道他是什么颜色的眼睛,这个村子中间有一个广场,是村民们聚集的地方,现在这个村子只有 ...
git使用命令, 特别:git checkout -b a 与 git branch a区别
摘自: https://my.oschina.net/u/587974/blog/74341 创建分支: $ git branch mybranch 切换分支: $ git checkout mybr ...
第五百八十天 how can I 坚持
一定要稳住啊,怎么感觉心神不宁呢.哎.越是这种情况越能考验一个人吧. 说都会说,做起来真的好难啊. 今天上班一天都感觉心神不宁的.到底是哪出了问题,事情太多了.好吧,是挺多的,考研.上班,还得考虑结婚 ...
Egret中的对象池ObjectPool
为了可以让对象复用,防止大量重复创建对象,导致资源浪费,使用对象池来管理. 对象池具体含义作用,自行百度. 一对象池A 二对象池B 三字符串key和对象key的效率一对象池A /** * 对 ...
【转】awk、nawk、mawk、gawk的简答介绍
来自http://blog.sina.com.cn/s/blog_3d2d79aa0100h47h.html awk 是一种编程语言,用于在linux/unix下对文本和数据进行处理.数据可以来自标准 ...
VS2008的DLL项目添加了方法但是找不到怎么办？
VS2008中建立了一个DLL项目,使用了一段时间后,在其中一个类中添加了一个方法,然后编译后,拷贝了新的.h文件到使用DLL的项目中,并且.dll和.lib也拷贝到了需要的位置,但是在目标项目中 ...
http的应用httpurlconnection--------1
http请求后获得所需要的是字符串的时候 URL url=new URL(strurl); try { HttpURLConnection conn=(HttpURLConnection) url.o ...
调用百度地图API的应用混淆后出问题
1 混淆后出问题,程序异常退出在proguard-project.txt中添加 -libraryjars libs/BaiduLBS_Android.jar -keep class com.baid ...
oracle 客户端重新安装遇到的问题
前一阵,因为把ORACLE客户端的密码忘记了,在网上也找了好多方法,试着不重新安装找回密码,可是都行不通,没有办法重新装.安装时遇到一些问题,因为我是WIN7,64位系统,安装的oracle11g64 ...
用定时器令P0（或其它IO口）产生多路方波
void Timer0_isr(void) interrupt 1 using 1{ static unsigned char i; //重新赋值 12M晶振计算,指令周期1uS,500x2=1mS ...

用scala实现一个sql执行引擎-(上)

前言

解析

用scala实现一个sql执行引擎-(上)的更多相关文章

随机推荐

热门专题