前言

calcite是一个可以将任意数据查询转换成基于sql查询的引擎，引擎特性也有很多，比如支持sql树的解析，udf的扩展，sql执行优化器的扩展等等。目前已经被很多顶级apache项目引用，比如hive，kylin等。在这个SQL作为主流的数据查询语言大数据世界里，calcite的作用会越来越大。

理解calcite的核心流程

如图1所示。calcite核心步骤有两个，数据关系化， SQL解析执行。

图1 calcite核心流程

数据协议关系化

要想使用sql进行查询，首先要把非结构化数据结构化，而calcite号称支持所有数据协议，则必然得将这部分内容抽象出来。

在calcite的接口中，Schema和Table是数据关系化中最重要的两个接口。Schema是对catalog或者是database的抽象，以兼容已经存在的各类数据库，Table是对表，视图，流的抽象，以兼容数据的各种场景，下面详细描述一下这两种抽象。

schema

calcite利用schema的层级关系，构造出来namespace的概念，如图2所示，schema自身是一个树形结构，这样设计的优点很明显，可以兼容所有已知和未知的数据库，基于namespace结构，schema无论是横向还是纵向都可以无限扩展。

图2 schema的namespace

在实际应用中，RootSchema是根所有schema的路径，所有注册在RootSchema上的table或者是udf都是全局的，意思就是说可以被SubSchema直接使用，而注册在SubSchema里的table或者是udf，则在使用中必须声明是哪个SubSchema拥有的。

table

table是schema的核心属性，一个schema拥有多个table，这就像一个数据库中有很多表一样。而table的概念更为广泛，为了兼容到各类数据库或者消息队列，calcite将table类型细分为TableType，基本的类似传统关系型数据库中的表或者视图，流式的Stream等。

另外对数据协议的兼容是非常重要的，像json，csv，xml等等，table抽象出了RelDataType接口，目的是将应用层的数据协议转关系化，从而可以为sql服务。

拿csv格式的数据来说，假设csv数据的每一行数据和table中的每一行一一对应，那么在关系化的过程中，必须将csv中每个字段的类型及一些元数据定义清晰，比如字段是int类型还是long类型，主键是哪个字段，外键是哪个字段等，calcite提供了几乎所有已存在的字段类型。

关于嵌套数据，calcite也考虑的很周全，提供MapSqlType或者ArraySqlType的形式来兼容这些结构。

拿json格式的数据来说，字段嵌套是很常见的，如果想把这类结构数据关系化，通常有两种选择（1）数据扁平化，将嵌套的字段提上来，形成a.b的形式（2）通过calcite引擎声明嵌套字段及规则，在使用sql查询的时候再通过calcite的表达式提取这些字段。

SQL解析执行

到了这一步，其实和传统数据库很像了，如图3所示，calcite采用了该方案来解决从sql的输入到输出。

calcite通过关系代数来实现对sql的执行，而关系代数之间通过树形结构作为载体，每一个输入的sql命令都会被转换成树形结构的关系代数也就是关系表达式树。calcite支持直接构建关系表达式树，通过RelBuilder接口。

注：关系代数，常见的有（交，并，差，投影，选择，笛卡尔积，连接）

图3

案例

完整案例

calcite提供了基于json和csv的案例，在calcite-example模块下，另外在该模块的单元测试中，有一些完整的例子。

sql解析案例

// 可以通过SqlParser直接对sql语句作解析，返回的就是sql树。

SqlParser sqlParser = SqlParser.create("select * from \"table\" where \"column\" > 1 limit 1");

SqlNode sqlNode =  sqlParser.parseQuery();

if(sqlNode instanceof SqlCall){

    if(sqlNode instanceof SqlBasicCall){

        SqlBasicCall basicCall = (SqlBasicCall) sqlNode;

        System.out.println(((SqlIdentifier)basicCall.operand(0)).getSimple());

        System.out.println(((SqlNumericLiteral)basicCall.operand(1)).getValue());

        System.out.println(basicCall.getKind());

    }

    System.out.println(sqlNode.getKind()+" -> "+sqlNode.getClass());

    SqlCall call = (SqlCall) sqlNode;

    for(SqlNode node: call.getOperandList()){

        parse(node);

    }

}

引用

// calcite官网

http://calcite.apache.org/docs/tutorial.html

// calcite github

https://github.com/apache/calcite

calcite介绍的更多相关文章

Apache顶级项目 Calcite使用介绍
什么是Calcite Apache Calcite是一个动态数据管理框架,它具备很多典型数据库管理系统的功能,比如SQL解析.SQL校验.SQL查询优化.SQL生成以及数据连接查询等,但是又省略了一些 ...
Phoenix核心功能原理及应用场景介绍以及Calcite 查询计划生成框架介绍
Phoenix是一个开源的HBase SQL层.它不仅可以使用标准的JDBC API替代HBase Client API创建表,插入和查询HBase,也支持二级索引.事物以及多种SQL层优化. 此系列 ...
【转】Kylin介绍（很有用）
转:http://blog.csdn.net/yu616568/article/details/48103415 Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOL ...
OLAP引擎——Kylin介绍（很有用）
转:http://blog.csdn.net/yu616568/article/details/48103415 Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOL ...
Kylin介绍
转:http://blog.csdn.net/yu616568/article/details/48103415 Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOL ...
转: OLAP引擎——Kylin介绍
本文转自:http://blog.csdn.net/yu616568/article/details/48103415 ,如有侵犯,立刻删除. Kylin是ebay开发的一套OLAP系统,与Mond ...
Apache Calcite项目简介
文章导读: 什么是Calcite? Calcite的主要功能? 如何快速使用Calcite? 什么是Calcite Apache Calcite是一个动态数据管理框架,它具备很多典型数据库管理系统的功 ...
Kylin介绍（很有用）
转:http://blog.csdn.net/yu616568/article/details/48103415 Kylin是ebay开发的一套OLAP系统,与Mondrian不同的是,它是一个MOL ...
春蔚专访--MaxCompute 与 Calcite 的技术和故事
摘要:2019大数据技术公开课第一季<技术人生专访>,来自阿里云计算平台事业部高级开发工程师雷春蔚向大家讲述了MaxCompute 与 Calcite 的技术和故事. 具体内容包括: 1) ...

随机推荐

JZOJ.5325【NOIP2017模拟8.21】九九归一
Description
在MacOS上搭建Vulhub漏洞平台环境
一.安装python3和docker brew install python3 brew cask install docker sudo pip3 install docker-compose 二. ...
【BZOJ4099】Trapped in the Haybales Gold STL
[BZOJ4099]Trapped in the Haybales Gold Description Farmer John has received a shipment of N large ha ...
[SQL]批量更改字符集脚本，批量查询约束，批量查询索引
How to change collation of all database objects in SQL Server. Have you encountered a problem where ...
hibernate在Oracle中插入数据,默认字段被设置为null的问题解决
参考内容: http://blog.sina.cn/dpool/blog/s/blog_90629d5301014a5w.html 在数据库中一个字段的默认值为1,但是在插入数据后,本来该字段为空,值 ...
tortoiseSVN如何发现和解决冲突？
版本冲突原因: 假设A.B两个用户都在版本号为100的时候,更新了kingtuns.txt这个文件,A用户在修改完成之后提交kingtuns.txt到服务器,这个时候提交成功,这个时候kingtuns ...
[Jenkins] 批量删除构建历史
Manage Jenkins -> Script Console def jobName = "Some_Job_Name" def maxNumber = 64 Jenki ...
Linux（Centos）下搭建SVN服务器
鉴于在搭建时,参考网上很多资料,网上资料在有用的同时,也坑了很多人,本文的目的,也就是想让后继之人在搭建svn服务器时不再犯错,不再被网上漫天的坑爹作品所坑害,故此总结! /******开始***** ...
Oracle卸载之linux快速卸载rac脚本-一键卸载
#!/bin/bash#Usage:Log on as the superuser('root') on node1,node2 cd /u01/app/11.2.0/grid/bin./crsctl ...
python并发
并发方式线程(Thread) 多线程几乎是每一个程序猿在使用每一种语言时都会首先想到用于解决并发的工具(JS程序员请回避),使用多线程可以有效的利用CPU资源(Python例外).然而多线程所带来的 ...

calcite介绍

前言