1. Calcite元数据创建

1. 简介

Calcite 是一款来自 Apache 的开源动态数据管理框架，核心功能是提供 SQL 查询解析、优化及执行等基础能力，以灵活支持多种数据源，广泛应用于各类数据处理系统。以下从其功能特性、应用场景、优势三方面简单概述：

功能特性
- SQL 解析：支持多种 SQL 方言，如标准 SQL 以及不同数据库特定的扩展语法，能将输入的 SQL 语句解析为抽象语法树（AST），便于后续处理。
- 语义分析：对解析后的 SQL 进行语义检查，比如验证表名、列名是否存在，数据类型是否匹配等，确保 SQL 的语义正确。
- 查询优化：运用基于规则（RBO）和基于代价（CBO）的优化策略。RBO 通过预设规则，如谓词下推等，重写查询；CBO 则基于统计信息，估算不同执行计划的代价，选择最优方案。
- 执行计划生成：根据优化后的结果，生成可执行的物理执行计划，定义操作的具体执行顺序和方式。
- 数据源适配：可连接多种数据源，如关系型数据库（MySQL、Oracle 等）、文件系统（CSV、JSON 文件）、NoSQL 数据库等，而且还支持自定义数据源适配器, 并为不同数据源生成相应的数据访问策略。
- 跨数据源查询: 能够连接不同类型的数据源，通过适配器将不同数据源的操作进行统一抽象。在进行跨数据源连表查询时，它会将查询分解为各个数据源可以处理的子查询，然后将各个数据源的结果进行合并和进一步处理

2. 元数据准备

准备两个数据库 mysql 和 postgres

库信息如下: mysql中有张表: user, postgres有张表role

表信息如下:

CREATE TABLE `user` (

  `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主键',

  `username` varchar(255) DEFAULT NULL COMMENT '用户名称',

  `age` int(11) DEFAULT NULL COMMENT '性别',

  `sex` varchar(255) DEFAULT NULL COMMENT '性别',

  `role_key` int(11) DEFAULT NULL COMMENT '角色',

  PRIMARY KEY (`id`)

) ENGINE=InnoDB AUTO_INCREMENT=32 DEFAULT CHARSET=utf8mb4 COMMENT='用户信息表';

CREATE TABLE "public"."role" (

  "name" varchar(255) COLLATE "pg_catalog"."default",

  "role_key" int4

);

maven依赖如下:

<dependency>

  <groupId>org.apache.calcite</groupId>

  <artifactId>calcite-core</artifactId>

  <version>1.37.0</version>

</dependency>

<dependency>

  <groupId>mysql</groupId>

  <artifactId>mysql-connector-java</artifactId>

  <version>8.0.29</version>

</dependency>

<dependency>

  <groupId>org.postgresql</groupId>

  <artifactId>postgresql</artifactId>

  <version>42.2.23</version>

</dependency>

3. 元数据定义

calcite支持两种多种定义元数据方式常用的是通过json方式，另一种是通过SchemaFactory的方式。

3.1 Json Model

组织结构：

|- model # 数据模型

|	|- schema # 数据模式

|	|	|- tables # 表/视图

|	|	|- functions # 函数

|	|	|- type # 模式类型  custom: 自定义, map: 映射, jdbc: jdbc, inline: 嵌入式 (默认)

|	|	|- factory # 指定SchemaFactory的工厂类

|	|	|- operand # 指定额外参数

示例内容：

创建两个数据源 mysql 和 postgres, 使用两种不同的声明方式

{

  "version": "1.0",

  "defaultSchema": "my_mysql",

  "schemas": [

    {

      "type": "jdbc",

      "name": "my_mysql",

      "jdbcUser": "root",

      "jdbcPassword": "123456",

      "jdbcUrl": "jdbc:mysql://localhost:3306/test",

      "jdbcCatalog": "test",

      "jdbcSchema": null

    },

    {

      "name": "my_postgres",

      "type": "custom",

      "factory": "org.apache.calcite.adapter.jdbc.JdbcSchema$Factory",

      "operand": {

        "jdbcDriver": "org.postgresql.Driver",

        "jdbcUrl": "jdbc:postgresql://localhost:5432/test",

        "jdbcUser": "root",

        "jdbcPassword": "123456"

      }

    }

  ]

}

calcite model 实现类org.apache.calcite.jdbc.Driver --> org.apache.calcite.model.ModelHandler

calcite model doc：https://calcite.apache.org/docs/model.html

使用:

将json文件放到resources下, 然后创建connection的时候指定该文件即可

Properties info = new Properties();

// 不区分sql大小写

info.setProperty("caseSensitive", "false");

// 设置引用标识符为反引号

info.setProperty(CalciteConnectionProperty.QUOTING.camelName(), Quoting.BACK_TICK.name());

// 指定model信息

info.setProperty("model", resourcePath("model/model.json"));

// 创建Calcite连接

Connection connection = DriverManager.getConnection("jdbc:calcite:", info);

CalciteConnection calciteConnection = connection.unwrap(CalciteConnection.class);

// 构建RootSchema，在Calcite中，RootSchema是所有数据源schema的parent，多个不同数据源schema可以挂在同一个RootSchema下

SchemaPlus rootSchema = calciteConnection.getRootSchema();

// 创建SQL语句执行查询

Statement statement = calciteConnection.createStatement();

3.2 SchemaFactory

schema UML图如下:

先创建对应数据源的datasource对象

private static DataSource getMysqlDataSource() {

  MysqlDataSource dataSource = new MysqlDataSource();

  dataSource.setUrl("jdbc:mysql://localhost:3306/test");

  dataSource.setUser("root");

  dataSource.setPassword("123456");

  return dataSource;

}

private static DataSource getPostgresDataSource() {

  final PGSimpleDataSource pgSimpleDataSource = new PGSimpleDataSource();

  pgSimpleDataSource.setUrl("jdbc:postgresql://localhost:5432/test");

  pgSimpleDataSource.setUser("root");

  pgSimpleDataSource.setPassword("123456");

  return pgSimpleDataSource;

}

然后将datasource对象包装成JdbcSchema对象最后注册到rootSchema中

Properties info = new Properties();

// 不区分sql大小写

info.setProperty("caseSensitive", "false");

// 设置引用标识符为双引号

info.setProperty(CalciteConnectionProperty.QUOTING.camelName(), Quoting.BACK_TICK.name());

// 创建Calcite连接

Connection connection = DriverManager.getConnection("jdbc:calcite:", info);

CalciteConnection calciteConnection = connection.unwrap(CalciteConnection.class);

// 构建RootSchema，在Calcite中，RootSchema是所有数据源schema的parent，多个不同数据源schema可以挂在同一个RootSchema下

SchemaPlus rootSchema = calciteConnection.getRootSchema();

// 设置默认的schema, 如果不设置需要加上对应数据源的名称

calciteConnection.setSchema("my_mysql");

final DataSource mysqlDataSource = getMysqlDataSource();

final JdbcSchema schemaWithMysql = JdbcSchema.create(rootSchema, "my_mysql", mysqlDataSource, "test", null);

final DataSource postgresDataSource = getPostgresDataSource();

final JdbcSchema schemaWithPostgres = JdbcSchema.create(rootSchema, "my_postgres", postgresDataSource, "test", "public");

rootSchema.add("my_mysql", schemaWithMysql);

rootSchema.add("my_postgres", schemaWithPostgres);

// 创建SQL语句执行查询

Statement statement = calciteConnection.createStatement();

rootSchema也可以使用创建

CalciteSchema calciteSchema = CalciteSchema.createRootSchema(true, true);

SchemaPlus rootSchema = calciteSchema.plus();

4. 测试查询

测试单个数据源的查询功能:

@Test

@SneakyThrows

public void test_connection() {

  // 上述配置中都设置了默认的schema为my_mysql, 所以查询的时候可以不添加数据源key前缀

  final ResultSet resultSet = statement.executeQuery("SELECT * FROM `user`");

  final ResultSet resultSet = statement.executeQuery("SELECT * FROM my_mysql.`user`");

  printResultSet(resultSet);

}

输出结果如下:

Number of columns: 5

{sex=1, role_key=1, id=1, age=23, username=张三}

{sex=2, role_key=2, id=2, age=18, username=李四}

{sex=2, role_key=1, id=3, age=26, username=张铁牛}

{sex=2, role_key=3, id=4, age=30, username=王麻子}

测试不同数据源连表查询

calcite支持将不同数据源的sql下推, 然后在内存中做对应的关联过滤等操作

@Test

@SneakyThrows

public void test_cross_db_query() {

    final ResultSet resultSet = statement.executeQuery("SELECT u.*,r.name FROM `user` u left join my_postgres.`role` r on u.role_key = r.role_key");

    printResultSet(resultSet);

}

输出结果如下:

Number of columns: 6

{sex=1, role_key=1, name=管理员, id=1, age=23, username=张三}

{sex=2, role_key=1, name=管理员, id=3, age=26, username=张铁牛}

{sex=2, role_key=2, name=老师, id=2, age=18, username=李四}

{sex=2, role_key=3, name=学生, id=4, age=30, username=王麻子}

5. 完整测试代码

5.1 Json Model

package com.ldx.calcite;

import lombok.SneakyThrows;

import lombok.extern.slf4j.Slf4j;

import org.apache.calcite.avatica.util.Quoting;

import org.apache.calcite.config.CalciteConnectionProperty;

import org.apache.calcite.jdbc.CalciteConnection;

import org.apache.calcite.schema.SchemaPlus;

import org.apache.calcite.util.Sources;

import org.junit.jupiter.api.BeforeAll;

import org.junit.jupiter.api.Test;

import org.testng.collections.Maps;

import java.net.URL;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.ResultSet;

import java.sql.ResultSetMetaData;

import java.sql.SQLException;

import java.sql.Statement;

import java.util.Map;

import java.util.Properties;

@Slf4j

public class CalciteModelTest {

    private static Statement statement;

    @BeforeAll

    @SneakyThrows

    public static void beforeAll() {

        Properties info = new Properties();

        // 不区分sql大小写

        info.setProperty("caseSensitive", "false");

        // 设置引用标识符为双引号

        info.setProperty(CalciteConnectionProperty.QUOTING.camelName(), Quoting.BACK_TICK.name());

        // 指定model信息

        info.setProperty("model", resourcePath("model/model.json"));

        // 创建Calcite连接

        Connection connection = DriverManager.getConnection("jdbc:calcite:", info);

        CalciteConnection calciteConnection = connection.unwrap(CalciteConnection.class);

        // 构建RootSchema，在Calcite中，RootSchema是所有数据源schema的parent，多个不同数据源schema可以挂在同一个RootSchema下

        SchemaPlus rootSchema = calciteConnection.getRootSchema();

        // 创建SQL语句执行查询

        statement = calciteConnection.createStatement();

    }

    @Test

    @SneakyThrows

    public void test_connection() {

        final ResultSet resultSet = statement.executeQuery("SELECT * FROM `user`");

        printResultSet(resultSet);

    }

    @Test

    @SneakyThrows

    public void test_cross_db_query() {

        final ResultSet resultSet = statement.executeQuery("SELECT u.*,r.name FROM `user` u left join my_postgres.`role` r on u.role_key = r.role_key");

        printResultSet(resultSet);

    }

    public static void printResultSet(ResultSet resultSet) throws SQLException {

        // 获取 ResultSet 元数据

        ResultSetMetaData metaData = resultSet.getMetaData();

        // 获取列数

        int columnCount = metaData.getColumnCount();

        log.info("Number of columns: {}",columnCount);

        // 遍历 ResultSet 并打印结果

        while (resultSet.next()) {

            final Map<String, String> item = Maps.newHashMap();

            // 遍历每一列并打印

            for (int i = 1; i <= columnCount; i++) {

                String columnName = metaData.getColumnName(i);

                String columnValue = resultSet.getString(i);

                item.put(columnName, columnValue);

            }

            log.info(item.toString());

        }

    }

    private static String resourcePath(String path) {

        final URL url = CalciteCsvTest.class.getResource("/" + path);

        return Sources

                .of(url).file().getAbsolutePath();

    }

}

5.2 SchemaFactory

package com.ldx.calcite;

import com.mysql.cj.jdbc.MysqlDataSource;

import lombok.SneakyThrows;

import lombok.extern.slf4j.Slf4j;

import org.apache.calcite.adapter.jdbc.JdbcSchema;

import org.apache.calcite.avatica.util.Quoting;

import org.apache.calcite.config.CalciteConnectionProperty;

import org.apache.calcite.jdbc.CalciteConnection;

import org.apache.calcite.jdbc.CalciteSchema;

import org.apache.calcite.schema.SchemaFactory;

import org.apache.calcite.schema.SchemaPlus;

import org.apache.calcite.util.Sources;

import org.junit.jupiter.api.BeforeAll;

import org.junit.jupiter.api.Test;

import org.postgresql.ds.PGSimpleDataSource;

import org.postgresql.osgi.PGDataSourceFactory;

import org.testng.collections.Maps;

import javax.sql.DataSource;

import java.net.URL;

import java.sql.Connection;

import java.sql.DriverManager;

import java.sql.ResultSet;

import java.sql.ResultSetMetaData;

import java.sql.SQLException;

import java.sql.Statement;

import java.util.Map;

import java.util.Properties;

@Slf4j

public class CalciteCreateMataDataTest {

    private static Statement statement;

    @BeforeAll

    @SneakyThrows

    public static void beforeAll() {

        Properties info = new Properties();

        // 不区分sql大小写

        info.setProperty("caseSensitive", "false");

        // 设置引用标识符为双引号

        info.setProperty(CalciteConnectionProperty.QUOTING.camelName(), Quoting.BACK_TICK.name());

        // 创建Calcite连接

        Connection connection = DriverManager.getConnection("jdbc:calcite:", info);

        CalciteConnection calciteConnection = connection.unwrap(CalciteConnection.class);

        // 构建RootSchema，在Calcite中，RootSchema是所有数据源schema的parent，多个不同数据源schema可以挂在同一个RootSchema下

        SchemaPlus rootSchema = calciteConnection.getRootSchema();

        // 设置默认的schema, 如果不设置需要加上对应数据源的名称

        calciteConnection.setSchema("my_mysql");

        final DataSource mysqlDataSource = getMysqlDataSource();

        final JdbcSchema schemaWithMysql = JdbcSchema.create(rootSchema, "my_mysql", mysqlDataSource, "test", null);

        final DataSource postgresDataSource = getPostgresDataSource();

        final JdbcSchema schemaWithPostgres = JdbcSchema.create(rootSchema, "my_postgres", postgresDataSource, "test", "public");

        rootSchema.add("my_mysql", schemaWithMysql);

        rootSchema.add("my_postgres", schemaWithPostgres);

        // 创建SQL语句执行查询

        statement = calciteConnection.createStatement();

    }

    private static DataSource getMysqlDataSource() {

        MysqlDataSource dataSource = new MysqlDataSource();

        dataSource.setUrl("jdbc:mysql://localhost:3306/test");

        dataSource.setUser("root");

        dataSource.setPassword("123456");

        return dataSource;

    }

    private static DataSource getPostgresDataSource() {

        final PGSimpleDataSource pgSimpleDataSource = new PGSimpleDataSource();

        pgSimpleDataSource.setUrl("jdbc:postgresql://localhost:5432/test");

        pgSimpleDataSource.setUser("root");

        pgSimpleDataSource.setPassword("123456");

        return pgSimpleDataSource;

    }

    @Test

    @SneakyThrows

    public void test_connection() {

        final ResultSet resultSet = statement.executeQuery("SELECT * FROM `user`");

        printResultSet(resultSet);

    }

    @Test

    @SneakyThrows

    public void test_cross_db_query() {

        final ResultSet resultSet = statement.executeQuery("SELECT u.*,r.name FROM `user` u left join my_postgres.`role` r on u.role_key = r.role_key");

        printResultSet(resultSet);

    }

    public static void printResultSet(ResultSet resultSet) throws SQLException {

        // 获取 ResultSet 元数据

        ResultSetMetaData metaData = resultSet.getMetaData();

        // 获取列数

        int columnCount = metaData.getColumnCount();

        log.info("Number of columns: {}",columnCount);

        // 遍历 ResultSet 并打印结果

        while (resultSet.next()) {

            final Map<String, String> item = Maps.newHashMap();

            // 遍历每一列并打印

            for (int i = 1; i <= columnCount; i++) {

                String columnName = metaData.getColumnName(i);

                String columnValue = resultSet.getString(i);

                item.put(columnName, columnValue);

            }

            log.info(item.toString());

        }

    }

    private static String resourcePath(String path) {

        final URL url = CalciteCsvTest.class.getResource("/" + path);

        return Sources

                .of(url).file().getAbsolutePath();

    }

}

1. Calcite元数据创建的更多相关文章

[转载]我的WCF之旅（1）：创建一个简单的WCF程序
为了使读者对基于WCF的编程模型有一个直观的映像,我将带领读者一步一步地创建一个完整的WCF应用.本应用功能虽然简单,但它涵盖了一个完整WCF应用的基本结构.对那些对WCF不是很了解的读者来说,这个例 ...
WCF服务二：创建一个简单的WCF服务程序
在本例中,我们将实现一个简单的计算服务,提供基本的加.减.乘.除运算,通过客户端和服务端运行在同一台机器上的不同进程实现. 一.新建WCF服务 1.新建一个空白解决方案,解决方案名称为"WC ...
我的WCF之旅（1）：创建一个简单的WCF程序
为了使读者对基于WCF的编程模型有一个直观的映像,我将带领读者一步一步地创建一个完整的WCF应用.本应用功能虽然简单,但它涵盖了一个完整WCF应用的基本结构.对那些对WCF不是很了解的读者来说,这个例 ...
.NET 元数据
1. 安装 ILDASM 工具 VS -- 外部工具 -- 添加 -- 命令行为:C:\Program Files (x86)\Microsoft SDKs\Windows\v8.1A\bin\NET ...
深入探索.NET框架内部了解CLR如何创建运行时对象
原文地址:http://msdn.microsoft.com/en-us/magazine/cc163791.aspx 原文发布日期: 9/19/2005 原文已经被 Microsoft 删除了,收集 ...
【Spark-SQL学习之二】 SparkSQL DataFrame创建和储存
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
深入探索.NET内部了解CLR如何创建运行时对象
前言 SystemDomain, SharedDomain, and DefaultDomain. 对象布局和内存细节. 方法表布局. 方法分派(Method dispatching). 因为公共语言 ...
最齐全的站点元数据meta标签的含义和使用方法
最齐全的站点元数据meta标签的含义和使用方法随着HTML5的流行和Web技术的不断演变,Meta标签队伍也越来越壮大,从Windows XP的IE6到现在Windows 7.Windows 8的I ...
ASP.NET Web API Model-ModelBinder
ASP.NET Web API Model-ModelBinder 前言本篇中会为大家介绍在ASP.NET Web API中ModelBinder的绑定原理以及涉及到的一些对象模型,还有简单的Mod ...
ASP.NET MVC的客户端验证：jQuery验证在Model验证中的实现
在简单了解了Unobtrusive JavaScript形式的验证在jQuery中的编程方式之后,我们来介绍ASP.NET MVC是如何利用它实现客户端验证的.服务端验证最终实现在相应的ModelVa ...

随机推荐

MySQL无开通SQL全审计下的故障分析方法
几年前MySQL数据库出现突然的从库延迟故障和CPU爆高时,如何排查具体原因,可能说已在腾讯云的MySQL库里开启了SQL全审计,记录了全部执行的SQL,再通过下面的方法就可以很容易找到原因: 1,实 ...
Open-RAG：将开源LLM模型集成为高效RAG模型 | ENMLP'24
本文是对公开论文的核心提炼,旨在进行学术交流.如有任何侵权问题,请及时联系号主以便删除. 来源:晓飞的算法工程笔记公众号,转载请注明出处论文: Open-RAG: Enhanced Retriev ...
29、undo_2_1（事务槽、延迟块清除、构造CR块、ora-01555）
事务槽(不同于事务表里面的槽位(这个事务槽在数据块的头部)) 图解: 一个事务开始,要做的事情: 第一,事务表里面找槽位(undo段的段头块里有事务表,事务表有槽位,每一个槽位记录一个事务): 事务表 ...
Abp vNext 入门到放弃系列
文章目录 1.模块介绍 2.模块加载机制 3.依赖注入 4.AutoMapper-- 待定 5.本地化--待定 6.模型验证--待定 7.异常处理--待定 8.缓存 9.动态代理和拦截 10.分布式锁 ...
golang工具之generate
示例: 大家经常碰到命名错误码.状态码的同时,又要同步写码对应的翻译,有没有感觉很无聊.这里举一个例子: package main import "fmt" // 定义错误 ...
docker之可视化工具
Docker UI进行Docker管理(单机) 1.拉取镜像 Docker UI进行Docker管理 2.创建docker容器 docker run -it -d --name docker-web ...
JS 预编译代码实例分析
了解 JavaScript 引擎在执行代码过程中所做的一些行为是非常必要的,这有助于我们在遇到莫名其妙的调用时,能够大致定位问题所在.在我学习了预编译的相关知识,并基于该文章,引用其中的一段代码,结合 ...
Python 学习记录（2）
NumPy数组规整对数组进行各种变化转换数组形状 import numpy as np a=np.arange(1,6+1) b=np.reshape(a,(2,3)) print(a) prin ...
原生JS点名器，随机数
因为工作内容的需要自己琢磨了一个随机数的点名器,很早就写出了一版,今天无意间又看到了之前写的代码,还是有很多bug的,今天做了完善在这里分享给大家 <script type="text ...
Centos7.8安装Gitlab
公司为了合规性考虑,需要自己搭建私有化版的github.那不用想,肯定要上GitLab了. 项目背景: 服务器:华为云ECS,需要上公网,并在安全组打开80端口访问. 用户:关闭公开注册,新建用户后, ...