对于一个平台来说,使用者对技术本身是不敏感的,所以我们需要增加一些限制来减少集群的一些不可控情况,例如不断的写入新表/新数据却不记得删除,大量不按规范创建的表名等情况。与此同时应尽量让技术对用户透明,比如让其无感知的访问多种类型的数据库。

下文以拦截 spark.sql() 方法为例,通过为 hive表的添加生命周期,自动切换 tidb 表,表权限校验等几个小功能 来说明。

如何使用
代码
SparkSqlAspect.scala
为了便于理解以下代码会进行一些删减

import org.aspectj.lang.ProceedingJoinPoint
import org.aspectj.lang.annotation.{Around, Aspect}
import org.slf4j.LoggerFactory
import org.apache.spark.sql.{Dataset, Row, SparkSession, TiContext}

import cn.tongdun.datacompute.parser._
import cn.tongdun.datacompute.parser.spark.SparkSQLHelper

@Aspect
class SparkSqlAspect {
private val logger = LoggerFactory.getLogger(classOf[SparkSqlAspect])
private var tiContext: TiContext = null

@Around("execution(public org.apache.spark.sql.Dataset<org.apache.spark.sql.Row> org.apache.spark.sql.SparkSession.sql(java.lang.String)) && args(sqlRaw)")
def around(pjp: ProceedingJoinPoint,
sqlRaw: String): Dataset[Row] www.yongshiyule178.com= {
//sparkSQLHelper 是我们基于 antlr4 增加了一些 sparksql 语法的支持,例如建表时需要指定 lifecycle 等
val sql = SparkSQLHelper.format(sqlRaw)
val spark = pjp.getThis.asInstanceOf[SparkSession]
var dataset: Dataset[Row] = spark.emptyDataFrame
val statementData = SparkSQLHelper.getStatementData(sql)
val statement = statementData.getStatement()

//getType 方法用于获取sql的类型
statementData.getType match {
case StatementType.CREATE_TABLE =>
createMethod()

case StatementType.CREATE_TABLE_AS_SELECT =>
createAsSelectMethod()

case StatementType.SELECT =>
dataset = selectMethod(spark, inputSql, statement, pjp)

case _ =>
dataset = pjp.proceed(pjp.getArgs).asInstanceOf[Dataset[Row]]
}
dateset
}

// 建表必须带有 lifecycle 字段,并对表名进行校验,将相关信息注册到元数据系统等操作
def createMethod(): Unit = {
...
}

// 约定 create table as select 生成的表都为中间表,必须以 tdl_ 开头,lifecycle 固定为7天
def createAsSelectMethod(): Unit = {
...
}

// select 对多个数据库源进行判定以及对权限进行校验,下面以tidb为例
def selectMethod(spark: SparkSession,
inputSql: String,
statement: Statement,
pjp: ProceedingJoinPoint)www.mhylpt.com/: Dataset[Row] = {
val tableData = statement.asInstanceOf[TableData]
//获取所有需要访问的源表
tableData.getInputTables.toArray.foreach {
case t: TableSource =>
val databaseName = t.getDatabaseName
val tableName = t.getTableName
val fullTableName = databaseName + "." + tableName
//所有tidb的库都以tidb为前缀
if (t.getDatabaseName.startsWith("tidb")) {
//对tidb表权限进行校验
if(tableAuthCheck(...)){
//判断tiContext是否初始化
if (tiContext == null) {
tiContext = new TiContext(spark)
}
//对tidb表的表名进行替换,避免与现有的临时表/中间表冲突
val replacedTable = "tdl_" + databaseName + "_" + tableName
//加入tidb表数据源
tiContext.tidbMapTable(databaseName, tableName)
//注册为临时表
tiContext.getDataFrame(databaseName, tableName).createOrReplaceTempView(replacedTable)
//将sql语句中的表名进行替换
sql = StringUtils.replace(sql,www.dasheng178.com fullTableName, replacedTable)
} else {
throw new IllegalAccessError(fullTableName + "没有访问权限")
}
}
case _ =>
}
pjp.proceed(Array(sql)www.thd540.com).asInstanceOf[Dataset[Row]]

配置
pom.xml
<dependency>
<groupId>org.aspectj</groupId>
<artifactId>aspectjrt</artifactId>
<version>1.9.1</version>
</dependency>

<dependency>
<groupId>org.aspectj</groupId>
<artifactId>aspectjweaver</artifactId>
<version>1.9.1</version>
</dependency>

<!--公司内部版本,用于支持spark2.3-->
<dependency>
<groupId>com.pingcap.tispark</groupId>
<artifactId>tispark-core</artifactId>
<version>1.1-SNAPSHOT</version>
<scope>provided</scope>
</dependency>
resources/META-INF/AspectSql.aj
<?xml version="1.0" encoding=www.taohuayuan178.com/"UTF-8" ?>
<aspectj>
<aspects>
<aspect name="cn.tongdun.aspectj.SparkSqlAspect"/>
</aspects>
<weaver options="-Xset:weaveJavaxPackages=true"/>
</aspectj>
spark-defaults.conf
spark.driver.extraClassPath /path/to/spark-aspectj.jar
spark.driver.extraJavaOptions -javaagent:/home/admin/aspectjweaver-1.9.1.jar
结语
通过上述的操作,在用户调用 spark.sql(...) 时将会触发相应的方法。hdfs/rdd/sparkSession/etc. 操作同理可实现。

不同公司面临的真实场景各有不同,因此并没有过多的实现细节,仅给需要的同学提供一些思路

实例对比 Julia, R, Python,谁是狼语言?的更多相关文章

  1. 在天河二号上对比Julia,Python和R语言

    Julia是一款高级高效为技术计算(technical computing)而设计的编程语言,其语法与其他计算环境类似.其为分布式计算和并行所设计,最知名的地方在于其接近C语言的高效率. 按开发者的话 ...

  2. 30个深度学习库:按Python、C++、Java、JavaScript、R等10种语言分类

    30个深度学习库:按Python.C++.Java.JavaScript.R等10种语言分类 包括 Python.C++.Java.JavaScript.R.Haskell等在内的一系列编程语言的深度 ...

  3. julia,集Python、C++、R为一体!Julia 1.0重磅发布, MIT发布史上最强科学计算编程语言?创始人独家解答11个问题

    这个编程语言的新版本之所以受到整个人工智能界的关注,最主要的原因正是其将 C 语言的速度.Ruby 的灵活.Python 的通用性前所未有地结合在一起,支持并行处理,易于学习和使用,尤其适合科学和工程 ...

  4. 7 Tools for Data Visualization in R, Python, and Julia

    7 Tools for Data Visualization in R, Python, and Julia Last week, some examples of creating visualiz ...

  5. 基于Spark环境对比Python和Scala语言利弊

    在数据挖掘中,Python和Scala语言都是极受欢迎的,本文总结两种语言在Spark环境各自特点. 本文翻译自  https://www.dezyre.com/article/Scala-vs-Py ...

  6. Python与C语言基础对比(Python快速入门)

    代码较长,建议使用电脑阅读本文. 10分钟入门Python 本文中使用的是Python3 如果你曾经学过C语言,阅读此文,相信你能迅速发现这两种语言的异同,达到快速入门的目的.下面将开始介绍它们的异同 ...

  7. python与c语言交互应用实例

    1.python向c语言写数据 1) 先将接收端编译成一个共享链接库gcc/arm-linux-gnueabihf-gcc -o bluetooth_proxy.so -shared -fPIC bl ...

  8. julia与python中的列表解析.jl

    julia与python中的列表解析.jl #=julia与python中的列表解析.jl 2016年3月16日 07:30:47 codegay julia是一门很年轻的科学计算语言 julia文档 ...

  9. NLP︱高级词向量表达(一)——GloVe(理论、相关测评结果、R&python实现、相关应用)

    有很多改进版的word2vec,但是目前还是word2vec最流行,但是Glove也有很多在提及,笔者在自己实验的时候,发现Glove也还是有很多优点以及可以深入研究对比的地方的,所以对其进行了一定的 ...

随机推荐

  1. 用TreeView控件遍历磁盘目录

    实现效果: 知识运用: ListView控件中Items集合的Add方法  TteeView控件中Nodes集合的Add方法 实现代码: private void Form1_Load(object ...

  2. Java中ArrayList的对象引用问题

    前言事件起因是由于同事使用ArrayList的带参构造方法进行ArrayList对象复制,修改新的ArrayList对象中的元素(对象)的成员变量时也会修改原ArrayList中的元素(对象)的成员变 ...

  3. 题解 CF656G 【You're a Professional】

    又是一道假黑题 它教会我们不要看难度标签 虽然这道题的数据范围很小,用cin能过,但我还是要讲一下快读 快读嘛,顾名思义,就是 快速读入 的意思 有同学就会问了,快速读入的原理是什么? 答:它的原理其 ...

  4. java调用摄像头

    http://blog.csdn.net/xing_sky/article/details/43482213 原文地址:http://blog.csdn.net/zajin/article/detai ...

  5. shell基础及变量符号

    kernel主要的功能: 1.内存的管理 2.设备驱动程序 3.文件系统的管理 4.进程的管理 5.网络系统   vim /etc/profile.d/ profile(主配置文件) .d(子配置文件 ...

  6. SpringSecurity项目报错

    启动时,提示: Unable to start ServletWebServerApplicationContext due to missing ServletWebServerFactory be ...

  7. win7在某个盘或文件夹中出现右键只能新建文件夹的情况 (2012-12-28-bd 写的日志迁移

    至于只能新建文件夹的情况如图: 解决方法是在运行中输入msconfig进入如图: 在系统设置选工具项在选中更改UAC设置点击启动如图: 如图: 直接把通知栏拉到最低确定即可(如果已经是最低了那就随便改 ...

  8. JZOJ 4757. 树上摩托

    Description Sherco是一位经验丰富的魔♂法师.Sherco在第零次圣杯战争中取得了胜利,并取得了王之宝藏——王の树.他想把这棵树砍去任意条边,拆成若干棵新树,并装饰在他的摩托上,让他的 ...

  9. JAVA使用JDBC连接,修改MySQL数据库(比较乱)

    原文地址1(连接MySQL图文) : http://www.cnblogs.com/GarfieldEr007/p/5746137.html 原文地址2 (修改MySQL图文): http://www ...

  10. kubectl alias auto complete

    平时kubectl命令管理kubernetes,敲久了就觉得比较麻烦,想着使用alias k来代替kubectl,可是当输入k时没有了自动补全的功能 这里在 ~/.bashrc 添加如下配置后,可以自 ...