sparksql工程小记
最近做一个oracle项目迁移工作,跟着spark架构师学着做,进行一些方法的总结。
1、首先,创建SparkSession对象(老版本为sparkContext)
val session = SparkSession.builder().appName("app1").getOrCreate()
2、数据的更新时间配置表,选用mysql,就是说每次结果数据计算写入mysql后,还会将此次数据的更新时间写入数据配置表。 那么在代码里,需要创建配置表的case class,配置与构造数据库schema信息,url,用户名密码等,随后根据配置表中的不同app进行数据的过滤。
val appId = "1"
case class DBInformation(url:Stirng,schema:String,user:String,passwd:String)
val mysqlDB = DBInformation("jdbc:mysql://....",schema,user,passowrd)
val tableName = mysqlDB.schema + "." + name
val props = new Properties()
props.setProperty("user",mysqlDB.user)
props.setProperty("password",mysqlDB.passwd)
props.setProperty(JDBCOptions.JDBC_DRIVER_CLASS,"com.mysql.jdbc.Driver")
val record = session.read.jdbc(mysqlDB.url,tableName,props).filter(row => row.getAs[Int]("app_id") == appId).take(1)
//第一次写入,木有数据
if(0 == record.size){
DBInfoMation(null,null,null)
}else{
DBInfoMation(record(0).getTimestmap(1),recode(0).getTimestamp(2),recode(0)..getTimestamp(3))
3、注册UDF,由于原来是用oracle的语法,现如今转为sparksql,需要注册一些UDF,来兼容原有oracle的函数
def registerUDF(session:SparkSession) : Unit = {
session.udf.register("UDF",(value : String,modifieds:Array[String) => {
val filter = modifieds.filter(_!=null)
if(!filter.isEmpty){
filter.max
}else{
null
}
})
{
4、很多计算是需要过往的历史数据的,在第一次初始化的时候,先对历史数据进行缓存。这里有个知识点,会将一直计算的同步数据进行checkPoint落地磁盘,如果发现历史时间在同步时间之后,则加载历史数据,否则就加载同步数据。
val (updateTime,initData) = if(historyTime.after(syncTime)){
(historyTime,initFromHistory(tableName))
} else {
(syncTime,initFromCheckPoint(syncTime))
}
//记录schema
schema = initData.schema
//baseData为缓存在内存的数据,并根据数据量进行repartition
baseData = initData.repartition(numPartitions,_partitionColumns.map(new Column()):_*).rdd.persisit(storageLevel)
//触发action动作
baseData.foreach(_=>Unit)
5、有一种情况,下游三个表要关联生成一张大表,这三张表的数据来源于消息中间件中的三个topic,但是数据可能不是同时到来,那么就需要将历史加载的大表拆根据ID拆分为三个小表,然后逐个append到三个小表上,随后再根据ID关联起来,再组成最终表。
val table1 = new createUpdatingTable(session,"tableName1",topicConf,numPartitons,...)
val table2 = new createUpdatingTable (session,"tableName2",topicConf1,numPartitions,...)
val table3 = new createUpdatingTable(session,"tableName3","topicConf2,numPartitions,...)
val mergeBaseTable = (session,"mergeTableName",Array(table1,table2,table3),finallyColumn,finallyPartitions...)
mergeBaseTable.updateAndGetData(Some(genDataFilter(currentTime)))
//三表拆分与合并
val tmpPartitionKey = "pd_code"
if(baseData != null) {
val oldData = getOldData(baseData,keyDF.rdd,tmpPartitionKey)
oldDf = session.createDataFrame(oldData,schema)
.repartition(numPartitions,new Column(tmpPartitionKey))
.persist(storageLevel)
}
val table1 = updateShardTable(oldDf,inDfs(0)...).sparksession.createDataFrame(data,schema)
val table2 = ....
val table3 = ....
6、三表key进行合并,通过sql进行三来源表合并
val keySet = keys.collect()
val broadcastKeys = session.sparkContext.broadCast(keySet)
baseData.mapPartitions({iter =>
val set = broadcastKey.value.toSet
iter.filter(row=>set.contains(row.getAs[Any](keyCol)))
},true)
val sql ="select a.column,b.column,c.column.... from table1 a left join table2 b on a.pd_code = b.pd_code......
val finallyTable = session.sql(sql)
7、从历史数据中筛选出此次需要更新的数据(通过ID进行过滤),随后将新数据进行append
val new Data = baseData.zipPartitions(updateData,true){case(liter,riter)=>
val rset = new mutable.HashSet[Any]
for(row <- riter){
rset.add(row.getAs[Any](keyCol))
}
liter.filter(row=>!rset.contains(row.getAs[Any](keyCol))))
}.zipPartitions(updateData,true){case (liter,riter)=>
liter++riter
}.persisit(storageLevel)
sparksql工程小记的更多相关文章
- IDEA引入Gradle工程小记
1.首先IDEA要在该工程Settings中配置本地安装的Gradle,配好其home目录,注意目录到根目录即可,不要到bin一级,否则提示错误,无法使用: 2.配置好后会自动侦测Gradle项目,点 ...
- 工程优化暨babel升级小记
小记背景 随着业务代码的增多,项目代码的编译时长也在增多,遂针对这个痛点在dev下做些优化 第一部分:优化dev编译时间 这里优化的主要思路是在dev环境下,单独出来一个dll配置文件,将项目中的部分 ...
- 小记--------sparksql和DataFrame的小小案例java、scala版本
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame.同时,sparksql还可以作为分布式的sql查询引擎. 最最重要的功能就是从 ...
- KEIL工程中头文件包含的一些小记
@2018-4-25 11:02:27 > 源文件包含自身头文件无须指出其路径
- linux 下cmake 编译 ,调用,调试 poco 1.6.0 小记
上篇文章 小记了: 关于 Poco::TCPServer框架 (windows 下使用的是 select模型) 学习笔记. http://www.cnblogs.com/bleachli/p/4352 ...
- 开发Android系统内置应用小记
Android系统内置应用可以使用更多的API.更高的权限,与开发普通应用最大的差别在于编译,内置应用编译需要用到Android.mk文件.下面是我在开发过程中的一些小记. 1.在AndroidMai ...
- Cocos2d-x项目移植到WinRT/Win8小记
Cocos2d-x项目移植到WinRT/Win8小记 作者: K.C. 日期: 11/17/2013 Date: 2013-11-17 23:33 Title: Cocos2d-x项目移植到WinRT ...
- Cocos2d-x项目移植到WP8小记
Cocos2d-x项目移植到WP8小记 作者: K.C. 日期: 10/24/2013 Date: 2013-10-24 00:33 Title: Cocos2d-x项目移植到WP8小记 Tags: ...
- xcode6制作IOS .a静态库小记
xcode6制作IOS .a静态库小记 创建iOS静态库 简单写个打印的代码 编码完成之后,直接Run就能成功生成.a文件了,选择 xCode->Window->Organizer-> ...
随机推荐
- c++---天梯赛---N个数求和
★题目: ★难点:要求只能以有理数和分数去输出结果. ★分析:可以对输入的数据进行通分处理,随后把结果按格式输出. ★代码: #include<iostream> #include< ...
- Mysql开启远程连接方法
分类: 数据库开发技术 解决MySQL不允许从远程访问的方法 开启 MySQL 的远程登陆帐号有两大步: 1.确定服务器上的防火墙没有阻止 3306 端口. MySQL 默认的端口是 3306 ,需要 ...
- WdatePicker设置时间区间时,对开始时间和结束时间限制
<input id="startDate" name="startDate" type="text" readonly=" ...
- 分享如何使用PHP将URL地址参数进行加密传输提高网站安全性
大家在使用PHP进行GET或POST提交数据时,经常会在URL带着参数进行传递,比如www.mdaima.com/get.php?id=1&page=5,这里就将id编号和page页码进行了参 ...
- servlet入门学习之工作原理解析
从 Servlet 容器说起 要介绍 Servlet 必须要先把 Servlet 容器说清楚,Servlet 与 Servlet 容器的关系有点像枪和子弹的关系,枪是为子弹而生,而子弹又让枪有了杀伤力 ...
- postgres的initdb解析——从一次插件升级失败说起
我们公司基于postgres开发了一款数据库产品,不用说我们对OSS的源码做了改动,并且也集成和自己编写了一些插件.因此,当postgresql和相关插件升级时,我们也需要将升级反应到自己的产品中去, ...
- web、pc、wap、app的区别
通常情况下web=pc,wap=app,前者指电脑用的程序,后者指手机用的程序. 更深层的区别是,pc电脑上软件,web电脑上的网页,wap手机上的网页,app手机用软件
- JDBC (五)
1 使用dbutils进行一对多.多对多的开发 1.1 准备 mysql驱动的pom.xml <!-- https://mvnrepository.com/artifact/mysql/mysq ...
- python并发编程之多进程(理论)
一.什么是进程 进程:正在进行的一个过程或者说一个任务.而负责执行任务则是cpu. 二.进程与程序的区别 程序:仅仅是一堆代 进程:是指打开程序运行的过程 三.并发与并行 并发与并行是指cpu运行多个 ...
- NetCloud——一个网易云音乐评论抓取和分析的Python库
在17的四月份,我曾经写了一篇关于网易云音乐爬虫的文章,还写了一篇关于评论数据可视化的文章.在这大半年的时间里,有时会有一些朋友给我发私信询问一些关于代码方面的问题.所以我最近抽空干脆将原来的代码整理 ...