sparksql工程小记

　　最近做一个oracle项目迁移工作，跟着spark架构师学着做，进行一些方法的总结。

　　1、首先，创建SparkSession对象（老版本为sparkContext）

　　val session = SparkSession.builder().appName("app1").getOrCreate()

　　2、数据的更新时间配置表，选用mysql,就是说每次结果数据计算写入mysql后，还会将此次数据的更新时间写入数据配置表。那么在代码里，需要创建配置表的case class,配置与构造数据库schema信息，url，用户名密码等,随后根据配置表中的不同app进行数据的过滤。

　　val appId = "1"

　　case class DBInformation(url:Stirng,schema:String,user:String,passwd:String)

　　val mysqlDB = DBInformation("jdbc:mysql://...."，schema,user,passowrd)

　　val tableName = mysqlDB.schema + "." + name

　　val props = new Properties()

　　props.setProperty("user",mysqlDB.user)

　　props.setProperty("password",mysqlDB.passwd)

　　props.setProperty(JDBCOptions.JDBC_DRIVER_CLASS，"com.mysql.jdbc.Driver")

　　val record = session.read.jdbc(mysqlDB.url,tableName,props).filter(row => row.getAs[Int]("app_id") == appId).take(1)

　　//第一次写入，木有数据

　　if（0 == record.size){

　　　　DBInfoMation(null,null,null)

　　}else{

　　　　DBInfoMation(record(0).getTimestmap(1),recode(0).getTimestamp(2),recode(0)..getTimestamp(3))　　

　　3、注册UDF，由于原来是用oracle的语法，现如今转为sparksql,需要注册一些UDF，来兼容原有oracle的函数

　　def registerUDF(session:SparkSession) : Unit = {

　　　　session.udf.register("UDF",(value : String,modifieds:Array[String) => {

　　　　　　val filter = modifieds.filter(_!=null)

　　　　　　if(!filter.isEmpty){

　　　　　　　　filter.max

　　　　　　}else{

　　　　　　　　null

　　　　　　}

　　　　　})

　　　{

　　4、很多计算是需要过往的历史数据的，在第一次初始化的时候，先对历史数据进行缓存。这里有个知识点，会将一直计算的同步数据进行checkPoint落地磁盘，如果发现历史时间在同步时间之后，则加载历史数据，否则就加载同步数据。

　　val (updateTime,initData) = if(historyTime.after(syncTime)){

　　　　（historyTime,initFromHistory(tableName)）

　　} else {

　　　　(syncTime,initFromCheckPoint(syncTime))

　　}

　　//记录schema

　　schema = initData.schema

　　//baseData为缓存在内存的数据,并根据数据量进行repartition

　　baseData = initData.repartition(numPartitions,_partitionColumns.map(new Column()):_*).rdd.persisit(storageLevel)

　　//触发action动作

　　baseData.foreach(_=>Unit)

　　5、有一种情况，下游三个表要关联生成一张大表，这三张表的数据来源于消息中间件中的三个topic,但是数据可能不是同时到来，那么就需要将历史加载的大表拆根据ID拆分为三个小表，然后逐个append到三个小表上，随后再根据ID关联起来，再组成最终表。

　　val table1 = new createUpdatingTable(session,"tableName1",topicConf,numPartitons,...)

　　val table2 = new createUpdatingTable (session,"tableName2",topicConf1,numPartitions,...)

　　val table3 = new createUpdatingTable(session,"tableName3","topicConf2,numPartitions,...)

　　val mergeBaseTable = (session,"mergeTableName",Array(table1,table2,table3),finallyColumn,finallyPartitions...)

　　mergeBaseTable.updateAndGetData(Some(genDataFilter(currentTime)))

　　//三表拆分与合并

　　val tmpPartitionKey = "pd_code"

　　if(baseData != null) {

　　　　val oldData = getOldData(baseData,keyDF.rdd,tmpPartitionKey)

　　　　oldDf = session.createDataFrame(oldData,schema)

　　　　.repartition(numPartitions,new Column(tmpPartitionKey))

　　　　.persist(storageLevel)

　　}

　　val table1 = updateShardTable(oldDf,inDfs(0)...).sparksession.createDataFrame(data,schema)

　　val table2 = ....

　　val table3 = ....

　　6、三表key进行合并，通过sql进行三来源表合并

　　val keySet = keys.collect()

　　val broadcastKeys = session.sparkContext.broadCast(keySet)

　　baseData.mapPartitions({iter =>

　　　　val set = broadcastKey.value.toSet

　　　　iter.filter(row=>set.contains(row.getAs[Any](keyCol)))

　　},true)

　　val sql ="select a.column,b.column,c.column.... from table1 a left join table2 b on a.pd_code = b.pd_code......

　　val finallyTable = session.sql(sql)

　　7、从历史数据中筛选出此次需要更新的数据（通过ID进行过滤），随后将新数据进行append

　　val new Data = baseData.zipPartitions(updateData，true){case（liter,riter）=>

　　　　val rset = new mutable.HashSet[Any]

　　　　for(row <- riter){

　　　　　　rset.add(row.getAs[Any](keyCol))

　　　　}

　　　　liter.filter(row=>!rset.contains(row.getAs[Any](keyCol))))

　　　　}.zipPartitions(updateData,true){case (liter,riter)=>

　　　　　　liter++riter

　　　　}.persisit(storageLevel)

sparksql工程小记的更多相关文章

IDEA引入Gradle工程小记
1.首先IDEA要在该工程Settings中配置本地安装的Gradle,配好其home目录,注意目录到根目录即可,不要到bin一级,否则提示错误,无法使用: 2.配置好后会自动侦测Gradle项目,点 ...
工程优化暨babel升级小记
小记背景随着业务代码的增多,项目代码的编译时长也在增多,遂针对这个痛点在dev下做些优化第一部分:优化dev编译时间这里优化的主要思路是在dev环境下,单独出来一个dll配置文件,将项目中的部分 ...
小记--------sparksql和DataFrame的小小案例java、scala版本
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame.同时,sparksql还可以作为分布式的sql查询引擎. 最最重要的功能就是从 ...
KEIL工程中头文件包含的一些小记
@2018-4-25 11:02:27 > 源文件包含自身头文件无须指出其路径
linux 下cmake 编译 ,调用,调试 poco 1.6.0 小记
上篇文章小记了: 关于 Poco::TCPServer框架 (windows 下使用的是 select模型) 学习笔记. http://www.cnblogs.com/bleachli/p/4352 ...
开发Android系统内置应用小记
Android系统内置应用可以使用更多的API.更高的权限,与开发普通应用最大的差别在于编译,内置应用编译需要用到Android.mk文件.下面是我在开发过程中的一些小记. 1.在AndroidMai ...
Cocos2d-x项目移植到WinRT/Win8小记
Cocos2d-x项目移植到WinRT/Win8小记作者: K.C. 日期: 11/17/2013 Date: 2013-11-17 23:33 Title: Cocos2d-x项目移植到WinRT ...
Cocos2d-x项目移植到WP8小记
Cocos2d-x项目移植到WP8小记作者: K.C. 日期: 10/24/2013 Date: 2013-10-24 00:33 Title: Cocos2d-x项目移植到WP8小记 Tags: ...
xcode6制作IOS .a静态库小记
xcode6制作IOS .a静态库小记创建iOS静态库简单写个打印的代码编码完成之后,直接Run就能成功生成.a文件了,选择 xCode->Window->Organizer-> ...

随机推荐

【Asp.net Core】在 Linux 子系统中安装 nginx 并配置反向代理
上一篇鸟文中,老周已经介绍过在 Ubuntu 子系统中安装 dotnet-sdk 的方法,本文老周给大伙伴们说说安装 nginx 服务,并配置反向代理.同样,老周假设你从来没有用过 Linux,所以老 ...
g4e基础篇#6 了解Git历史记录
章节目录前言 1. 基础篇: 为什么要使用版本控制系统 Git 分布式版本控制系统的优势 Git 安装和设置了解Git存储库(Repo) 起步 1 – 创建分支和保存代码起步 2 – 了解Git ...
java进行图片和字符串的互相转换
今天做项目,突然发现图片居然能转成字符串,字符串也能转成图片. 接下来让我们进行代码演示吧! /** * 字符串转图片 * @param imgStr --->图片字符串 * @param fi ...
[转]怎么查看和修改 MySQL 的最大连接数？
使用 MySQL 数据库的站点,当访问连接数过多时,就会出现 "Too many connections" 的错误.出现这种错误有两种情况,一种是网站访问量实在太大,服务器已经负担 ...
Spring中Quartz的配置及corn表达式
Quartz可以用来执行任务调度功能,如间隔一定时间调用执行任务.用起来还是蛮方便的.只要将你要调用的类配置到Spring配置文件即可. 在Spring的配置文件中配置Quartz. <!-- ...
Using $this when not in object context in
错误信息:$this引用没有上下文原因:在PHP5中,static声明的静态方法里不可以使用$this 需要使用self来引用当前类中的方法或是变量. 引用的方法里不可以带$this(示例代码中为g ...
【转】python入门指引
http://matrix.42qu.com/10757179 前言其实我也不知道python怎么入门,由我来写这个真的不是很合适.我学python是直接找了dive into python来看.然 ...
【转】shell学习笔记（二） ——shell变量
在shell中有3种变量:系统变量,环境变量和用户变量,其中系统变量在对参数判断和命令返回值判断时会使用,环境变量主要是在程序运行时需要设置,用户变量在编程过程中使用量最多. 1 系统变量变量名 ...
win10 store 无法连接网络
当你试过所有的解决攻略都无效时,那么使用这个教程关闭以下的蓝色框里的
选择结构if、switch
选择结构if.switch 一.if三种形式 if if-else 3.if -else if -else 二.switch 针对某个表达式的值做出判断,成为决定执行代码块 switch 语句特点: ...

sparksql工程小记

sparksql工程小记的更多相关文章

随机推荐

热门专题