spark读写Oracle、hive的艰辛之路（一）

前两天工作需求，要通过给的几个Oracle的视图把数据入到hive库中，很遗憾，使用的华为云平台的集区环境中并没有sqoop1，当然也并没有sqoop2，所以，想到的解决方案是使用spark读取Oracle在写入到hive表中；

1、首先，沟通了一个星期的数据库接口，是的，就是一个星期；拿到的结果为 10.111.50.7:1521/DB2，当然，数据库ip和服务名是我乱写的一个，格式是这样的；

　　还附带了一条查询语句：select * from jzwh.ALARMS 就完了，这就完了？事实上并不是，在生产环境中但凡提到有ip，端口，就要考虑有没有防火墙的问题，我们这里是有的。。

　　一般都会有的，当然这不属于开发的任务，需要相关同事提交申请，不累述了；

2、拿到接口之后代码如下：注：我使用的版本为spark 2.1.0，scala 2.11.8；spark2.0之前没有sparksession，2.0之前的版本的同学还请自行使用hiveContext

object dy_alarm_oracle2hive {

  val spark = SparkSession.builder().appName("view2hive")

    .enableHiveSupport().getOrCreate()

  import spark.sql

  def main(args: Array[String]): Unit = {

    OracleDateTypeInit.oracleInit()

    val orclUrl = "jdbc:oracle:thin:@//10.111.11.1:1521/DYDB2";//用ip不用加@

    val orclProperties = new Properties()

    orclProperties.setProperty("user", "user")

    orclProperties.setProperty("password", "password")

    orclProperties.setProperty("driver", "oracle.jdbc.driver.OracleDriver")

    val predicates_day_hour = mk_predicates_day_hour()

    //表名可以使用子查询的方式

    val table_name = s"(select * from jzwh.ALARM union all select * from jzwh.ALARM_history) a"

    spark.read.jdbc(orclUrl,table_name,predicates_day_hour,orclProperties)

      .createOrReplaceTempView("ALARMS")

    insertTable("bx_alarm")

 }

  def insertTable(table_name:String): Unit ={

    val day = TimeTools.getTimeByNowDay(-1)

    sql(

      s"""

         |insert overwrite table ${table_name} partition(p_day=${day})

         |select *

         | from ALARMS

      """.stripMargin)

  }

  def mk_predicates_day_hour():scala.Array[scala.Predef.String] = {

    val day_1 = TimeTools.getTimeByNowDay_(-1)

    val day = TimeTools.getTimeByNowDay_(0)

    /*返回值例子：

    *EVENTTIME >= to_date('2018-08-07 00','YYYY-MM-dd HH24') and EVENTTIME < to_date('2018-08-07 01','yyyy-MM-dd HH24')

    * 注意判断23点到第二天的00点特殊情况

    * */

    val predicates_day_hour = (0 to 23).map {

      i => {

        if(i < 23){

          (if (i < 10) s"${day_1} 0${i}" else s"${day_1} ${i}") -> (if ((i + 1) < 10) s"${day_1} 0${i + 1}" else s"${day_1} ${i + 1}")

        }else{

          s"${day_1} 23" -> s"${day} 00"

        }

      }

    }.map{

      case (start,end) => s" EVENTTIME >= to_date('${start}','YYYY-MM-dd HH24') and EVENTTIME < to_date('${end}','yyyy-MM-dd HH24')"

    }.toArray

    //返回scala.Array[scala.Predef.String]类型结果

    predicates_day_hour

  }

}

使用到的几个工具类：

也是网上找的；

TimeTools ：获取日期的工具类

public class TimeTools {

    //获取当前时间的前后几个小时

    public static String getTimeByHour(int hour) {

        Calendar calendar = Calendar.getInstance();

        calendar.set(Calendar.HOUR_OF_DAY, calendar.get(Calendar.HOUR_OF_DAY) + hour);

        return new SimpleDateFormat("yyyy-MM-dd HH").format(calendar.getTime());

    }

    //获取当前日期

    public static String getTimeByNowDay(int day) {

        Calendar calendar = Calendar.getInstance();

        calendar.set(Calendar.DATE, calendar.get(Calendar.DATE) + day);

        return new SimpleDateFormat("yyyyMMdd").format(calendar.getTime());

    }

    //获取当前日期

    public static String getTimeByNowDay_(int day) {

        Calendar calendar = Calendar.getInstance();

        calendar.set(Calendar.DATE, calendar.get(Calendar.DATE) + day);

        return new SimpleDateFormat("yyyy-MM-dd").format(calendar.getTime());

    }

    //获取当前时间的前后几分钟

    public static String getTimeByMinute(int minute) {

        Calendar calendar = Calendar.getInstance();

        calendar.add(Calendar.MINUTE, minute);

        return new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(calendar.getTime());

    }

}

spark读写Oracle、hive的艰辛之路（一）的更多相关文章

spark读写Oracle、hive的艰辛之路（二）-Oracle的date类型
近期又有需求为:导入Oracle的表到hive库中: 关于spark读取Oracle到hive有以下两点需要说明: 1.数据量较小时,可以直接使用spark.read.jdbc(orclUrl,tab ...
Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
HADOOP+SPARK+ZOOKEEPER+HBASE+HIVE集群搭建(转)
原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录引言目录一环境选择 1集群机器安装图 2配置说明 3下载地址二集群的相关 ...
spark2.3.0 配置spark sql 操作hive
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
使用Spark读写CSV格式文件（转）
原文链接:使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号.在本文中的CSV格 ...
Spark读写ES
本文主要介绍spark sql读写es.structured streaming写入es以及一些参数的配置 ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spar ...
Oracle/Hive/Impala SQL比较1
5 Function 指数据库内置的function,不讨论UDF.另外,操作符都不比较了,区别不大. 5.1 数学函数功能 Oracle Hive Impala ABS 绝对值,有 ...
Spark读写HBase
Spark读写HBase示例 1.HBase shell查看表结构 hbase(main)::> desc 'SDAS_Person' Table SDAS_Person is ENABLED ...

随机推荐

快速排序详解（C语言/python）
快速排序详解介绍: 快速排序于C. A. R. Hoare在1960年提出,是针对冒泡排序的一种改进.它每一次将需要排序的部分划分为俩个独立的部分,其中一个部分的数比的数都小.然后再按照这个方法对这 ...
Docker安装mysql、nginx、redis、tomcat
拉取mysql 5.7官方镜像 docker pull mysql:5.7 启动容器 docker run --name mysql5.7 -p 3306:3306 -e MYSQL_ROOT_PAS ...
Sitecore 8.2 扩展体验分析报告
本文简要介绍了如何为Experience Analytics创建自定义报告.在Sitecore术语中,我会说:创建新的报表维度和适当的报表以显示它们. 我们做的任务是:实现新的报告,显示不同网络浏览器 ...
docker封装mysql镜像
一.概述直接使用官方的镜像 docker pull mysql:5.7 但是mysqld.cnf并没有优化,还是默认的. 二.封装镜像创建目录 # dockerfile目录 mkdir -p /o ...
OpenGL学习 (一) - 简单窗口绘制
一.OpenGL 简介 OpenGL 本质: OpenGL(Open Graphics Library),通常可以认为是API,其包含了一系列可以操作图形.图像的函数.但深究下来,它是由Khronos ...
比较器Comparable和Comparator
在java中要实现自定义类的比较,提供了以下两个接口: Comparable(内部排序) int compareTo(Object obj);返回值为int,默认升序排序 Comparator(外部排 ...
VS2017 注册
Visual Studio 2017 序列号 Key 激活码 VS2017 注册码 Visual Studio 2017(VS2017) 企业版 Enterprise 注册码序列号:NJVYC-BM ...
[echart] webpack中安装和使用
安装echart npm install echarts --save 全量引入可以直接在项目代码中 require('echarts') 得到 ECharts. 官方示例 var echarts ...
CSS中：和：：
一个冒号是伪类,两个冒号是伪元素伪类可以独立于文档的元素来分配样式,且可以分配给任何元素,逻辑上和功能上类类似,但是其是预定义的.不存在于文档树中且表达方式也不同,所以叫伪类.伪元素所控制的内容和一 ...
js浏览器对象模型【BOM】(十三)
一.时间定时器1.超时调用setTimeout(fun,time) [返回一个唯一标识该超时调用的ID数值]参数:fun:要执行的函数time:设置第多少毫秒后执行fun函数 clearTime ...

spark读写Oracle、hive的艰辛之路（一）

spark读写Oracle、hive的艰辛之路（一）的更多相关文章

随机推荐

热门专题