前两天工作需求,要通过给的几个Oracle的视图把数据入到hive库中,很遗憾,使用的华为云平台的集区环境中并没有sqoop1,当然也并没有sqoop2,所以,想到的解决方案是使用spark读取Oracle在写入到hive表中;

1、首先,沟通了一个星期的数据库接口,是的,就是一个星期;拿到的结果为 10.111.50.7:1521/DB2,当然,数据库ip和服务名是我乱写的一个,格式是这样的;

  还附带了一条查询语句:select * from jzwh.ALARMS 就完了,这就完了?事实上并不是,在生产环境中但凡提到有ip,端口,就要考虑有没有防火墙的问题,我们这里是有的。。

  一般都会有的,当然这不属于开发的任务,需要相关同事提交申请,不累述了;

2、拿到接口之后代码如下:注:我使用的版本为spark 2.1.0,scala 2.11.8;spark2.0之前没有sparksession,2.0之前的版本的同学还请自行使用hiveContext

object dy_alarm_oracle2hive {
val spark = SparkSession.builder().appName("view2hive")
.enableHiveSupport().getOrCreate() import spark.sql def main(args: Array[String]): Unit = { OracleDateTypeInit.oracleInit()
val orclUrl = "jdbc:oracle:thin:@//10.111.11.1:1521/DYDB2";//用ip不用加@
val orclProperties = new Properties()
orclProperties.setProperty("user", "user")
orclProperties.setProperty("password", "password")
orclProperties.setProperty("driver", "oracle.jdbc.driver.OracleDriver") val predicates_day_hour = mk_predicates_day_hour() //表名可以使用子查询的方式
val table_name = s"(select * from jzwh.ALARM union all select * from jzwh.ALARM_history) a" spark.read.jdbc(orclUrl,table_name,predicates_day_hour,orclProperties)
.createOrReplaceTempView("ALARMS") insertTable("bx_alarm")
} def insertTable(table_name:String): Unit ={
val day = TimeTools.getTimeByNowDay(-1)
sql(
s"""
|insert overwrite table ${table_name} partition(p_day=${day})
|select *
| from ALARMS
""".stripMargin)
} def mk_predicates_day_hour():scala.Array[scala.Predef.String] = {
val day_1 = TimeTools.getTimeByNowDay_(-1)
val day = TimeTools.getTimeByNowDay_(0)
/*返回值例子:
*EVENTTIME >= to_date('2018-08-07 00','YYYY-MM-dd HH24') and EVENTTIME < to_date('2018-08-07 01','yyyy-MM-dd HH24')
* 注意判断23点到第二天的00点特殊情况
* */
val predicates_day_hour = (0 to 23).map {
i => {
if(i < 23){
(if (i < 10) s"${day_1} 0${i}" else s"${day_1} ${i}") -> (if ((i + 1) < 10) s"${day_1} 0${i + 1}" else s"${day_1} ${i + 1}")
}else{
s"${day_1} 23" -> s"${day} 00"
}
}
}.map{
case (start,end) => s" EVENTTIME >= to_date('${start}','YYYY-MM-dd HH24') and EVENTTIME < to_date('${end}','yyyy-MM-dd HH24')"
}.toArray
//返回scala.Array[scala.Predef.String]类型结果
predicates_day_hour
} }

使用到的几个工具类:

也是网上找的;

TimeTools :获取日期的工具类
public class TimeTools {
//获取当前时间的前后几个小时
public static String getTimeByHour(int hour) {
Calendar calendar = Calendar.getInstance();
calendar.set(Calendar.HOUR_OF_DAY, calendar.get(Calendar.HOUR_OF_DAY) + hour);
return new SimpleDateFormat("yyyy-MM-dd HH").format(calendar.getTime());
} //获取当前日期
public static String getTimeByNowDay(int day) {
Calendar calendar = Calendar.getInstance();
calendar.set(Calendar.DATE, calendar.get(Calendar.DATE) + day);
return new SimpleDateFormat("yyyyMMdd").format(calendar.getTime());
}
//获取当前日期
public static String getTimeByNowDay_(int day) {
Calendar calendar = Calendar.getInstance();
calendar.set(Calendar.DATE, calendar.get(Calendar.DATE) + day);
return new SimpleDateFormat("yyyy-MM-dd").format(calendar.getTime());
} //获取当前时间的前后几分钟
public static String getTimeByMinute(int minute) {
Calendar calendar = Calendar.getInstance();
calendar.add(Calendar.MINUTE, minute);
return new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(calendar.getTime());
}
}
												

spark读写Oracle、hive的艰辛之路(一)的更多相关文章

  1. spark读写Oracle、hive的艰辛之路(二)-Oracle的date类型

    近期又有需求为:导入Oracle的表到hive库中: 关于spark读取Oracle到hive有以下两点需要说明: 1.数据量较小时,可以直接使用spark.read.jdbc(orclUrl,tab ...

  2. Spark 读写hive 表

    spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...

  3. 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

    引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

  4. HADOOP+SPARK+ZOOKEEPER+HBASE+HIVE集群搭建(转)

    原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录 引言 目录 一环境选择 1集群机器安装图 2配置说明 3下载地址 二集群的相关 ...

  5. spark2.3.0 配置spark sql 操作hive

    spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...

  6. 使用Spark读写CSV格式文件(转)

    原文链接:使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号.在本文中的CSV格 ...

  7. Spark读写ES

    本文主要介绍spark sql读写es.structured streaming写入es以及一些参数的配置 ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spar ...

  8. Oracle/Hive/Impala SQL比较1

    5 Function      指数据库内置的function,不讨论UDF.另外,操作符都不比较了,区别不大.   5.1 数学函数 功能 Oracle Hive Impala ABS 绝对值,有 ...

  9. Spark读写HBase

    Spark读写HBase示例 1.HBase shell查看表结构 hbase(main)::> desc 'SDAS_Person' Table SDAS_Person is ENABLED ...

随机推荐

  1. How to sort HashSet in Java

    How to sort HashSet in Java 方法一:By Converting HashSet to List 方法二:By Converting HashSet to TreeSet i ...

  2. protobuf, python Enum

    继承enum.Enum的python class,其实是一个, name-value的关系,可以直接className(value)得到一个类.比如 import enum class xx(enum ...

  3. 2014百度之星 Information

    Information Time Limit: 6000/3000 MS (Java/Others)    Memory Limit: 32768/32768 K (Java/Others)Total ...

  4. Sitecore安全:访问权限

    由于Sitecore使用Core数据库中的项来定义其用户界面,因此您可以对该数据库中的项应用访问权限,以控制对CMS功能的访问.最常见的是,将用户置于预定义的Sitecore客户端角色中 Siteco ...

  5. Fiddler手机抓包不完全记录

    准备工作: 1.必须确保安装fiddler的电脑和手机在同一个wifi环境下 备注:如果电脑是笔记本当然最好;如果电脑用的是台式机,可以安装一个随身wifi,来确保台式机和手机在同一wifi环境下   ...

  6. GoF的23种设计模式之行为型模式的特点和分类(1)

    行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象都无法单独完成的任务,它涉及算法与对象间职责的分配. 行为型模式分为类行为模式和对象行为模式,前者采用继 ...

  7. java中String字符串

    一.定义String字符串 String字符串和char字符不同,char使用单引号,只能表示一个字符,字符串就是一段文本.String是个类.这个类使用final修饰,所以这个类是不可以继承扩充和修 ...

  8. Celery在Django中的使用介绍

    Celery在Django中的使用介绍 Celery简介 celery是一个简单.灵活且可靠的,处理大量消息的分布式系统,并且提供维护这样一个系统的必须工具. 它是一个专注于实时处理的任务队列,同时也 ...

  9. FPGA的电源选择重要性分析

    米尔Z-Turn Board 7Z010(20)板卡体验有感:IF"> FPGA的电源需求通常很复杂,因为FPGA有多达至少三种供电要求,为了实现可靠的系统性能,必须对这些要求排序. ...

  10. 【转载】C#中ArrayList集合类使用RemoveAt方法移除指定索引的元素

    ArrayList集合是C#中的一个非泛型的集合类,是弱数据类型的集合类,可以使用ArrayList集合变量来存储集合元素信息,任何数据类型的变量都可加入到同一个ArrayList集合中,在Array ...