Spark 覆盖写Hive分区表,只覆盖部分对应分区

要求Spark版本2.3以上，亲测2.2无效

配置

config("spark.sql.sources.partitionOverwriteMode","dynamic")

注意

1、saveAsTable方法无效，会全表覆盖写，需要用insertInto，详情见代码

2、insertInto需要主要DataFrame列的顺序要和Hive表里的顺序一致，不然会数据错误！

package com.dkl.blog.spark.hive

import org.apache.spark.sql.SparkSession

/**

Created by dongkelun on 2020/1/16 15:25
博客：Spark 覆盖写Hive分区表,只覆盖部分对应分区
要求Spark版本2.3以上

*/

object SparkHivePartitionOverwrite {

def main(args: Array[String]): Unit = {

val spark = SparkSession

.builder()

.appName("SparkHivePartitionOverwrite")

.master("local")

.config("spark.sql.parquet.writeLegacyFormat", true)

.config("spark.sql.sources.partitionOverwriteMode","dynamic")

.enableHiveSupport()

.getOrCreate()

import spark.sql

val data = Array(("001", "张三", 21, "2018"), ("002", "李四", 18, "2017"))

val df = spark.createDataFrame(data).toDF("id", "name", "age", "year")

//创建临时表

df.createOrReplaceTempView("temp_table")

val tableName="test_partition"

//切换hive的数据库

sql("use test")

// 1、创建分区表，并写入数据

df.write.mode("overwrite").partitionBy("year").saveAsTable(tableName)

spark.table(tableName).show()

val data1 = Array(("011", "Sam", 21, "2018"))

val df1 = spark.createDataFrame(data1).toDF("id", "name", "age", "year")

// df1.write.mode("overwrite").partitionBy("year").saveAsTable(tableName) //不成功，全表覆盖

// df1.write.mode("overwrite").format("Hive").partitionBy("year").saveAsTable(tableName) //不成功，全表覆盖

df1.write.mode("overwrite").insertInto(tableName)

spark.table(tableName).show()

spark.stop

}

}

结果

+---+----+---+----+

| id|name|age|year|

+---+----+---+----+

|002| 李四| 18|2017|

|001| 张三| 21|2018|

+---+----+---+----+

+---+----+---+----+

| id|name|age|year|

+---+----+---+----+

|011| Sam| 21|2018|

+---+----+---+----+

Spark 覆盖写Hive分区表,只覆盖部分对应分区的更多相关文章

解决Spark读取Hive分区表出现Input path does not exist的问题
假设这里出错的表为test表. 现象 Hive读取正常,不会报错,Spark读取就会出现: org.apache.hadoop.mapred.InvalidInputException: Input ...
Hive分区表的导入与导出
最近在做一个小任务,将一个CDH平台中Hive的部分数据同步到另一个平台中.毕竟我也刚开始工作,在正式开始做之前,首先进行了一段时间的练习,下面的内容就是练习时写的文档中的内容.如果哪里有错误或者疏漏 ...
spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API.Da ...
Hadoop: the definitive guide 第三版拾遗第十二章之Hive分区表、桶
Hive分区表在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作.有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念.分区表指的是在创建表时指 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
Hive分区表新增字段及修改表名，列名，列注释，表注释，增加列，调整列顺序，属性名等操作
一.Hive分区表新增字段参考博客:https://blog.csdn.net/yeweiouyang/article/details/44851459 二.Hive修改表名,列名,列注释,表注释, ...
HADOOP+SPARK+ZOOKEEPER+HBASE+HIVE集群搭建(转)
原文地址:https://www.cnblogs.com/hanzhi/articles/8794984.html 目录引言目录一环境选择 1集群机器安装图 2配置说明 3下载地址二集群的相关 ...
hive 分区表
hive中创建分区表没有什么复杂的分区类型(范围分区.列表分区.hash分区.混合分区等).分区列也不是表中的一个实际的字段,而是一个或者多个伪列.意思是说在表的数据文件中实际上并不保存分区列的信息与 ...
Spark如何读写hive
原文引自:http://blog.csdn.net/zongzhiyuan/article/details/78076842 hive数据表建立可以在hive上建立,或者使用hiveContext.s ...
【HIVE & Spark】将hive引擎换成Spark，运行速度快！怎么换？请看本文
本教程仅仅是使用spark,能在hive用就行. 1.下载Spark; 2.WinSCP上传spark压缩包到虚拟机: 3.tar -zxvf spark-2.3.3-bin-without-hado ...

随机推荐

高效技巧揭秘：Java轻松批量插入或删除Excel行列操作
摘要:本文由葡萄城技术团队原创并首发.转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 前言在职场生活中,对Excel工作表的行和列进行操作是非常普遍的需求 ...
（Good topic）卡牌分组（3.27leetcode每日打卡）
给定一副牌,每张牌上都写着一个整数. 此时,你需要选定一个数字 X,使我们可以将整副牌按下述规则分成 1 组或更多组: 每组都有 X 张牌. 组内所有的牌上都写着相同的整数. 仅当你可选的 X &g ...
go基础-方法
概述方法是面向对象编程 (OOP) 的一个特性,在 C++/Java 语言中方法是类函数,go做为函数式编程语言,通过特有技能支持相似的功能,所以说go也支持面向对象编程特性. go 方法本质也是函 ...
Miniconda安装及搭建
Miniconda安装配置下载Miniconda Miniconda下载地址最新版 Miniconda For Windows 下载链接 Windows 安装配置修改Powershell执行策略 ...
Proj4：改进LiteOS中物理内存分配算法
Proj4:改进LiteOS中物理内存分配算法实验目的掌握LiteOS系统调用的自定义方法实验环境 Ubantu和IMX6ULL mini 实验内容 (从代码角度详细描述实验的步骤和过程) 原先 ...
Windows风格的个人网盘，支持文档在线编辑
这是一个Windows页面风格的个人网盘,支持普通文本.文档.表格.xmind等在线编辑,支持Windows的小组件,例如计算器.WhiteBoard.python 等,其他更多功能待你来发现,也待你 ...
[ABC327G] Many Good Tuple Problems
题目链接简化题意:有一个 $n$ 个点的图,问有多少个长度为 $M$ 的边序列,满足连边后图是二分图. $n\le 30,m\le 10^9$ 考虑先强制要求无重边. 定义 \(f_{i ...
[ABC309Ex] Simple Path Counting Problem
Problem Statement We have a grid with $N$ rows and $M$ columns. We denote by $(i,j)$ the cell in the ...
erp——绩效考核系统——数据需求说明书
绩效考核--数据需求说明书 1.引言 1.1编写目的数据要求说明书详细的提供了系统中各个数据的流向,是设计数据库的关键所在,为以后的编码以及测试提供一份可靠的依据. 1.2 对象本<数据要求 ...
算法与数据结构——kpm算法

Spark 覆盖写Hive分区表,只覆盖部分对应分区

Spark 覆盖写Hive分区表,只覆盖部分对应分区的更多相关文章

随机推荐

热门专题