spark 将dataframe数据写入Hive分区表

从spark1.2 到spark1.3，spark SQL中的SchemaRDD变为了DataFrame，DataFrame相对于SchemaRDD有了较大改变，同时提供了更多好用且方便的API。
DataFrame将数据写入hive中时，默认的是hive默认数据库，insertInto没有指定数据库的参数，本文使用了下面方式将数据写入hive表或者hive表的分区中，仅供参考。
1、将DataFrame数据写入到Hive表中
从DataFrame类中可以看到与hive表有关的写入Api有以下几个：

registerTempTable(tableName: String): Unit，
insertInto(tableName: String): Unit
insertInto(tableName: String, overwrite: Boolean): Unit
saveAsTable(tableName: String, source: String, mode: SaveMode, options: Map[String, String]): Unit

有很多重载函数，不一一列举
registerTempTable函数是创建spark临时表
insertInto函数是向表中写入数据，可以看出此函数不能指定数据库和分区等信息，不可以直接进行写入。
向hive数据仓库写入数据必须指定数据库，hive数据表建立可以在hive上建立，或者使用hiveContext.sql（“create table ...."）
下面语句是向指定数据库数据表中写入数据：

case class Person(name:String,col1:Int,col2:String)

val sc = new org.apache.spark.SparkContext

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

import hiveContext.implicits._

hiveContext.sql("use DataBaseName")

val data = sc.textFile("path").map(x=>x.split("\\s+")).map(x=>Person(x(0),x(1).toInt,x(2)))

data.toDF().insertInto("tableName")

创建一个case类将RDD中数据类型转为case类类型，然后通过toDF转换为DataFrame，调用insertInto函数时，首先指定数据库，使用的是hiveContext.sql("use DataBaseName")语句，就可以将DataFrame数据写入hive数据表中了

2、将DataFrame数据写入hive指定数据表的分区中
hive数据表建立可以在hive上建立，或者使用hiveContext.sql（“create table ...."），使用saveAsTable时数据存储格式有限，默认格式为parquet，可以指定为json，如果有其他格式指定，尽量使用语句来建立hive表。
将数据写入分区表的思路是：首先将DataFrame数据写入临时表，之后是由hiveContext.sql语句将数据写入hive分区表中。具体操作如下：

case class Person(name:String,col1:Int,col2:String)

val sc = new org.apache.spark.SparkContext

val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

import hiveContext.implicits._

hiveContext.sql("use DataBaseName")

val data = sc.textFile("path").map(x=>x.split("\\s+")).map(x=>Person(x(0),x(1).toInt,x(2)))

data.toDF().registerTempTable("table1")

hiveContext.sql("insert into table2 partition(date='2015-04-02') select name,col1,col2 from table1")

使用以上方式就可以将dataframe数据写入hive分区表了

spark 将dataframe数据写入Hive分区表的更多相关文章

spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
利用SparkSQL(java版)将离线数据或实时流数据写入hive的用法及坑点
1. 通常利用SparkSQL将离线或实时流数据的SparkRDD数据写入Hive,一般有两种方法.第一种是利用org.apache.spark.sql.types.StructType和org.ap ...
如何每日增量加载数据到Hive分区表
如何每日增量加载数据到Hive分区表 hadoop hive shell crontab 加载数据数据加载到Hive分区表(两个分区,日期(20160316)和小时(10))中每日加载前一天的日志 ...
将pandas的DataFrame数据写入MySQL数据库 + sqlalchemy
将pandas的DataFrame数据写入MySQL数据库 + sqlalchemy import pandas as pd from sqlalchemy import create_engine ...
Spark操作dataFrame进行写入mysql，自定义sql的方式
业务场景: 现在项目中需要通过对spark对原始数据进行计算,然后将计算结果写入到mysql中,但是在写入的时候有个限制: 1.mysql中的目标表事先已经存在,并且当中存在主键,自增长的键id 2. ...
Spark存储Parquet数据到Hive，对map、array、struct字段类型的处理
利用Spark往Hive中存储parquet数据,针对一些复杂数据类型如map.array.struct的处理遇到的问题? 为了更好的说明导致问题的原因.现象以及解决方案,首先看下述示例: -- 创建 ...
Pandas dataframe数据写入文件和数据库
转自:http://www.dcharm.com/?p=584 Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作,DataFr ...
hive中导入json格式的数据（hive分区表）
hive中建立外部分区表,外部数据格式是json的如何导入呢? json格式的数据表不必含有分区字段,只需要在hdfs目录结构中体现出分区就可以了 This is all according to t ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...

随机推荐

Linq 实现两个对象实例List之间的赋值
public class UserCopy { public class LoginEntity { public string UserName { get; set; } public strin ...
【Ubuntu】全局代理
配置代理,Ubuntu下是修改/etc/environment,在后面加入: http_proxy="http://****.com:8080/" https_proxy=&quo ...
动态添加的html元素绑定事件的方法
避免先写了DOM操作,但是元素是动态加载的,所以点击不生效,比较好的方法有两个: 1.动态添加的时候加行内事件,比如onclick="funcName()" 在js中写好方法名对应 ...
getIsDebuggable
/* * if set android:debuggable="true" in Manifest, return true. * if set android:debugga ...
windows 环境下 ping 加时间戳记日志
在c盘下面新建文件 ping.vbs 在 ping.vbs中输入代码如下: Dim args, flag, unsuccOut args="" otherout="&qu ...
【函数式】Monads模式初探——for解析式
for表达式是monad语法糖先看一组演示样例: case class Person(name: String, isMale: Boolean, children: Person*) val la ...
webApi之FromUri和FromBody区别
public Link GetLink([FromUri] FileRequest fileRequest) { if (ModelState.IsValid) { var xml = WebConf ...
ios开发之--仿购物类详情页面数量添加小功能
话不多说先上图:
【Android】java.lang.RuntimeException: java.lang.Throwable: A WebView method was called on thread 'JavaBridge'.
一.问题 Java调用JS事件出现 java.lang.RuntimeException: java.lang.Throwable: A WebView method was called on th ...
HttpClient（一）-- HelloWorld
一.简介 HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的.最新的.功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的 ...

spark 将dataframe数据写入Hive分区表

spark 将dataframe数据写入Hive分区表的更多相关文章

随机推荐

热门专题