1. 通常利用SparkSQL将离线或实时流数据的SparkRDD数据写入Hive,一般有两种方法。第一种是利用org.apache.spark.sql.types.StructType和org.apache.spark.sql.types.DataTypes来映射拆分RDD的值;第二种方法是利用rdd和Java bean来反射的机制。下面对两种方法做代码举例

2. 利用org.apache.spark.sql.types.StructType和org.apache.spark.sql.types.DataTypes来映射拆分RDD的值

		JavaRDD<Row> resultRdd = rdd.map(new Function<String[], Row>() {
@Override
public Row call(String[] line) throws Exception {
if (line != null && line.length > 0) {
return helper.createRow(line);
}
return null;
}
}); StructType structType = helper.createSchame();
Dataset<Row> dataFrame = session.createDataFrame(resultRdd, structType);
DataFrameWriter<Row> writer = dataFrame.coalesce(1).write().format(TableHelperInter.TABLE_FORMAT_TYPE).mode(SaveMode.Append);
String tableName = hiveDataBaseName + "." + helper.getTableName();
writer.insertInto(tableName);

这种方法的有点是写入简单,不必去考虑字段映射有误,但缺点是需要去写一个TableHelperInter,而且这种方式对字段的类型要求严格,在做字段类型和字段校验时比对时一旦字段过多会及其复杂,所以不推崇这种写法

3. 利用rdd和Java bean来反射

来一个完整的程序

public class SparkSQLTest {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setMaster("yarn").setAppName("SparkSQL_test");
JavaSparkContext sc = new JavaSparkContext(conf); String line = "1102,jason,20,male,15927384023,developer,col7,col8,col9,col10,col11,col12,col13,col14,col15,col16,col17,col18,col19,col20";
String line2 = "1103,jason1,21,male,15927352023,developer1,col7,col8,col9,col10,col11,col12,col13,col14,col15,col16,col17,col18,col19,col20"; List<String> list = new ArrayList<String>();
list.add(line);
list.add(line2); JavaRDD<String> rdd = sc.parallelize(list);
JavaRDD<Person> rddResult = rdd.map(new Function<String, Person>() {
@Override
public Person call(String s) throws Exception {
String[] message = s.split(",");
Person person = new Person();
person.setNo(message[0]);
person.setName(message[1]);
person.setAge(message[2]);
person.setGender(message[3]);
person.setPhone(message[4]);
person.setJob(message[5]);
person.setCol7(message[6]);
person.setCol8(message[7]);
person.setCol9(message[8]);
person.setCol10(message[9]);
person.setCol11(message[10]);
person.setCol12(message[11]);
person.setCol13(message[12]);
person.setCol14(message[13]);
person.setCol15(message[14]);
person.setCol16(message[15]);
person.setCol17(message[16]);
person.setCol18(message[17]);
person.setCol19(message[18]);
person.setCol20(message[19]);
person.setCreate_time_p(DateTimeFormatter.ofPattern("yyyyMMdd").format(LocalDate.now())); return person;
}
}); //这行代码必须在实例SparkSession不然会出错
SparkSession.clearDefaultSession();
SparkSession session = SparkSession.builder()
.config("hive.metastore.uris", "localhost:9083")
.config("spark.sql.warehouse.dir", "/apps/hive/warehouse")
.config("hive.exec.dynamic.partition", true)
.config("spark.sql.sources.partitionColumnTypeInference.enabled", false)
.config("hive.exec.dynamic.partition.mode", "nonstrict")
.enableHiveSupport()
.getOrCreate(); Dataset dataset = session.createDataFrame(rddResult,Person.class);
dataset.registerTempTable("person_temp_table");
session.sql("insert into qwrenzixing.person_table20 partition (create_time_p="+DateTimeFormatter.ofPattern("yyyyMMdd")
.format(LocalDate.now())+") select no,name,age,gender,phone,job,col7,col8,col9,col10,col11,col12,col13,col14,col15,col16,col17,col18,col19,col20 from person_temp_table");
}
}

这种方法比较简洁,为了避免去做繁琐的字段比对和校验。可以将字段类型以string写入hive。同时通过SparkSession操作SQL的方法是spark2.0后的。这里是将dataset写成一张临时表,再将临时表的值查询出来insert into到hive表中。但将DataSet通过SparkSQL写成一张临时表的操作,Spark原生提供了四个关于这种操作API

dataset.registerTempTable("temp_table");
dataset.createGlobalTempView("temp_table");
dataset.createOrReplaceTempView("temp_table");
dataset.createTempView("temp_table");

4. 关于这四个将DataSet写成一张临时表的作用和坑点

1>. dataset.registerTempTable("temp_table")这个方法建议在离线,批处理中使用,在实时流式计算中会导致后续写入hive值与字段不匹配乱序的问题

2>. dataset.createGlobalTempView("temp_table")这个方法是创建一个全局临时表,意思就是别的spark-submit也可以用,这种场景很少,而且无法用在实时流式计算中,因为创建一次表后不能再创建会包表已经存在的错误

3>. dataset.createOrReplaceTempView("temp_table");这个其实比较好理解,如果存在就覆盖

4>. dataset.createTempView("temp_table"); 这个方法当spark程序没有结束时不能重复创建

这里的创建临时表在spark程序结束后临时表不存在,所以spark streaming程序要特别注意用法

5. 关于Spark SQL的一个坑点

在mysql中insert into有两种方式

INSERT INTO table_name VALUES (value1, value2,....)
INSERT INTO table_name (column1, column2,...) VALUES (value1, value2,....)

要注意第二种写法在SparkSQL会报错,SparkSQL不支持这种写法,只支持第一种写法。这个是为什么其实也很好理解,每个人想法不一样。第一次使用要避免这个坑点

最后附上我在利用SparkSQL将kafka数据写入hive的重要环节的代码:

		String tableName = hiveDataBaseName + ".test_data";
Dataset dataFrame = session.createDataFrame(resultRdd, SJGJEntity.class);
// createOrReplaceTempView API方式将数据写入hive 不存在值与字段名错乱的问题
dataFrame.createOrReplaceTempView("temp_table"); session.sql("insert into " + tableName + " partition(create_time_p=" + DateTimeFormatter.ofPattern("yyyyMMdd").format(LocalDate.now())
+ ") select base_name,base_num,serviceCode,phoneno,called_phoneno,call_time,call_longth,lac,ci,xpoint,ypoint,imei,imsi,insert_time,call_address," + "source_table,mark_type,companyId,type,createKafkaTime from temp_table");

利用SparkSQL(java版)将离线数据或实时流数据写入hive的用法及坑点的更多相关文章

  1. kafka实时流数据架构

    初识kafka https://www.cnblogs.com/wenBlog/p/9550039.html 简介 Kafka经常用于实时流数据架构,用于提供实时分析.本篇将会简单介绍kafka以及它 ...

  2. java版gRPC实战之四:客户端流

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  3. java版gRPC实战之五:双向流

    欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...

  4. 大数据-07-Spark之流数据

    摘自 http://dblab.xmu.edu.cn/blog/1084-2/ 简介 DStream是Spark Streaming的编程模型,DStream的操作包括输入.转换和输出. Spark ...

  5. 利用AJAX JAVA 通过Echarts实现豆瓣电影TOP250的数据可视化

    mysql表的结构   数据(数据是通过爬虫得来的,本篇文章不介绍怎么爬取数据,只介绍将数据库中的数据可视化):   下面就是写代码了: 首先看一下项目目录:   数据库层   业务逻辑层   pac ...

  6. Java后端开发工程师是否该转大数据开发?

    撰写我对java后端开发工程师选择方向的想法,写给在java后端选择转方向的人 背景 看到一些java开发工程师,对java后端薪酬太悲观了.认为换去大数据领域就会高工资.觉得java后端没有前途.我 ...

  7. Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

        你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...

  8. GoldenGate实时投递数据到大数据平台(3)- Apache Flume

    Apache Flume Flume NG是一个分布式.可靠.可用的系统,它能够将不同数据源的海量日志数据进行高效收集.聚合,最后存储到一个中心化数据存储系统中,方便进行数据分析.事实上flume也可 ...

  9. 使用Oracle Stream Analytics 21步搭建大数据实时流分析平台

    概要: Oracle Stream Analytics(OSA)是企业级大数据流实时分析计算平台.它可以通过使用复杂的关联模式,扩充和机器学习算法来自动处理和分析大规模实时信息.流式传输的大数据可以源 ...

随机推荐

  1. Quartz.Net 任务调度之简单任务(1)

    本文github链接 https://github.com/sunshuaize/cnBlogDemos/tree/master/Quartz.Net%20%E4%BB%BB%E5%8A%A1%E8% ...

  2. SSD接口详解,再也不会买错固态硬盘了

    http://stor.51cto.com/art/201808/582349.htm 硬盘知识科普中,我们提到了SSD的发展史虽短,但是种类和协议比HDD不知道多到哪里去了.因此,本期小编就通过接口 ...

  3. Mybatis基于接口注解配置SQL映射器(二)

    Mybatis之增强型注解 MyBatis提供了简单的Java注解,使得我们可以不配置XML格式的Mapper文件,也能方便的编写简单的数据库操作代码.但是注解对动态SQL的支持一直差强人意,即使My ...

  4. 如何在程序中执行动态生成的Delphi代码

    如何在程序中执行动态生成的Delphi代码 经常发现有人提这类问题,或者提问内容最后归结成这种问题 前些阵子有位高手写了一个“执行动态生成的代码”,这是真正的高手,我没那种功力,我只会投机取巧. 这里 ...

  5. configure: error: invalid variable name: `-prefix'

    configure: error: invalid variable name: `-prefix'其实就是写法的问题 正确写法 把prefix前面的"-"改成“--”

  6. Linux内核学习-进程

    先说几个术语: 一.Linux进程的五个段 下面我们来简单归纳一下进程对应的内存空间中所包含的5种不同的数据区都是干什么的.重点:代码段.数据段.堆栈段,这是一个概念堆.栈.全局区.常量区,这是另一个 ...

  7. ASP.NET MVC 分页之HtmlHelper

    using System; using System.Collections.Generic; using System.Linq; using System.Security.Cryptograph ...

  8. Django2.0中得url路由path得用法

    Django2.0中,url得匹配规则更新了,在django1.0中,url是用正则表达式书写得,相对来说比较繁琐一些,在django2.0中进行了升级优化,改为了path from django.u ...

  9. python locust_TaskSet声明任务的典型方法是使用task装饰器的两种方法

    为TaskSet声明任务的典型方法是使用task装饰器.该min_wait和MAX_WAIT属性也可以在使用taskset类中重写. from locust import Locust, TaskSe ...

  10. form表单submit事件

    form表单submit事件同时会触发form表单中button按钮的click事件 <!DOCTYPE html> <html> <head> <meta ...