一、SparkSQL访问Hive源

软件环境

hadoop2.7.6

spark-2.3.0

scala-2.11.12

hive-2.1.1

SparkSQL命令行模式可以直接连接Hive的

将hive目录中的 D:\Soft\apache-hive-2.1.1-bin\conf\hive-site.xml 文件拷贝贝到 D:\Soft\spark\conf spark目录中

D:\soft\spark\jars 目录中放 mysql-connector-java-5.1.30.jar 包

Java程序SparkSQL连接Hive

1）将hive目录中的 D:\Soft\apache-hive-2.1.1-bin\conf\hive-site.xml 文件拷贝到 \src\main\resources 资源目录中

2）添加依赖

 <dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-hive_2.11</artifactId>

      <version>2.3.1</version>

      <scope>provided</scope>

    </dependency>

 <dependency>

      <groupId>mysql</groupId>

      <artifactId>mysql-connector-java</artifactId>

      <version>5.1.30</version>

    </dependency>

3）创建SparkSession

 /**

     * SparkSession

     * 支持数据源：hive

     * @return

     */

    public static SparkSession getSparkSessionForHive() {

        return SparkSession

                .builder()

                .appName("SparkSQLForHive")

                .master("local[*]")

                .enableHiveSupport()

                .getOrCreate();

    }

测试代码

 public static void main(String[] args) {

        SparkSession spark = SparkUtil.getSparkSessionForHive();

        spark.sql("show tables").show();

        spark.sql("select * from test1").show();

    }

运行结果

18/11/18 22:36:44 INFO CodeGenerator: Code generated in 234.231366 ms

18/11/18 22:36:44 INFO CodeGenerator: Code generated in 11.285122 ms

+--------+--------------+-----------+

|database|     tableName|isTemporary|

+--------+--------------+-----------+

| default|bucket_persion|      false|

| default|   bucket_temp|      false|

| default|         hdfs1|      false|

| default|         hdfs2|      false|

| default|           pt1|      false|

| default|        tbcsv1|      false|

| default|        tbcsv2|      false|

| default|         test1|      false|

| default|  test_table_2|      false|

+--------+--------------+-----------+

.........

18/11/18 22:36:46 INFO Executor: Finished task 0.0 in stage 0.0 (TID 0). 1346 bytes result sent to driver

18/11/18 22:36:46 INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 237 ms on localhost (executor driver) (1/1)

18/11/18 22:36:46 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool

18/11/18 22:36:46 INFO DAGScheduler: ResultStage 0 (show at redHive.java:14) finished in 0.313 s

18/11/18 22:36:46 INFO DAGScheduler: Job 0 finished: show at redHive.java:14, took 0.352593 s

+-------+---+-------+------+

|   name|age|address|school|

+-------+---+-------+------+

|    chy|  1|     芜湖|    示范|

|    zjj|  2|     南京|    南开|

|gaoxing|  3|    马鞍山|   安工大|

+-------+---+-------+------+

18/11/18 22:36:46 INFO SparkContext: Invoking stop() from shutdown hook

二、SparkSQL访问MySql源

Spark环境

spark-2.3.0

添加依赖

<dependency>

      <groupId>org.apache.spark</groupId>

      <artifactId>spark-sql_2.11</artifactId>

      <version>2.3.0</version>

</dependency>

<dependency>

      <groupId>mysql</groupId>

      <artifactId>mysql-connector-java</artifactId>

      <version>5.1.22</version>

</dependency>

创建SparkSession

/**

     * SparkSession

     * 支持数据源：textFile,load,csv,json,text,format,jdbc

     * @return

     */

    public static SparkSession getSparkSession() {

        return SparkSession

                .builder()

                .appName("SparkSQL")

                .master("local[*]")

                .getOrCreate();

    }

访问Mysql方式1：

public static void test(){

        String url="jdbc:mysql://localhost:3306/sparksql?user=root&password=123456";

        String tableName="users";

        SparkSession spark= SparkUtil.getSparkSession();

        Map<String,String> map=new HashMap<>();

        map.put("driver","com.mysql.jdbc.Driver");

        map.put("url",url);

        map.put("dbtable",tableName);

        map.put("fetchSize","100");

        //读取users信息

        Dataset<Row> jdbcDF = spark.read()

                .format("jdbc")

                .options(map)

                .load();

        //读取users信息,保存到users_copy表

        jdbcDF.write()

                .format("jdbc")

                .option("url", url)

                .option("dbtable", "users_copy")

                .save();

}

访问Mysql方式2：

public static void test2(){

        String url="jdbc:mysql://localhost:3306/sparksql";

        String tempTableName=" (select id,name from users) as u";

        SparkSession spark= SparkUtil.getSparkSession();

        Properties connectionProperties = new Properties();

        connectionProperties.put("user", "root");

        connectionProperties.put("password", "123456");

        connectionProperties.put("isolationLevel","REPEATABLE_READ");

        //读取users信息

        Dataset<Row> jdbcDF2 = spark.read()

                .jdbc(url, tempTableName, connectionProperties);

        //读取users信息，保存到users1表

        jdbcDF2.write()

                .jdbc(url, "users1", connectionProperties);

}

SparkSQL访问Hive源，MySQL源的更多相关文章

spark on yarn模式下配置spark-sql访问hive元数据
spark on yarn模式下配置spark-sql访问hive元数据目的:在spark on yarn模式下,执行spark-sql访问hive的元数据.并对比一下spark-sql 和hive ...
spark-sql访问hive的问题记录
好久没有弄博客了... hive0.14 spark0.12 [hadoop@irs bin]$ ./spark-sql Spark assembly has been built with Hive ...
SparkSQL On Yarn with Hive，操作和访问Hive表
转载自:http://lxw1234.com/archives/2015/08/466.htm 本文将介绍以yarn-cluster模式运行SparkSQL应用程序,访问和操作Hive中的表,这个和在 ...
MySQL源码分析以及目录结构 2
原文地址:MySQL源码分析以及目录结构作者:jacky民工主要模块及数据流经过多年的发展,mysql的主要模块已经稳定,基本不会有大的修改.本文将对MySQL的整体架构及重要目录进行讲述. 源码结 ...
MySQL源码分析以及目录结构
原文地址:MySQL源码分析以及目录结构作者:jacky民工主要模块及数据流经过多年的发展,mysql的主要模块已经稳定,基本不会有大的修改.本文将对MySQL的整体架构及重要目录进行讲述. 源码结 ...
mysql源码编译安装
首先去官网http://dev.mysql.com/downloads/mysql/ 下载mysql源码.我下的是5.7.10 源码选择的是 Generic Linux (Architecture I ...
MySQL源码解析之执行计划
MySQL源码解析之执行计划 MySQL执行计划介绍 MySQL执行计划代码概览 MySQL执行计划总结一.MySQL执行计划介绍在MySQL中,执行计划的实现是基于JOIN和QEP_TAB这两个 ...
mysql源码解读之配置文件
要研究mysql,最好的资源莫过于源码了,所以本人打算通过调试源码的方式来深入理解mysql的点点滴滴.搭建mysql调试环境很简单,从官方下载mysql源码,利用cmake工具生成工程即可.为了方便 ...
Mysql源码分析--csv存储引擎
一直想分析下mysql的源码,开始的时候不知道从哪下手,先从csv的文件存储开始吧,这个还是比较简单的.我是用的是mysql5.7.16版本的源码. csv源码文件在mysql源码的mysql-5.7 ...

随机推荐

熬夜肝了一周！总结了这套对标阿里P8的java秘籍，限时发布3天！
前言最近老是有粉丝私信我说感觉自己学java越来越难了,这其中有刚毕业的应届生说自己的技术找不到满意的工作,也有在学校的大学习说找不到学习方式,更多的是正在工作的java开发人员说是现在的技术更新太 ...
C语言基础二维数组
(1)二位数组的定义int array[n][m],行下标的取值范围是0~n-1,列下标的取值范围是0~m-1,二维数组最大下标元素是array[n-1][m-1]:如定义一个3行4列的数组 int ...
YuebonCore 2021第一版发布，重构功能菜单模块
YuebonCore 2021.1.6 版本发布了,这是该软件 2021 年的首个版本更新. 对功能菜单模块进行重构,简化功能模块的新增配置,删除了原有的sys_function功能表,,优化sys_ ...
上传功能-弹窗实现-vue
-引入弹窗页面 import fileUpload from 'src/page/cuApplyManage/fileUpload.vue'; -页面布局 <div> <fileUp ...
解析SwiftUI布局细节（二）循环轮播+复杂布局
前言上一篇我们总结的主要是VStack里面的东西,由他延伸到 @ViewBuilder, 接着我们上一篇总结的我们这篇内容主要说的是下面的几点,在这些东西说完后我准备解析一下苹果在SiwftUI文档 ...
Kubernetes官方java客户端之五：proto基本操作
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Spring的自动装配与依赖注入
Spring的自动装配与依赖注入装配 = 创建Bean + 注入Bean 创建Bean 自动发现显式注册Bean 注入Bean 基于配置的注入自动注入 Spring的装配分为显式装配和隐式装配, ...
【SpringBoot1.x】SpringBoot1.x 检索
SpringBoot1.x 检索文章源码概念 Elasticsearch 是一个分布式的开源搜索和分析引擎,适用于所有类型的数据,包括文本.数字.地理空间.结构化和非结构化数据.Elasticse ...
【C++】《Effective C++》第九章
杂项讨论条款53:不要轻忽编译器的警告请记住严肃对待编译器发出的警告信息.努力在你的编译器的最高(最严苛)警告级别下争取"无任何警告"的容易. 不要过度依赖编译器的报警能力, ...
Netty与NIO
初识Netty Netty是由JBoss提供的一个Java的开源框架,是GitHub上的独立项目. Netty是一个异步的,基于事件驱动的网络应用框架,用于快速开发高性能.高可靠的网络IO程序. Ne ...

SparkSQL访问Hive源，MySQL源