Spark SQL metaData配置到Mysql

构造以spark为核心的数据仓库:

0.说明

在大数据领域，hive作为老牌的数据仓库比较流行，spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨，大不了我们用spark建立最新的数据仓库。

sparkSQL的发展历程表明了，spark本身就可以做数据仓库，而不需要hive。sparkSQL作为数据仓库其元数据放到了Derby中，一般生产环境不会用Derby，而是使用

MySQL或者postgreSQL.本文就是要告诉读者，如何将sparkSQL的元数据存放到mysql.

1.集群规划情况

mysql chinac244<-->chinac242,这两节点做了主主备份。

spark master chinac88<-->chinac82，这两节点做了HA

spark slave chinac88,chinac82,chinac27

2.配置文件(chinac27上修改，然后分发到集群)

解压后将$HIVE_HOME/conf/hive-site.xml 复制到$SPARK_HOME/conf/hive-site.xml

编辑此文件

 vim  $SPARK_HOME/conf/hive-site.xml

修改如下内容

<property>

    <name>javax.jdo.option.ConnectionURL</name>

    <value>jdbc:mysql://chinac244:3306/sparkmetadata?createDatabaseIfNotExist=true</value>

    <description>JDBC connect string for a JDBC metastore</description>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionDriverName</name>

    <value>com.mysql.jdbc.Driver</value>

    <description>Driver class name for a JDBC metastore</description>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionUserName</name>

    <value>root</value>

    <description>Username to use against metastore database</description>

  </property>

   <property>

    <name>javax.jdo.option.ConnectionPassword</name>

    <value>chinac</value>

    <description>password to use against metastore database</description>

  </property>

3.修改时间属性（没做）

然后修改Hive-site.xml中所有的时间属性，所有属性的单位为s(秒),删除s然后添加3个0,所有属性的单位为ms的删除ms,spark无法识别这些单位，而是把他们全当数字处理。

4.分发配置文件

    scp $SPARK_HOME/conf/hive-site.xml chinac82:$SPARK_HOME/conf/hive-site.xml

    scp $SPARK_HOME/conf/hive-site.xml chinac88:$SPARK_HOME/conf/hive-site.xml

5.重启spark集群

 [root@chinac88 ~]#  ${SPARK_HOME}/sbin/stop-all.sh

 [root@chinac88 ~]#  nohup ${SPARK_HOME}/sbin/start-all.sh &

启动效果如下

6.测试配置

A,查看MySQL中数据库信息

B,执行sparkSQL命令

  [root@chinac27 conf]# spark-sql --master spark://chinac88:7077,chinac82:7077

  //1.创建数据表

  CREATE TABLE testspark(id INT,name STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n';

此语句将在mysql中生成sparkmetadata数据库,数据表

此语句将在HDFS中生成相应的目录

7.进一步测试

准备数据，效果如下

加载数据，语句如下

  LOAD DATA LOCAL INPATH '/root/software/test' OVERWRITE INTO TABLE testspark;

此语句将上传文件到HDFS,查看数据，效果如下

查询数据，能够看到加载后的数据。

     SELECT * FROM testspark;

删除表，同时会删除MySQL中的表信息和HDFS中的数据

   DROP TABLE testspark;

8.至此，sparkSQL元数据被存放到了mysql中，我们再也不需要hive数据仓库了。直接用spark做数据仓库就可以了

Spark SQL metaData配置到Mysql的更多相关文章

spark sql metastore 配置 mysql
本文主要介绍如何为 spark sql 的 metastore 配置成 mysql . spark 的版本 2.4.0 版本 hive script 版本为 hive 1.2.2 mysql 为 5. ...
IDEA 中Spark SQL通过JDBC连接mysql数据库
一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudl ...
[Spark SQL_1] Spark SQL 配置
0. 说明 Spark SQL 的配置基于 Spark 集群搭建 && Hive 的安装&配置 1. 简介 Spark SQL 是构建在 Spark Core 模块之上的四大 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL笔记——技术点汇总
目录概述原理组成执行流程性能 API 应用程序模板通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源数据库JDBC数据源 DataF ...
Spark之使用SparkSql操作mysql和DataFrame的Scala实现
通过读取文件转换成DataFrame数据写入到mysql中 package com.zy.sparksql import java.util.Properties import org.apache. ...
Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
Spark操作dataFrame进行写入mysql，自定义sql的方式
业务场景: 现在项目中需要通过对spark对原始数据进行计算,然后将计算结果写入到mysql中,但是在写入的时候有个限制: 1.mysql中的目标表事先已经存在,并且当中存在主键,自增长的键id 2. ...
Spark SQL读取hive数据时报找不到mysql驱动
Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneC ...

随机推荐

获取对象属性值=NPOI EXPORT
使用dll ==== NPOI.dll 获取属性,设置属性=参考:http://blog.csdn.net/cestarme/article/details/6548126 额外的: 导出的时候碰到一 ...
window下遍历并修改文件
今天需要写一个遍历文件夹下的所有文件,试了试以前的方法竟然报错了.重新改了一下. #include <iostream> #include <stdlib.h> #includ ...
【线程】Thread中的join介绍
因为sleep.wait.join等阻塞,可以使用interrupted exception异常唤醒. 一.作用 Thread类中的join方法的主要作用就是同步,它可以使得线程之间的并行执行变为串行 ...
原生js--表单
阅读了<javascript权威指南>P396-P409. 一.表单和表单元素的选取 1.选取表单(包含name=“address”属性的form表单) document.querySel ...
Elasticsearch学习之嵌套聚合，下钻分析，聚合分析
1. 计算每个tag下的商品数量 GET /ecommerce/product/_search { "aggs": { "group_by_tags": { & ...
[APP] Android 开发笔记 001-环境搭建与命令行创建项目
1. 安装JDK,SDK JDK http://www.oracle.com/technetwork/java/javase/downloads/index.html Android SDK http ...
解决 java.lang.IllegalThreadStateException: Thread already started. 错误
extends:http://blog.csdn.net/liuhanhan512/article/details/7575386 android开发中,对线程的操作比较悲催,start一个线程后,必 ...
RabbitMQ 安装和说明
一.安装 1. 下载源码,RabbitMQ是使用Erlang开发,所以安装RabbitMQ前需要先安装Erlang.官方推荐从源码安装Erlang,因此下面开始从源码安装OTP 17.0.下载OTP ...
SQL语句的执行过程
1.语法校验如果在SQL计划缓存中没有对应的执行计划,服务器首先会对用户请求的SQL语句进行语法效验,如果有语法错误,服务器会结束查询操作,并用返回相应的错误信息给调用它的应用程序. 注意:此时返回 ...
ubuntu16.04下笔记本电脑扩展双屏安装过程
想给笔记本电脑外界一个显示屏,因为科研需要,我的笔记本是windows10加Ubuntu16.04双系统,主要使用Ubuntu系统. 首先是硬件一个外置显示屏是必须的了,然后我的笔电上只有HDMI接 ...

Spark SQL metaData配置到Mysql

Spark SQL metaData配置到Mysql的更多相关文章

随机推荐

热门专题