Spark SQL metaData配置到Mysql

构造以spark为核心的数据仓库:

0.说明

在大数据领域，hive作为老牌的数据仓库比较流行，spark可以考虑兼容hive。但是如果不想用hive做数据仓库也无妨，大不了我们用spark建立最新的数据仓库。

sparkSQL的发展历程表明了，spark本身就可以做数据仓库，而不需要hive。sparkSQL作为数据仓库其元数据放到了Derby中，一般生产环境不会用Derby，而是使用

MySQL或者postgreSQL.本文就是要告诉读者，如何将sparkSQL的元数据存放到mysql.

1.集群规划情况

mysql chinac244<-->chinac242,这两节点做了主主备份。

spark master chinac88<-->chinac82，这两节点做了HA

spark slave chinac88,chinac82,chinac27

2.配置文件(chinac27上修改，然后分发到集群)

解压后将$HIVE_HOME/conf/hive-site.xml 复制到$SPARK_HOME/conf/hive-site.xml

编辑此文件

 vim  $SPARK_HOME/conf/hive-site.xml

修改如下内容

<property>

    <name>javax.jdo.option.ConnectionURL</name>

    <value>jdbc:mysql://chinac244:3306/sparkmetadata?createDatabaseIfNotExist=true</value>

    <description>JDBC connect string for a JDBC metastore</description>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionDriverName</name>

    <value>com.mysql.jdbc.Driver</value>

    <description>Driver class name for a JDBC metastore</description>

  </property>

  <property>

    <name>javax.jdo.option.ConnectionUserName</name>

    <value>root</value>

    <description>Username to use against metastore database</description>

  </property>

   <property>

    <name>javax.jdo.option.ConnectionPassword</name>

    <value>chinac</value>

    <description>password to use against metastore database</description>

  </property>

3.修改时间属性（没做）

然后修改Hive-site.xml中所有的时间属性，所有属性的单位为s(秒),删除s然后添加3个0,所有属性的单位为ms的删除ms,spark无法识别这些单位，而是把他们全当数字处理。

4.分发配置文件

    scp $SPARK_HOME/conf/hive-site.xml chinac82:$SPARK_HOME/conf/hive-site.xml

    scp $SPARK_HOME/conf/hive-site.xml chinac88:$SPARK_HOME/conf/hive-site.xml

5.重启spark集群

 [root@chinac88 ~]#  ${SPARK_HOME}/sbin/stop-all.sh

 [root@chinac88 ~]#  nohup ${SPARK_HOME}/sbin/start-all.sh &

启动效果如下

6.测试配置

A,查看MySQL中数据库信息

B,执行sparkSQL命令

  [root@chinac27 conf]# spark-sql --master spark://chinac88:7077,chinac82:7077

  //1.创建数据表

  CREATE TABLE testspark(id INT,name STRING)ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n';

此语句将在mysql中生成sparkmetadata数据库,数据表

此语句将在HDFS中生成相应的目录

7.进一步测试

准备数据，效果如下

加载数据，语句如下

  LOAD DATA LOCAL INPATH '/root/software/test' OVERWRITE INTO TABLE testspark;

此语句将上传文件到HDFS,查看数据，效果如下

查询数据，能够看到加载后的数据。

     SELECT * FROM testspark;

删除表，同时会删除MySQL中的表信息和HDFS中的数据

   DROP TABLE testspark;

8.至此，sparkSQL元数据被存放到了mysql中，我们再也不需要hive数据仓库了。直接用spark做数据仓库就可以了

Spark SQL metaData配置到Mysql的更多相关文章

spark sql metastore 配置 mysql
本文主要介绍如何为 spark sql 的 metastore 配置成 mysql . spark 的版本 2.4.0 版本 hive script 版本为 hive 1.2.2 mysql 为 5. ...
IDEA 中Spark SQL通过JDBC连接mysql数据库
一.IDEA装驱动: 1.下载一个MySQL的JDBC驱动:mysql-connector-java-5.1.44.tar.gz2.在idea Open Moudle Settings 在 Moudl ...
[Spark SQL_1] Spark SQL 配置
0. 说明 Spark SQL 的配置基于 Spark 集群搭建 && Hive 的安装&配置 1. 简介 Spark SQL 是构建在 Spark Core 模块之上的四大 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL笔记——技术点汇总
目录概述原理组成执行流程性能 API 应用程序模板通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源数据库JDBC数据源 DataF ...
Spark之使用SparkSql操作mysql和DataFrame的Scala实现
通过读取文件转换成DataFrame数据写入到mysql中 package com.zy.sparksql import java.util.Properties import org.apache. ...
Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
Spark操作dataFrame进行写入mysql，自定义sql的方式
业务场景: 现在项目中需要通过对spark对原始数据进行计算,然后将计算结果写入到mysql中,但是在写入的时候有个限制: 1.mysql中的目标表事先已经存在,并且当中存在主键,自增长的键id 2. ...
Spark SQL读取hive数据时报找不到mysql驱动
Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneC ...

随机推荐

open-falcon之alarm、sender、links说明.md
alarm 功能处理judge 产生的告警event 区分告警优先级,优先处理级别比较高的告警为用户提供回调接口生成告警msg 展示未恢复的告警配置文件 { "debug" ...
docker 快速搭建Nexus3
1.拉取镜像 docker pull sonatype/nexus3 2.启动容器 : -p : -p : -v /mnt/gv0/nexus-data:/nexus-data sonatype/ne ...
Python Tkinter Text控件
原文地址: http://blog.csdn.net/bemorequiet/article/details/54743889 这篇博客主要是简单的说一下Tkinter中的Text控件的相关知识. T ...
SharpGL学习笔记(四) 正射投影
上节谈到投影变换分为透视投影(perspective projection)和正射投影(orthographic projection)两种. 透视投影我们已经介绍过了, 现在谈谈正视投影. 正射投影 ...
mac下用户用户组命令行操作
使用mac的时候需要像linux一样对用户和群组进行操作,但是linux使用的gpasswd和usermod在mac上都不可以使用,mac使用dscl来对group和user操作. 查看用户组: ds ...
不同.NET Framework版本下ASP.NET FormsAuthentication的兼容性
假设站点A加密使用.NET Framework 2.0,站点B解密使用.NET Framework 4.0,除了保持MachineKey相同外还需要进行如下设置: 1.Web.config的<a ...
kvm/qemu虚拟机桥接网络创建与配置
首先阐述一下kvm与qemu的关系,kvm是修改过的qemu,而且使用了硬件支持的仿真,仿真速度比QEMU快. 配置kvm/qemu的网络有两种方法.其一,默认方式为用户模式网络(Usermode N ...
Unity3D笔记英保通三脚本编写、物体间通信
一.脚本编写 1.1.同一类型的方法JS和C#的书写方式却不一样主要还是语法,在工程中创建一个Cube 分别把JSTest.js和CSharp.cs 添加到Cube中 JSTest.js #pragm ...
Java虚拟机六堆溢出的处理
在Java程序中,如果堆空间不足,有可能抛出内存溢出错误:Out Of Memory,简称OOM. Exception in thread "main" java.lang.Out ...
sublime--将vue代码进行高亮显示
vue的.vue文件sublime是不认识,但是为了让 .vue 文件看上去更加简洁:所以要用到一款不错的插件: 下载:vue-syntax-highlight https://gitee.com/m ...

Spark SQL metaData配置到Mysql

Spark SQL metaData配置到Mysql的更多相关文章

随机推荐

热门专题