spark sql metastore 配置 mysql
本文主要介绍如何为 spark sql 的 metastore 配置成 mysql 。
spark 的版本 2.4.0 版本
hive script 版本为 hive 1.2.2
mysql 为 5.7.18
mysql 的安装部署就不在这里介绍了。
首先为 mysql 的root 用户设置密码
mysql -uroot
> set password= password('mysql');
设置mysql 允许其他机器登录
> GRANT ALL PRIVILEGES ON *.* TO 'root'@'%' IDENTIFIED BY 'mysql' WITH GRANT OPTION;
> FLUSH PRIVILEGES;
创建一个新的database
> CREATE DATABASE metastore;
初始化创建hive 的metastore 表
> use metastore;
> source /opt/hive-1.2./scripts/metastore/upgrade/mysql/hive-schema-1.2..mysql.sql;
初始化过程中,会报告一些错误,但是不影响后续的对接,错误信息如下
ERROR:
Failed to open file 'hive-txn-schema-0.13.0.mysql.sql', error:
从Oracle 官网下载mysql 的jdbc 驱动,然后将 jdbc jar 包放到 ${SPARK_HOME}/jars 目录下。
配置 spark sql 的hive-site.xml 配置文件,新增以下内容
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://HOSTNAME/metastore</value>
<description>the URL of the MySQL database</description>
</property> <property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property> <property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>DB_USER</value>
</property> <property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>DB_PASSWD</value>
</property> <property>
<name>datanucleus.autoCreateSchema</name>
<value>false</value>
</property> <property>
<name>datanucleus.fixedDatastore</name>
<value>true</value>
</property>
HOSTNAME,填写mysql 的ip 地址或者hostname
DB_USER,填写mysql 的登陆用户名
DB_PASSWD,填写mysql 的登陆密码
然后直接启动 spark-sql 命令,执行 show tables 测试是否正常,不报错即为正常。
Cloudera 官网中,详细地介绍了如何为 hive metastore 配置 mysql, postgresql 和 oracle 数据库,具体地址为:
https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hive_metastore_configure.html
spark sql metastore 配置 mysql的更多相关文章
- Spark SQL metaData配置到Mysql
		
构造以spark为核心的数据仓库: 0.说明 在大数据领域,hive作为老牌的数据仓库比较流行,spark可以考虑兼容hive.但是如果不想用hive做数据仓库也无妨,大不了我们用spark建 ...
 - [Spark SQL_1] Spark SQL 配置
		
0. 说明 Spark SQL 的配置基于 Spark 集群搭建 && Hive 的安装&配置 1. 简介 Spark SQL 是构建在 Spark Core 模块之上的四大 ...
 - Spark SQL笔记——技术点汇总
		
目录 概述 原理 组成 执行流程 性能 API 应用程序模板 通用读写方法 RDD转为DataFrame Parquet文件数据源 JSON文件数据源 Hive数据源 数据库JDBC数据源 DataF ...
 - 安装ejabberd2并配置MySQL为其数据库
		
以前用过openfire做为服务器,但是openfire的集群支持不是很好,所以改用Ejabberd,由于它是用Erlang语言开发的,其并发率与分布式的功能都是很强悍的,在此我记录一下我的安装与配置 ...
 - Spark SQL读取hive数据时报找不到mysql驱动
		
Exception: Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "BoneC ...
 - spark2.3.0 配置spark sql 操作hive
		
spark可以通过读取hive的元数据来兼容hive,读取hive的表数据,然后在spark引擎中进行sql统计分析,从而,通过spark sql与hive结合实现数据分析将成为一种最佳实践.配置步骤 ...
 - Spark SQL慕课网日志分析(1)--系列软件(单机)安装配置使用
		
来源: 慕课网 Spark SQL慕课网日志分析_大数据实战 目标: spark系列软件的伪分布式的安装.配置.编译 spark的使用 系统: mac 10.13.3 /ubuntu 16.06,两个 ...
 - spark sql 的metastore 对接 postgresql
		
本教程记录 spark 1.3.1 版本的thriftserver 的metastore 对接 postgresql postgresql 的编译,参考:http://www.cnblogs.com/ ...
 - Spark SQL Thrift Server 配置 Kerberos身份认证和权限管理
		
转载请注明出处:http://www.cnblogs.com/xiaodf/ 之前的博客介绍了通过Kerberos + Sentry的方式实现了hive server2的身份认证和权限管理功能,本文主 ...
 
随机推荐
- python--17个新手常见Python运行时错误
			
当初学 Python 时,想要弄懂 Python 的错误信息的含义可能有点复杂.这里列出了常见的的一些让你程序 crash 的运行时错误. 1)忘记在 if , elif , else , for , ...
 - 百度编辑器UEditor配置toolbars工具条功能按钮
			
两种方式: 1.代码中定义 <script id="container" name="content" type="text/plain&quo ...
 - javascript设计模式和构造函数返回值
			
工厂模式 function createPerson(name,age,job){ var o = new Object(); o.name = name; o.age = age; o.job = ...
 - noip2017列队(线段树)
			
维护一个方阵,支持 1.删掉一个点,剩下的点先向左看齐再向前看齐 2.询问一个位置上是哪个点 $n,m,q \leq 3 \times 10^5$ sol: 我们每行前$m-1$列维护一个线段树,最后 ...
 - 闪回之 回收站、Flashback Drop (table、index、trigger等)
			
一: Flashback Drop 操作流程 模式一:drop table 后未新建同名表 SQL> create table flashdrop as select * from user_o ...
 - vmware的双网卡以及Pro的注册码
			
DC/OS的master需要能够上外网而且能够和本地内网设备交互,于是打算在虚拟机上面做测试,于是调研了一下虚拟机的双网卡配置. 最推荐的方式是使用vmware的station,而不是player ...
 - bzoj 3996 线性代数 —— 最大权闭合子图
			
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=3996 把题中的式子拆开看看,发现就是如下关系: 如果 a[i] == 1 && ...
 - win32 获取 HotKey 控件中的内容(HKM_GETHOTKEY)
			
windows给我们提供了一个对话框控件HotKey非常好用,在设置热键的时候用起来很爽,但是一直百度就是没找到在win32下怎样通过消息获取这个控件里面的内容,找到的都是用MFC封装好的控件类来操作 ...
 - 【转】LCS
			
动态规划法 经常会遇到复杂问题不能简单地分解成几个子问题,而会分解出一系列的子问题.简单地采用把大问题分解成子问题,并综合子问题的解导出大问题的解的方法,问题求解耗时会按问题规模呈幂级数增加. 为了节 ...
 - 【转】 Pro Android学习笔记(六八):HTTP服务(2):HTTP POST
			
目录(?)[-] 找一个测试网站 HTTP POST小例子 上次学习了HTTP GET请求,这次学习一下HTTP POST. 找一个测试网站 小例子好写,但要找个测试网站就有些麻烦,一下子无从入手,都 ...