Hive on Spark 官网详情:https://cwiki.apache.org//confluence/display/Hive/Hive+on+Spark:+Getting+Started 一.安装Hive 具体安装参考:Hive(一)[基本概念.安装] 安装和Spark对应版本一起编译的Hive,当前官网推荐的版本关系如下: HiveVersion SparkVersion 1.1.x 1.2.0 1.2.x 1.3.1 2.0.x 1.5.0 2.1.x 1.6.0 2.2.x 1…
进入我这篇博客的博友们,相信你们具备有一定的spark学习基础和实践了. 先给大家来梳理下.spark的运行模式和常用的standalone.yarn部署.这里不多赘述,自行点击去扩展. 1.Spark运行模式概述 2.Spark standalone模式的安装(spark-1.6.1-bin-hadoop2.6.tgz)(master.slave1和slave2) 3.Spark standalone简介与运行wordcount(master.slave1和slave2) 4.Spark on…
Spark源码编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spark编译: git clone https://github.com/apache/spark.git spark_src cd spark_src export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512…
Hive产生背景 1)MapReduce的编程不便,需通过Java语言等编写程序 2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要Java等编写程序 Hive是什么 1)facebook开源,最初为解决海量的结构化日志数据统计问题 2)构建中Hadoop上的数据仓库 3)Hive定义了一种SQL查询语言:HQL(类似SQl但又不完全相同) 4)通常进行离线处理(采用MapReduce) 5)多种不同的底层执行引擎(Hive on…
1.hive执行引擎 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hive on Spark.由于MapReduce中间计算均需要写入磁盘,而Spark是放在内存中,所以总体来讲Spark比MapReduce快很多. 默认情况下,Hive on Spark 在YARN模式下支持Spark. 2.前提条件:安装JDK-1.8/hadoop-2.7.2等,参考之前的博文 3.下载hi…
hive及其他组件(比如spark.impala等)都会依赖hive metastore,依赖的配置文件位于hive-site.xml hive metastore重要配置 hive.metastore.warehouse.dirhive2及之前版本默认为/user/hive/warehouse/,创建数据库或表时会在该目录下创建对应的目录 javax.jdo.option.ConnectionURLjavax.jdo.option.ConnectionDriverNamejavax.jdo.o…
目录 目录 1 1. 前言 1 2. 约定 2 3. 服务端口 2 4. 安装MySQL 2 4.1. 安装MySQL 2 4.2. 创建Hive元数据库 4 5. 安装步骤 5 5.1. 下载Hive 1.2.1二进制安装包 5 5.2. 安装Hive 5 5.3. 安装MySQL-Connector 5 5.4. 修改配置 5 5.4.1. 修改/etc/profile或~/.profile 5 5.4.2. 修改其它配置文件 5 5.4.2.1. 修改hive-env.sh 6 5.4.2…
 说在前面的话 以下三种情况,最好是在3台集群里做,比如,master.slave1.slave2的master和slave1都安装了hive,将master作为服务端,将slave1作为服务端. 以下,是针对CentOS版本的,若是Ubuntu版本,见我的博客 Ubuntu系统下安装并配置hive-2.1.0 hive三种方式区别和搭建 Hive中metastore(元数据存储)的三种方式: a)  内嵌Derby方式 b)  Local方式 c)  Remote方式 1.本地derby 这种…
@ 目录 概述 Spark on Hive Hive on Spark 概述 编译Spark源码 配置 调优思路 编程方向 分组聚合优化 join优化 数据倾斜 任务并行度 小文件合并 CBO 谓词下推 矢量化查询 Yarn配置推荐 Spark配置推荐 Executor CPU核数配置 Executor CPU内存配置 Executor 个数配置 Driver配置 整体配置 概述 前面的文章都单独熟悉Hive和Spark原理和应用,本篇则来进一步研究Hive与Spark之间整合的3种模式: Hi…
Hive版本 0.12.0(独立模式) Hadoop版本 1.12.1 Ubuntu 版本 12.10 今天试着搭建了hive,差点迷失在了网上各种资料中,现在把我的经验分享给大家,亲手实践过,但未必每一步都是必须的,正确的,大家可以参考一下. 第一步:安装和测试mysql(已装好的可跳过) 见我总结的http://blog.csdn.net/unflynaomi/article/details/37811229 第二步.开始正式安装hive 1.在hdfs上建目录: $ hadoop fs -…