Hive简介

Hive 基本介绍

Hive 实现机制

Hive 数据模型

Hive 如何转换成MapReduce

Hive 与其他数据库的区别

以上详见:https://chu888chu888.gitbooks.io/hadoopstudy/content/Content/8/chapter8.html

Hive 和 Hbase 的区别

详见:http://www.cnblogs.com/justinzhang/p/4273470.html


Hive环境模式

  • 内嵌模式

    将元数据保存在本地内嵌的 Derby 数据库中,这是使用 Hive 最简单的方式。但是这种方式缺点也比较明显,因为一个内嵌的 Derby 数据库每次只能访问一个数据文件,这也就意味着它不支持多会话连接。

  • 本地模式

    这种模式是将元数据保存在本地独立的数据库中(一般是 MySQL),这用就可以支持多会话和多用户连接了。

  • 远程模式

    此模式应用于 Hive 客户端较多的情况。把 MySQL 数据库独立出来,将元数据保存在远端独立的 MySQL 服务中,避免了在每个客户端都安装 MySQL 服务从而造成冗余浪费的情况。


下载安装HIVE

Hive 是基于 Hadoop 文件系统之上的数据仓库。因此,安装Hive之前必须确保 Hadoop 已经成功安装。

本次教程,使用hive2.0.1版本,下载地址:http://mirrors.hust.edu.cn/apache/hive/hive-2.0.1/

下载apache-hive-2.0.1-bin.tar.gz,解压至/data/hive

tar -zxvf apache-hive-2.0.1-bin.tar.gz -C /data
cd /data
mv apache-hive-2.0.1-bin hive


配置环境变量

# 编辑文件
vim /etc/profile # 文件末尾添加
export HIVE_HOME=/data/hive
export PATH=$HIVE_HOME/bin:$HIVE_HOME/conf:$PATH # 使修改生效
source /etc/profile

内嵌模式

(1)修改 Hive 配置文件

Hive工程的配置文件为 hive-site.xml,默认情况下,该文件并不存在,需要拷贝它的模版来实现。

cd /data/hive/conf
cp hive-default.xml.template hive-site.xml

hive-site.xml的主要配置有

<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
<description>location of default database for the warehouse</description>
</property>
..
<property>
<name>hive.exec.scratchdir</name>
<value>/tmp/hive</value>
<description>HDFS root scratch dir for Hive jobs which gets created with write all (733) permission. For each connecting user, an HDFS scratch dir: ${hive.exec.scratchdir}/&lt;username&gt; is created, with ${hive.scratch.dir.permission}.</description>
</property>
  • hive.metastore.warehouse.dir

    该参数指定了 Hive 的数据存储目录,默认位置在 HDFS 上面的 /user/hive/warehouse 路径下。
  • hive.exec.scratchdir

    该参数指定了 Hive 的数据临时文件目录,默认位置为 HDFS 上面的 /tmp/hive 路径下。

hive-site.xml文件内容不需修改,文件配置详解移步:https://my.oschina.net/HIJAY/blog/503842?p=1

接下来我们还要修改Hive目录下的/conf/hive-env.sh 文件,该文件默认也不存在,同样是拷贝它的模版来修改:

cd /data/hive/conf
cp hive-env.sh.template hive-env.sh vim hive-env.sh # 做如下修改
export HADOOP_HEAPSIZE=1024
# Set HADOOP_HOME to point to a specific hadoop install directory
HADOOP_HOME=/data/hadoop
# Hive Configuration Directory can be controlled by:
export HIVE_CONF_DIR=/data/hive/conf
# Folder containing extra ibraries required for hive compilation/execution can be controlled by:
export HIVE_AUX_JARS_PATH=/data/hive/lib

(2)创建必要目录

前面我们看到 hive-site.xml 文件中有两个重要的路径【/user/hive/warehouse】与【/tmp/hive】。

切换到hadoop 用户下查看HDFS是否有这些路径,如果没有,就新建目录,并且给它们赋予用户写权限。

$ hadoop dfs -mkdir /user/hive/warehouse
$ hadoop dfs -mkdir /tmp/hive
$ hadoop dfs -chmod 777 /user/hive/warehouse
$ hadoop dfs -chmod 777 /tmp/hive

如果你遇到 no such file or directory 类似的错误,就一步一步新建目录,例如:

$ hadoop dfs -mkdir /tmp
$ hadoop dfs -mkdir /tmp/hive

然后通过相关命令检查是否新建成功,比如【hdfs dfs -lsr /】。

(3)运行 Hive

前面我们已经提到过,内嵌模式使用默认配置和 Derby 数据库,所以无需其它特别修改,先 ./start-all.sh 启动 Hadoop, 然后直接运行 hive:

[root@iZwz9b62gfdv0s2e67yo8kZ /]$ cd /data/hive/bin/
[root@iZwz9b62gfdv0s2e67yo8kZ bin]$ hive

你很可能会遇到与【${system:java.io.tmpdir}】有关的这个错误:

解决方法是修改 hive-site.xml 中所有包含 ${system:java.io.tmpdir} 字段的 value。

可自己新建一个目录来替换它,例如 /data/hive/iotmp,同时赋予相关写权限。

修改后再次启动 hive,可能又遇到数据库未初始化的错误:

执行以下命令初始化即可

cd /data/hive/bin
./schematool -initSchema -dbType derby

继续报错:

Initialization script hive-schema-2.0.0.derby.sql
Error: FUNCTION 'NUCLEUS_ASCII' already exists. (state=X0Y68,code=30000)
org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state would be inconsistent !!
*** schemaTool failed ***

这个function的构建是数据库初始化的一部分,既然存在了,就直接去hive-schema-2.0.0-derby.sql里面注释掉【CREATE FUNCTION】的相关语句好了。

注释后再次启动hive,就ok了


本地模式

(1)安装 MySQL

成功安装mysql后启动服务,并创建名为hive的数据库,再创建一个hive用户为HIVE所用。

mysql安装方法详见:MySQL安装及卸载

MySQL安装后,还需要下载一个MySQL的JDBC驱动包。

这里使用的是mysql-connector-java-5.1.40-bin.jar,需将其复制到$HIVE_HOME/lib目录下。

$ tar -zxvf mysql-connector-java-5.1.40.tar.gz
$ cd mysql-connector-java-5.1.40
$ mv mysql-connector-java-5.1.40-bin.jar /data/hive/lib/

(2)修改 hive-site.xml 配置文件

最后,依然是修改 $HIVE_HOME/conf 下的 hive-site.xml 文件,把默认的 Derby 修改为 MySQL :

<property>
<name>javax.jdo.option.ConnectionURL</name>
//所连接的MySQL数据库实例
<value>jdbc:mysql://localhost:3306/hive</value>
</property> <property>
<name>javax.jdo.option.ConnectionDriverName</name>
//连接的MySQL数据库驱动
<value>com.mysql.jdbc.Driver</value>
</property> <property>
<name>javax.jdo.option.ConnectionUserName</name>
//连接的MySQL数据库用户名
<value>hive</value>
</property> <property>
<name>javax.jdo.option.ConnectionPassword</name>
//连接的MySQL数据库密码
<value>hive</value>
</property>

(3)启动 Hive

启动 Hive 的方式同内嵌模式一样,需先初始化数据库.

cd /data/hive/bin
./schematool -initSchema -dbType mysql

然后运行HIVE,可能发现运行不成功,并一直收到警告

修改hive-site.xml文件的javax.jdo.option.ConnectionURL选项即可

<property>
<name>javax.jdo.option.ConnectionURL</name>
//所连接的MySQL数据库实例
<value>jdbc:mysql://localhost:3306/hive?characterEncoding=utf8&useSSL=false</value>
</property>

再次启动HIVE,仍然报错

经查,再次修改javax.jdo.option.ConnectionURL选项,然后启动HIVE,发现启动成功。

<property>
<name>javax.jdo.option.ConnectionURL</name>
//所连接的MySQL数据库实例
<value>jdbc:mysql://localhost:3306/hive?characterEncoding=utf8&amp;useSSL=false</value>
</property>

链接相关

大数据进阶计划

http://wangxin123.com/2017/02/18/大数据进阶计划/

Hive下载地址

http://mirrors.hust.edu.cn/apache/hive/hive-2.0.1/

HIVE安装配置的更多相关文章

  1. Hive安装配置指北(含Hive Metastore详解)

    个人主页: http://www.linbingdong.com 本文介绍Hive安装配置的整个过程,包括MySQL.Hive及Metastore的安装配置,并分析了Metastore三种配置方式的区 ...

  2. Mac上Hive安装配置

    Mac上Hive安装配置 1.安装 下载hive,地址:http://mirror.bit.edu.cn/apache/hive/ 之前我配置了集群,tjt01.tjt02.tjt03,这里hive安 ...

  3. Linux环境Hive安装配置及使用

    Linux环境Hive安装配置及使用 一.Hive Hive环境前提 二.Hive架构原理解析 三.Hive-1.2.2单机安装流程 (1) 解压apache-hive-1.2.2-bin.tar.g ...

  4. 【转】 hive安装配置及遇到的问题解决

    原文来自: http://blog.csdn.net/songchunhong/article/details/51423823 1.下载Hive安装包apache-hive-1.2.1-bin.ta ...

  5. Hive安装配置详解步骤以及hive使用mysql配置

    Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据.它架构在Hadoop之上,总归为大数据,并使得查询和分析方便.并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务 ...

  6. hive安装配置错误

    1.Access denied for user 'hive'@'localhost' (using password: YES) 解决办法: 执行 hive --service metastore ...

  7. Hive安装配置要点

    官网下载安装包: 在Profile下面定义HIVE_HOME以及HADOOP_HOME,然后在PATH下面添加HOME/bin目录,用于在命令行直接敲beeline,hive即可执行命令: 需要在ha ...

  8. Hive 安装配置

    系统:Ubuntu 64 bit系统 step1:创建hive文件目录,并在hive目录下创建tmp,warehouse 和 log目录: Step2:解压hive安装包: Step3:创建配置文件: ...

  9. Hive 安装配置记录

    http://yymmiinngg.iteye.com/blog/708230 export HADOOP_HOME_WARN_SUPPRESS=1 export JAVA_HOME=/home/ha ...

随机推荐

  1. Java基础学习(三)—面向对象(上)

    一.理解面向对象       面向对象是一种思想,是基于面向过程而言的,就是说面向对象是将功能等通过对象来实现,将功能封装进对象之中,让对象去实现具体的细节:这种思想是将数据作为第一位,而方法或者说是 ...

  2. Oracle dual表的用途

    dual是一个虚拟表,用来构成select的语法规则,oracle保证dual里面永远只有一条记录.我们可以用它来做很多事情,如下: 1.查看当前用户,可以在 SQL Plus中执行下面语句 sele ...

  3. PHP站内搜索

    1.SQL语句中的模糊查找 LIKE条件一般用在指定搜索某字段的时候, 通过"% 或_" 通配符的作用实现模糊查找功能,通配符可以在前面也可以在后面或前后都有. 搜索以PHP100 ...

  4. 移动设备真机调试本地程序的Node.js【无需连wifi】

     前提: 在某些场景下,我们需要调试我们的Node.js,这很简单,很多编辑器都集成了debug模式,但是某些场景下,我们想在移动设备上运行,在本地debug,这也行,只需要链接在同一个内网,通过ip ...

  5. VS2015下OpenGL库的配置

    写在前面: 最近要用到OpenGL,光是在VS2015下配置就费了很大的劲,现在将我的成果直接贡献给大家,希望能为需要在VS2015下配置OpenGL的读者省去一些麻烦. 正文: 资源地址1:http ...

  6. java源码剖析: 对象内存布局、JVM锁以及优化

    一.目录 1.启蒙知识预热:CAS原理+JVM对象头内存存储结构 2.JVM中锁优化:锁粗化.锁消除.偏向锁.轻量级锁.自旋锁. 3.总结:偏向锁.轻量级锁,重量级锁的优缺点. 二.启蒙知识预热 开启 ...

  7. HYML / CSS和Javascript 部分

    1  CSS实现垂直水平居中 HTML结构: <div class="wrapper"> <div class="content">&l ...

  8. 【Java 并发】详解 ThreadPoolExecutor

    前言 线程池是并发中一项常用的优化方法,通过对线程复用,减少线程的创建,降低资源消耗,提高程序响应速度.在 Java 中我们一般通过 Exectuors 提供的工厂方法来创建线程池,但是线程池的最终实 ...

  9. 利用Scrapy爬取所有知乎用户详细信息并存至MongoDB

    欢迎大家关注腾讯云技术社区-博客园官方主页,我们将持续在博客园为大家推荐技术精品文章哦~ 作者 :崔庆才 本节分享一下爬取知乎用户所有用户信息的 Scrapy 爬虫实战. 本节目标 本节要实现的内容有 ...

  10. Java集合之Map和Set

    以前就知道Set和Map是java中的两种集合,Set代表集合元素无序.不可重复的集合:Map是代表一种由多个key-value对组成的集合.然后两个集合分别有增删改查的方法.然后就迷迷糊糊地用着.突 ...