本文源码：GitHub || GitEE

一、Hive基础简介

1、基础描述

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，是一个可以对Hadoop中的大规模存储的数据进行查询和分析存储的组件，Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行，使用成本低，可以通过类似SQL语句实现快速MapReduce统计，使MapReduce变得更加简单，而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。

2、组成与架构

用户接口：ClientCLI、JDBC访问Hive、WEBUI浏览器访问Hive。

元数据：Hive将元数据存储在数据库中，如mysql、derby。Hive中的元数据包括表的名字，表的列和分区以及属性，表的属性（是否为外部表等），表的数据所在目录等。

驱动器：基于解释器、编辑器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。

执行器引擎：ExecutionEngine把逻辑执行计划转换成可以运行的物理计划。

Hadoop底层：基于HDFS进行存储，使用MapReduce进行计算，基于Yarn的调度机制。

Hive收到给客户端发送的交互请求，接收到操作指令(SQL)，并将指令翻译成MapReduce，提交到Hadoop中执行，最后将执行结果输出到客户端。

二、Hive环境安装

1、准备安装包

hive-1.2，依赖Hadoop集群环境，位置放在hop01服务上。

2、解压重命名

tar -zxvf apache-hive-1.2.1-bin.tar.gz

mv apache-hive-1.2.1-bin/ hive1.2

3、修改配置文件

创建配置文件

[root@hop01 conf]# pwd

/opt/hive1.2/conf

[root@hop01 conf]# mv hive-env.sh.template hive-env.sh

添加内容

[root@hop01 conf]# vim hive-env.sh

export HADOOP_HOME=/opt/hadoop2.7

export HIVE_CONF_DIR=/opt/hive1.2/conf

配置内容一个是Hadoop路径，和hive配置文件路径。

4、Hadoop配置

首先启动hdfs和yarn；然后在HDFS上创建/tmp和/user/hive/warehouse两个目录并修改赋予权限。

bin/hadoop fs -mkdir /tmp

bin/hadoop fs -mkdir -p /user/hive/warehouse

bin/hadoop fs -chmod g+w /tmp

bin/hadoop fs -chmod g+w /user/hive/warehouse

5、启动Hive

[root@hop01 hive1.2]# bin/hive

6、基础操作

查看数据库

hive> show databases ;

选择数据库

hive> use default;

查看数据表

hive> show tables;

创建数据库使用

hive> create database mytestdb;

hive> show databases ;

default

mytestdb

hive> use mytestdb;

创建表

create table hv_user (id int, name string, age int);

查看表结构

hive> desc hv_user;

id                  	int

name                	string

age                 	int

添加表数据

insert into hv_user values (1, "test-user", 23);

查询表数据

hive> select * from hv_user ;

注意：这里通过对查询日志的观察，明显看出Hive执行的流程。

删除表

hive> drop table hv_user ;

退出Hive

hive> quit;

查看Hadoop目录

# hadoop fs -ls /user/hive/warehouse

/user/hive/warehouse/mytestdb.db

通过Hive创建的数据库和数据存储在HDFS上。

三、整合MySQL5.7环境

这里默认安装好MySQL5.7的版本，并配置好相关登录账号，配置root用户的Host为%模式。

1、上传MySQL驱动包

将MySQL驱动依赖包上传到hive安装目录的lib目录下。

[root@hop01 lib]# pwd

/opt/hive1.2/lib

[root@hop01 lib]# ll

mysql-connector-java-5.1.27-bin.jar

2、创建hive-site配置

[root@hop01 conf]# pwd

/opt/hive1.2/conf

[root@hop01 conf]# touch hive-site.xml

[root@hop01 conf]# vim hive-site.xml

3、配置MySQL存储

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

        <property>

          <name>javax.jdo.option.ConnectionURL</name>

          <value>jdbc:mysql://hop01:3306/metastore?createDatabaseIfNotExist=true</value>

          <description>JDBC connect string for a JDBC metastore</description>

        </property>

        <property>

          <name>javax.jdo.option.ConnectionDriverName</name>

          <value>com.mysql.jdbc.Driver</value>

          <description>Driver class name for a JDBC metastore</description>

        </property>

        <property>

          <name>javax.jdo.option.ConnectionUserName</name>

          <value>root</value>

          <description>username to use against metastore database</description>

        </property>

        <property>

          <name>javax.jdo.option.ConnectionPassword</name>

          <value>123456</value>

          <description>password to use against metastore database</description>

        </property>

</configuration>

配置完成后，依次重启MySQL、hadoop、hive环境，查看MySQL数据库信息，多了metastore数据库和相关表。

4、后台启动hiveserver2

[root@hop01 hive1.2]# bin/hiveserver2 &

5、Jdbc连接测试

[root@hop01 hive1.2]# bin/beeline

Beeline version 1.2.1 by Apache Hive

beeline> !connect jdbc:hive2://hop01:10000

Connecting to jdbc:hive2://hop01:10000

Enter username for jdbc:hive2://hop01:10000: hiveroot (账户回车)

Enter password for jdbc:hive2://hop01:10000: ******   (密码123456回车)

Connected to: Apache Hive (version 1.2.1)

Driver: Hive JDBC (version 1.2.1)

0: jdbc:hive2://hop01:10000> show databases;

+----------------+--+

| database_name  |

+----------------+--+

| default        |

+----------------+--+

四、高级查询语法

1、基础函数

select count(*) count_user from hv_user;

select sum(age) sum_age from hv_user;

select min(age) min_age,max(age) max_age from hv_user;

+----------+----------+--+

| min_age  | max_age  |

+----------+----------+--+

| 23       | 25       |

+----------+----------+--+

2、条件查询语句

select * from hv_user where name='test-user' limit 1;

+-------------+---------------+--------------+--+

| hv_user.id  | hv_user.name  | hv_user.age  |

+-------------+---------------+--------------+--+

| 1           | test-user     | 23           |

+-------------+---------------+--------------+--+

select * from hv_user where id>1 AND name like 'dev%';

+-------------+---------------+--------------+--+

| hv_user.id  | hv_user.name  | hv_user.age  |

+-------------+---------------+--------------+--+

| 2           | dev-user      | 25           |

+-------------+---------------+--------------+--+

select count(*) count_name,name from hv_user group by name;

+-------------+------------+--+

| count_name  |    name    |

+-------------+------------+--+

| 1           | dev-user   |

| 1           | test-user  |

+-------------+------------+--+

3、连接查询

select t1.*,t2.* from hv_user t1 join hv_dept t2 on t1.id=t2.dp_id;

+--------+------------+---------+-----------+-------------+--+

| t1.id  |  t1.name   | t1.age  | t2.dp_id  | t2.dp_name  |

+--------+------------+---------+-----------+-------------+--+

| 1      | test-user  | 23      | 1         | 技术部      |

+--------+------------+---------+-----------+-------------+--+

五、源代码地址

GitHub·地址

https://github.com/cicadasmile/big-data-parent

GitEE·地址

https://gitee.com/cicadasmile/big-data-parent

推荐阅读：编程体系整理

序号	项目名称	GitHub地址	GitEE地址	推荐指数
01	Java描述设计模式,算法,数据结构	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
02	Java基础、并发、面向对象、Web开发	GitHub·点这里	GitEE·点这里	☆☆☆☆
03	SpringCloud微服务基础组件案例详解	GitHub·点这里	GitEE·点这里	☆☆☆
04	SpringCloud微服务架构实战综合案例	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
05	SpringBoot框架基础应用入门到进阶	GitHub·点这里	GitEE·点这里	☆☆☆☆
06	SpringBoot框架整合开发常用中间件	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
07	数据管理、分布式、架构设计基础案例	GitHub·点这里	GitEE·点这里	☆☆☆☆☆
08	大数据系列、存储、组件、计算等框架	GitHub·点这里	GitEE·点这里	☆☆☆☆☆

数据仓库组件：Hive环境搭建和基础用法的更多相关文章

一、Vue环境搭建及基础用法
一.项目初始化及安装官网:https://cn.vuejs.org/ 1.1安装及运行项目步骤 1.安装vue-cli(-g=-global) npm install -g vue-cli cnpm ...
Spark环境搭建（四）-----------数据仓库Hive环境搭建
Hive产生背景 1)MapReduce的编程不便,需通过Java语言等编写程序 2) HDFS上的文缺失Schema(在数据库中的表名列名等),方便开发者通过SQL的方式处理结构化的数据,而不需要J ...
Hadoop生态圈-Hive快速入门篇之Hive环境搭建
Hadoop生态圈-Hive快速入门篇之Hive环境搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据仓库(理论性知识大多摘自百度百科) 1>.什么是数据仓库数据 ...
Hive环境搭建
hive 环境搭建需要hadoop的环境.hadoop环境的搭建不在这里赘述.参考:http://www.cnblogs.com/parkin/p/6952370.html 1.准备阶段 hive 官 ...
Hive环境搭建和SparkSql整合
一.搭建准备环境在搭建Hive和SparkSql进行整合之前,首先需要搭建完成HDFS和Spark相关环境这里使用Hive和Spark进行整合的目的主要是: 1.使用Hive对SparkSql中产 ...
（十八）整合Nacos组件，环境搭建和入门案例详解
整合Nacos组件,环境搭建和入门案例详解 1.Nacos基础简介 1.1 关键特性 1.2 专业术语解释 1.3 Nacos生态圈 2.SpringBoot整合Nacos 2.1 新建配置 2.2 ...
《OD大数据实战》Hive环境搭建
一.搭建hadoop环境 <OD大数据实战>hadoop伪分布式环境搭建二.Hive环境搭建 1. 准备安装文件下载地址: http://archive.cloudera.com/cd ...
《Programming Hive》读书笔记（一）Hadoop和hive环境搭建
<Programming Hive>读书笔记(一)Hadoop和Hive环境搭建先把主要的技术和工具学好,才干更高效地思考和工作. Chapter 1.Int ...
Hive——环境搭建
Hive--环境搭建相关hadoop和mysql环境已经搭建好.我博客中也有相关搭建的博客. 一.下载Hive并解压到指定目录(本次使用版本hive-1.1.0-cdh5.7.0,下载地址:http ...

随机推荐

moviepy音视频开发：音频合成类CompositeAudioClip介绍
☞ ░ 前往老猿Python博文目录 ░ CompositeAudioClip是AudioClip的直接子类,用于将几个音频剪辑合成为一个音频剪辑.CompositeAudioClip类只有一个构造方 ...
LeetCode初级算法之数组：66 加一
加一题目地址:https://leetcode-cn.com/problems/plus-one/ 给定一个由整数组成的非空数组所表示的非负整数,在该数的基础上加一.最高位数字存放在数组的首位, 数 ...
在Linux中使用Dbeaver等GTK3界面的软件出现频繁闪烁的问题解决
问题复现复现环境LinuxMint 19 Dbeaver: 7.3 输入法: ibus + ibus-table-wubi 如图,当光标移动到Sql Editor中会不停的闪-- 解决过程先百度. ...
SA-IS学习笔记
Q:SA-IS 是什么玩意? A:一种 \(O(n)\) 求后缀数组的高科技. Q:为什么会有 SA-IS 这种算法? A:因为它是 \(O(n)\) 的,比倍增 \(O(n\log n)\) 快. ...
我对js数据类型的理解和深浅(copy)的应用场景
本人毕业一所专科院校,所学专业是计算机应用技术,在大学时对前端有了一定的了解之后,觉得自己对前端的兴趣十分强烈,开始自学前端,一路上也是坎坎坷坷,也有想要放弃的时候,还好坚持了下来,并且从事前端开发已 ...
Python排序函数用法
Python排序函数完美体现了Python语言的简洁性,对于List对象,我们可以直接调用sort()函数(这里称为"方法"更合适)来进行排序,而对于其他可迭代对象(如set,di ...
Json处理方式记录
1.可以直接使用Parse方法 JObject jObject = JObject.Parse(res); string mediaId = jObject["media_id"] ...
【GIT】随笔
GIT下载地址:https://git-scm.com/download/win安装方法:下一步默认路径:C:\Program Files\Git 使用方法:右键桌面->git bash her ...
20201203-6 设置excel样式【】
1-1 1 import os 2 from openpyxl import load_workbook 3 from openpyxl.styles import PatternFill, Alig ...
css 10-CSS3选择器详解
10-CSS3选择器详解 #CSS3介绍 CSS3在CSS2基础上,增强或新增了许多特性, 弥补了CSS2的众多不足之处,使得Web开发变得更为高效和便捷. #CSS3的现状浏览器支持程度不够好,有 ...

数据仓库组件：Hive环境搭建和基础用法