Hive简介

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

建立Hive表

hive中创建表时，默认情况下hive负责管理数据，这就是所谓的“托管表”。建立托管表的语法比较简单，和写SQL建表也比较类似：

DROP TABLE example_table;

CREATE TABLE if not exists example_table(example_id STRING, example_name STRING ) row format delimited fields terminated by ',';

需要注意的是，建立字段的定义，以及row的delimeter，这里指定为”,”。

托管表建立完成后，表中并无数据，这就需要我们向表中插入一些数据。但Hive中并不可以通过insert一条数据的方式向表中插入数据，可以通过下面的方式从本地文件中加载（当然也可以从HDFS中加载，语法稍微不同）：

LOAD DATA LOCAL INPATH 'LocalFile' OVERWRITE INTO TABLE region_table;

由于在第一步中我们已经设定行分隔符为’,’，这里的LocalFile的每一行都要由,进行分隔，并在加载完成后，对应到定义的字段中去。

但在我们的实际应用场景下，Hive中使用的数据大部分都是从外部文件中得到的，这时候就需要创建“外部表”。

drop table task_table;

create external table if not exists task_table

( doc string )

stored as

inputformat 'Hive进行的InputFormat转换'

outputformat 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

location '/数据所在的HDFS文件夹/';

使用external关键字之后，Hive就知道数据并不是托管的，不会将数据移到自己的数据仓库目录中；而且在drop外部表时，也不会碰数据，只会删除hive中的元数据。

InputFormat

和Hadoop中的InputFormat类似，我们在定义外部表时，需要指定特定的InputFormat以将HDFS上的文件按行映射到对应的数据上去。但是，我们在CREATE外部表语句中定义的InputFormat与Hadoop中Map使用的InputFormat有所不同，外部表中的定义的InputFormat并不能决定map分片数量。

在hive中运行“select * from example_table”时直接返回当前所有值，并不会启动mapreduce任务，而当构建一些复杂的特殊的HQL语句时，就会启动一个mapreduce任务来进行处理。

hive中运行参数的设置可以通过hive命令中的“--hive-conf 参数名=参数值”来定义，在hive启动的mapreduce任务中，使用的默认是org.apache.hadoop.hive.ql.io.CombineHiveInputFormat类，与table中定义的InputFormat根本无关，了解hadoop的应该知道，Combine表示可能会合并多个小文件一起处理，与我们当前需求并不符合。而如果需要设置每个文件只能由一个map任务来处理时，原来的继承FileInputFormat并重写isSplittable方法并不起作用，抛出异常。这是因为Hive中启动的mapreduce任务的InputFormat必须是org.apache.hadoop.hive.ql.io.HiveInputFormat的子类，可以通过设置mapred.input.format.class=org.apache.hadoop.hive.ql.io.HiveInputFormat，并将参数mapreduce.input.fileinputformat.split.minsize设置（单位是字节）的非常大来达到目的。

也可以在hive配置文件中进行整体的调整：

<property>

    <name>mapreduce.input.fileinputformat.split.minsize</name>

    <value>1099511627776</value>

</property>

<property>

    <name>hive.input.format</name>

    <value>org.apache.hadoop.hive.ql.io.HiveInputFormat</value>

</property>

UDF函数

Hive中有很多的内置函数，如果可以通过内置函数来解决，就不需要编写UDF来完成任务。

可以通过下面的命令来显示出hive中的所有内置函数：

hive -e "show functions"；

比如可以使用from_unixtime，cast， hour三个函数的组合来完成将时间转换成小时的工作：

hour(from_unixtime(cast(raw['ti'] as bigint),'yyyy-MM-dd HH:mm:ss'))

如何在hive中自定义UDF(User Define Function)？这里说明一下如何在java中定义UDF。

首先，需要继承类：org.apache.hadoop.hive.ql.exec.UDF，并写一个名称为evaluate的函数，由于Hive使用的是反射的方式来进行调用的，并不强调参数以及返回值，可以随便写，在使用时注意就可以了（甚至可以在UDF函数中重载多个evaludate方法）。

编写完成后，需要在HQL脚本中使用下面的方式来进行调用：

add jar “对应的jar包路径”

create temporary function function_name as 'UDF类名称';

之后，就可以在sql中使用function_name进行操作，注意其输入参数以及返回值。

HQL语句

hive中可以执行HQL语句，其基本格式与SQL语句非常类似。可以通过hive shell的方式执行，也可以通过hive –e “hql语句”或hive –f “hql文件”的方式执行。

示例：

select example_udf_function(doc) raw   from example_table;

此外，HQL语句还支持嵌套。这部分只是个入门教程，因此，后续深入研究。

Hive使用入门的更多相关文章

[Hadoop大数据]——Hive部署入门教程
Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的.只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api. ...
Hadoop生态圈-Hive快速入门篇之HQL的基础语法
Hadoop生态圈-Hive快速入门篇之HQL的基础语法作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本篇博客的重点是介绍Hive中常见的数据类型,DDL数据定义,DML数据操作 ...
Hadoop生态圈-Hive快速入门篇之Hive环境搭建
Hadoop生态圈-Hive快速入门篇之Hive环境搭建作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据仓库(理论性知识大多摘自百度百科) 1>.什么是数据仓库数据 ...
hive编程入门课程（加精）
hive编程入门课程 http://wenku.baidu.com/link?url=BfyZWjz48G_6UJImzWw39OLB0sUrIYEYxoxNpaFbADUQekmOvQy4FPY1f ...
[转帖]Hive 快速入门(全面)
Hive 快速入门(全面) 2018-07-30 16:11:56 琅琊山二当家阅读数 4343更多分类专栏: hadoop 大数据转载: https://www.codercto.com/ ...
hive从入门到放弃(一)——初识hive
之前更完了<Kafka从入门到放弃>系列文章,本人决定开新坑--hive从入门到放弃,今天先认识一下hive. 没看过 Kafka 系列的朋友可以点此传送阅读: <Kafka从入门到 ...
hive从入门到放弃(二)——DDL数据定义
前一篇文章,介绍了什么是 hive,以及 hive 的架构.数据类型,没看的可以点击阅读:hive从入门到放弃(一)--初识hive 今天讲一下 hive 的 DDL 数据定义创建数据库 CREAT ...
hive从入门到放弃(三)——DML数据操作
上一篇给大家介绍了 hive 的 DDL 数据定义语言,这篇来介绍一下 DML 数据操作语言. 没看过的可以点击跳转阅读: hive从入门到放弃(一)--初识hive hive从入门到放弃(二)--D ...
hive从入门到放弃(四)——分区与分桶
今天讲讲分区表和分桶表,前面的文章还没看的可以点击链接: hive从入门到放弃(一)--初识hive hive从入门到放弃(二)--DDL数据定义 hive从入门到放弃(三)--DML数据操作分区 ...
HIVE快速入门
(一)简单入门 1.创建一个表 create table if not exists ljh_emp( name string, salary float, gender string) commen ...

随机推荐

cursor游标（mysql）
/* 游标 cursor 什么是游标?为什么需要游标使用存储过程对sql进行编程的时候,我们查询的语句可能是数据是多个,它总是一口气全部执行,我们无法针对每一条进行判断.也就是说,我们无法控制程序的 ...
procrdure存储过程
/* 存储过程在一些语言中,有一个概念叫”过程“ procedure,和”函数“ function 过程:封装了若干条语句,调用时,这些封装体执行函数:是一个有返回值的“过程” 过程:没有返回值的 ...
windows下类似Linux下的grep命令
今天要查看windws下代理服务器有哪些IP连接过来,但使用 netstat -na 后出现很多连接会话,不方便查看. 想到Linux下的grep非常方便,于是网络上搜寻,还是有类似的命令findst ...
jfreechart 在jsp页面显示所画的图片（resin服务器的servelet配置是关键）（图片只过内存）
用的web服务器是resin服务器,在配置web.xml时需要注意,其实resin服务器的web.xml服务器配置和tomcat服务器的配置很像, 1. 我第一次按照自己的想法,想当然的在resin- ...
Java对多线程的支持
Java运行时系统实现了一个用于调度线程执行的线程调度器,用于确定某一时刻由哪一个线程在CPU上运行. 在Java技术中,线程通常是抢占式的而不需要时间片分配进程(分配给每个线程相等的CPU时间的进程 ...
EasyPusher安卓直播推流到EasyDarwin开源流媒体服务器工程简析
EasyPusher主要有三部分组件组成:采集,编码,叠加,上传.在这个基础上同时支持本地存储\后台预览的功能.主要业务模块与相关类之间的关系如图所示: Created with Raphaël 2. ...
if条件判断
if 条件判断的是布尔值,常用的有以下几种 1.in 在不在它里面,返回的是布尔值 names='zhangsan lisi xiaoming' print("zhangsan" ...
Python中基本的读文件和简单数据处理
Python中基本的读文件和简单数据处理暂无评论 DataQuest上面的免费课程(本文是Python基础课程部分),里面有些很基础的东西(csv文件读,字符串预处理等),发在这里做记录.涉及下面六 ...
Git详解之五分布式Git
以下内容转载自:http://www.open-open.com/lib/view/open1328070090108.html 分布式 Git 为了便于项目中的所有开发者分享代码,我们准备好了一台服 ...
HihoCoder 1033交错和（数位DP第三题）
(写挂了,有空再补) 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述给定一个数 x,设它十进制展从高位到低位上的数位依次是 a0, a1, ..., an - 1,定义 ...

Hive使用入门