Hive实际应用小结

1.简介

Hive是数据仓库平台，构建在Hadoop之上用来处理结构化数据。Hive是一个SQL解析引擎，能够将SQL语句转化成MapReduce作业并在Hadoop上执行，从而使得查询和分析更加方便。
Hive是Facebook开发。2008年贡献给Apache，成为开源项目。

2.应用

由上图可见，hive的诞生可以很降低开发人员运用mapreduce计算框架的门槛，通过熟悉的SQL语句来实现复杂的mapreduce代码的编写，从而降低开发难度提高开发效率。

Hive适用于海量结构化数据的离线分析，如果有需求是是需要统计计算大数据量而且对于时效性没有过高要求的情况下，建议采用Hive来做处理。不适用于复杂的机器学习算法，因为机器学习算法大多涉及大量的迭代计算，而hive默认情况下底层封装的计算框架是MapReduce，计算效率比较低下不适合复杂的计算，（Hive on Spark另议），因为底层的计算框架是mapreduce 所以也不适合交互式实时查询，有交互式实时查询建议使用Impala。

3.使用方法及技巧

1）使用hive -e 将SQL写入shell脚本进行调用，如进行一些数据的定时汇总。使用定时器进行shell脚本的调用，可以使用oozie或者crontab调用hive脚本

2）当多个SQL并发执行占用资源过多时，可以通过设置HiveQL语句的优先级来告诉yarn优先给那个MapReduce分配资源（HiveQL底层转化成MapReduce执行），使用语句 SET mapreduce.job.priority=HIGH;设定任务的优先级是高，总共有四个级别，此处不再赘述。

3）HiveQL书写时遇到Join语句，当尽量遵循先过滤后Join

4）避免使用in ,not in语句

5）当多表join时。应当选择合适的表作为主表。

4.建议使用方式

在项目做技术选型时，如果有大量结构化数据进行离线计算，可以采用Hive来做计算，原因如下：

1）既然是离线分析，就不会太在乎时效性，所以不必使用SparkSQL，impala这种消耗内存来更快计算的技术，当有需求是需要短时间内返回计算结果的，hive不适用。

2）对于结构化数据处理使用SQL代替繁琐的mapreduce代码省时省力。

3）支持udf,udaf,udtf。对于复杂逻辑可以写Java代码实现作为自定义函数去调用

个人在使用hive仍存在问题希望各位能够给予解答将不胜感激：

　　在使用hive与hbase表建立映射关系时，可以实现hive分区吗？如何实现？

Hive实际应用小结的更多相关文章

【Hive六】Hive调优小结
Hive调优 Hive调优 Fetch抓取本地模式表的优化小表.大表Join 大表Join大表 MapJoin Group By Count(Distinct) 去重统计行列过滤动态分区调整 ...
Hadoop Hive概念学习系列之hive的正则表达式初步（六）
说在前面的话 hive的正则表达式,是非常重要!作为大数据开发人员,用好hive,正则表达式,是必须品! Hive中的正则表达式还是很强大的.数据工作者平时也离不开正则表达式.对此,特意做了个hive ...
【Hadoop】HIVE 小结概览
一.HIVE概览小结二.HIVE安装 Hive只在一个节点上安装即可 .上传tar包 .解压 tar -zxvf hive-.tar.gz -C /cloud/ .配置mysql metastore ...
Hive - 建表和加载数据指令小结以及使用Load data指令的注意事项
类似Mysql的数据库概念: hive> CREATE DATABASE cui; hive> USE cui; 创建表: CREATE TABLE test( first STRING, ...
hive 内部表和外部表的区别和理解
1. 内部表 create table test (name string , age string) location '/input/table_data'; 注:hive默认创建的是内部表此时 ...
【转】Hive的insert操作
insert 语法格式为: 1. 基本的插入语法: insert overwrite table tablename [partition(partcol1=val1,partclo2=val2)] ...
hive中rcfile格式(收藏文)
首先声明,此文是属于纯粹收藏文,感觉讲的很不错. 本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮 ...
Hive与HBase区别
对于刚接触大数据的用户来说,要想区分Hive与HBase是有一定难度的.本文将尝试从其各自的定义.特点.限制.应用场景等角度来进行分析,以作抛砖引玉之用. ====Hive是什么?Apache Hiv ...
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集
(一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blo ...

随机推荐

Python案例分享
1.过桥(爬金字塔): 1 i = 1 2 while i <= 9: 3 if i < 6: 4 j = 0 5 while j < i: 6 print('*',end=' ') ...
初学者易上手的SSH-整合
许久没更新博客了! spring还有一章aop(面向切面),我就没讲述了,你们可以去看下代理模式. 那么我们开始整合:struts2 2.3.4 ,hibernate 5.2.10 ,spring ...
springboot mybatis redis 二级缓存
前言什么是mybatis二级缓存? 二级缓存是多个sqlsession共享的,其作用域是mapper的同一个namespace. 即,在不同的sqlsession中,相同的namespace下,相同 ...
git log 中文乱码问题（浪费了一天）
git log和gitcommit中文出现乱码,花了大半天的时间试了网上的各种方法,还是搞不定. 只好放大招. 卸载软件后重装,还没有进行任何配置,git config --list 发现有大量的配置 ...
hiho-1015- KMP算法
#1015 : KMP算法时间限制:1000ms 单点时限:1000ms 内存限制:256MB 描述小Hi和小Ho是一对好朋友,出生在信息化社会的他们对编程产生了莫大的兴趣,他们约定好互相帮助,在 ...
Python 简单的输出
Python hw其实非常简单. 2 行代码 vi test.py [Python] 纯文本查看复制代码 ? 1 2 #!/usr/bin/python print "Hello Worl ...
关于VS2017，VS2015 中利用 EF使用Mysql 不显示数据源问题解决方案
在win7,win10,vs2015,vs2017之间折腾了两天,死活就是调不出来Mysql数据源.真是活见鬼了. 直接说方案吧. 一,卸载你所安装过的mysql-connector-net.mysq ...
UWP Flyout浮动控件
看见没,点击"Options"按钮,浮动出来一个界面,这个界面可以用xaml自定义. 如果要点击的控件又Flyout属性那么,可以直接按照下面用 <Button Conten ...
Mysql的管理及使用
第1章 Mysql的管理 1.1 连接管理mysql mysql[options] #Linux或UNIX shell提示符(终端窗口) mysql --help #查看帮助信息 mysql --ve ...
（二）—Linux远程连接与常用命令
要学linux ,一定得用命令界面的,怎么也得是shell语言,用就最难最原始的,用的人都是专家,历史最少也得30年,不管有三七二十一上来就敲ls ,先看看当前目录都有什么.一口专业的linux范儿, ...

Hive实际应用小结

Hive实际应用小结的更多相关文章

随机推荐

热门专题