Hive数据仓库笔记（一）

Hive建表：

CREATE TABLE records (year STRING,temperature INT, quality INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

每行三列数据通过tab分隔，数据如果是以tab分隔的可被hive直接识别。

查看表结构信息：

desc records;

加载数据：

LOAD DATA LOCAL INPATH'/home/data/sample.txt'

OVERWRITE INTO TABLE records;

将linux本地的文本数据导入到hive的数据仓库目录（/user/hive/warehouse/records）

该命令会覆盖掉数据，准确说，它会先删除目录里的老文件，添加新的文件。

原始数据：

导入到hive里的数据：

存数据的表在hive里是个文件，存在仓库里，仓库目录由hive.metastore.warehouse.dir属性控制。

执行查询：

hive> SELECT year, MAX(temperature) FROMrecords WHERE temperature <> 9999 AND quality IN (0, 1, 4, 5, 9) GROUP BYyear;

Hive 里的不等于不支持！=，其正确的表达式应该为<>。

Hive配置设置：

% hive --config /Users/tom/dev/hive-conf

指定hive在不同的目录里hive-site.xml配置文件以针对不同的集群。

% hive -hiveconffs.defaultFS=hdfs://localhost \

-hiveconf mapreduce.framework.name=yarn \

-hiveconfyarn.resourcemanager.address=localhost:8032

设置会话期间的属性。

% hadoop fs -mkdir /tmp

% hadoop fs -chmod a+w /tmp

% hadoop fs -mkdir -p /user/hive/warehouse

% hadoop fs -chmod a+w /user/hive/warehouse

给hive所有用户写权限。

hive> SET hive.enforce.bucketing=true;

可以在会话期间改变设置。之后又恢复。

Hive执行引擎：

Hive默认的执行引擎是MR，现在支持Tez和Spark。

Tez和spark可以避免中间结果输出到HDFS，甚至是存储在内存中的开销。

SET hive.execution.engine=tez; 设置执行引擎为Tez。

日志路径设置：

% hive -hiveconfhive.log.dir='/tmp/${user.name}'

日志级别，输出位置

% hive -hiveconfhive.root.logger=DEBUG,console

Hive架构：

Metastore configurations：

最常用的选择是用MySQL。

设置：配置文件

javax.jdo.option.ConnectionURL ： jdbc:mysql://host/dbname?createDataba

seIfNotExist=true

javax.jdo.option.ConnectionDriverName ：com.mysql.jdbc.Driver

用户名和密码也得设置。MySQL 驱动放置Hive的lib目录下。

Hive的替代物：

Cloudera Impala 交互式查询，性能比Hive有数量级地提升。

Presto from Facebook

Apache Drill

Spark SQL

Apache Phoenix 底层是HBase

Hive基本数据类型：

BOOLEAN TINYINT,SMALLINT, INT, and BIGINT FLOAT and DOUBLE

DECIMAL 可以设置精度DECIMAL(5,2) 精度值最大为38

STRING 理论上可以存储2G的数据，实际可能达不到这个值

VARCHAR ：VARCHAR(100) CHAR：CHAR(100) 固定长度的字符串，如果有必要会有空格填充。

BINARY 存储可变长度的二进制数据

TIMESTAMP DATE年月日

复杂数据类型：

ARRAY, MAP, STRUCT, and UNION

STRUCT：类型组合

UNION：类型里选择一种类型

CREATE TABLE complex (

c1 ARRAY<INT>,

c2 MAP<STRING, INT>,

c3 STRUCT<a:STRING, b:INT, c:DOUBLE>,

c4 UNION<STRING, INT>

)

操作和功能：

SHOW FUNCTIONS 列出hive支持功能

hive> DESCRIBE FUNCTION length; 功能的具体描述

length(str | binary) - Returns the lengthof str or number of bytes in binary

data

外部表和内部表：

CREATE TABLE managed_table (dummy STRING);

LOAD DATA INPATH '/user/tom/data.txt' INTOtable managed_table;

移动hdfs://user/tom/data.txt 到hive的数据仓库目录下。

删除表：DROP TABLE managed_table;

外部表：

CREATE EXTERNAL TABLE external_table (dummy STRING)

LOCATION '/user/tom/external_table';

LOAD DATA INPATH'/user/tom/data.txt' INTO TABLE external_table;

外部表可以指定数据存储的路径。EXTERNAL关键字下，hive不检查在定义的时的外部位置是否存在，意味着可以先创建表在创建这些数据。

删除外部表仅删除元数据信息，数据还存在。

Hive数据仓库笔记（一）的更多相关文章

Hive数据仓库笔记（三）
Joins: Inner joins: hive> SELECT * FROM sales; Joe 2 Hank 4 Ali 0 Eve 3 Hank 2 hive> SELECT * ...
Hive数据仓库笔记（二）
分区和桶: 分区:可以提高查询的效率,只扫描固定范围数据,不用全部扫描 CREATE TABLE logs (ts BIGINT, lineSTRING) PARTITIONED BY (dt S ...
hive学习笔记之一：基本数据类型
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Hive数据仓库工具安装
一.Hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单SQL查询功能,SQL语句转换为MapReduce任务进行运行. 优点是可以通过类S ...
【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
Hive—学习笔记（一）
主要内容: 1.Hive的基本工能机制和概念 2.hive的安装和基本使用 3.HQL 4.hive的脚本化运行使用方式 5.hive的基本语法--建表语法 6.hive的基本语法--内部表和外部表. ...
HIVE—数据仓库
1. hive是什么? Hive是基于 Hadoop 的一个数据仓库工具: 1. hive本身不提供数据存储功能,使用HDFS做数据存储: 2. hive也不分布式计算框架,h ...
hive数据仓库建设
hive数据仓库建设 1.设计原生日志表原生日志表用来存放上报的原始日志,数据经过清洗加工后会进入到各个日志表中. 1.1 创建数据库 #创建数据库 $hive>create database ...
高速查询hive数据仓库表中的总条数
Author: kwu 高速查询hive数据仓库中的条数.在查询hive表的条数,通常使用count(*).可是数据量大的时候,mr跑count(*)往往须要几分钟的时间. 1.传统方式获得总条数例如 ...

随机推荐

Android查缺补漏（IPC篇）-- 进程间通讯之Socket简介及示例
本文作者:CodingBlock 文章链接:http://www.cnblogs.com/codingblock/p/8425736.html 进程间通讯篇系列文章目录: Android查缺补漏(IP ...
windows上nginx的安装和配置
http://www.cnblogs.com/Li-Cheng/p/4399149.html http://www.cnblogs.com/huayangmeng/archive/2011/06/15 ...
DxPackNet 4.保存音视频为本地avi文件
捕获到了音视频后要保存到本地文件,这是很常见的应用场景,DxPackNet保存视频文件也比较简单用 IAviStreamWriter avi文件写入流即可 1.初始化相关设备,设定好数据捕获的回调 ...
QWebSocketServer
QWebSocketServer 服务端 Public Types Public Function QWebSocketServer(const QString &serverName, Ss ...
IntentService源码
原文地址IntentService源码分析 @Override public void onCreate() { super.onCreate(); HandlerThread thread = ne ...
pycharm安装,svn使用,远程开发调试,接口测试,连接服务器
磨刀不误砍柴工,配置完美的编辑器,在开发时,能帮助我们节约大量的时间成本,从而是我们的精力放在业务逻辑实现上面! 接下来将介绍使用pyhcarm如何使用svn,远程开发调试,接口测试,已经连接远程服 ...
C++ 监测磁盘空间
硬盘管理器头文件 HardDiskManager.h : #if _MSC_VER > 1000 #pragma once #endif #include <windows.h> ...
centos下利用qemu搭建arm模拟器
有点繁琐,整理一下,系统环境centos6.6,虚拟机以及实际系统中测试通过. 一.交叉编译器的下载与安装1.下载地址:http://blog.csdn.net/dldw8816/article/de ...
ORA-04028: cannot generate diana for object xxx
在ORACLE数据库(10.2.0.5.0)上修改一个包的时候,编译有错误,具体错误信息为"ORA-04028: cannot generate diana for object xxx&q ...
com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxError Exception
1.错误描述 com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxError Exception:You have an error in your SQL synt ...

Hive数据仓库笔记（一）

Hive数据仓库笔记（一）的更多相关文章

随机推荐

热门专题