Hive数据仓库笔记（一）

Hive建表：

CREATE TABLE records (year STRING,temperature INT, quality INT)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

每行三列数据通过tab分隔，数据如果是以tab分隔的可被hive直接识别。

查看表结构信息：

desc records;

加载数据：

LOAD DATA LOCAL INPATH'/home/data/sample.txt'

OVERWRITE INTO TABLE records;

将linux本地的文本数据导入到hive的数据仓库目录（/user/hive/warehouse/records）

该命令会覆盖掉数据，准确说，它会先删除目录里的老文件，添加新的文件。

原始数据：

导入到hive里的数据：

存数据的表在hive里是个文件，存在仓库里，仓库目录由hive.metastore.warehouse.dir属性控制。

执行查询：

hive> SELECT year, MAX(temperature) FROMrecords WHERE temperature <> 9999 AND quality IN (0, 1, 4, 5, 9) GROUP BYyear;

Hive 里的不等于不支持！=，其正确的表达式应该为<>。

Hive配置设置：

% hive --config /Users/tom/dev/hive-conf

指定hive在不同的目录里hive-site.xml配置文件以针对不同的集群。

% hive -hiveconffs.defaultFS=hdfs://localhost \

-hiveconf mapreduce.framework.name=yarn \

-hiveconfyarn.resourcemanager.address=localhost:8032

设置会话期间的属性。

% hadoop fs -mkdir /tmp

% hadoop fs -chmod a+w /tmp

% hadoop fs -mkdir -p /user/hive/warehouse

% hadoop fs -chmod a+w /user/hive/warehouse

给hive所有用户写权限。

hive> SET hive.enforce.bucketing=true;

可以在会话期间改变设置。之后又恢复。

Hive执行引擎：

Hive默认的执行引擎是MR，现在支持Tez和Spark。

Tez和spark可以避免中间结果输出到HDFS，甚至是存储在内存中的开销。

SET hive.execution.engine=tez; 设置执行引擎为Tez。

日志路径设置：

% hive -hiveconfhive.log.dir='/tmp/${user.name}'

日志级别，输出位置

% hive -hiveconfhive.root.logger=DEBUG,console

Hive架构：

Metastore configurations：

最常用的选择是用MySQL。

设置：配置文件

javax.jdo.option.ConnectionURL ： jdbc:mysql://host/dbname?createDataba

seIfNotExist=true

javax.jdo.option.ConnectionDriverName ：com.mysql.jdbc.Driver

用户名和密码也得设置。MySQL 驱动放置Hive的lib目录下。

Hive的替代物：

Cloudera Impala 交互式查询，性能比Hive有数量级地提升。

Presto from Facebook

Apache Drill

Spark SQL

Apache Phoenix 底层是HBase

Hive基本数据类型：

BOOLEAN TINYINT,SMALLINT, INT, and BIGINT FLOAT and DOUBLE

DECIMAL 可以设置精度DECIMAL(5,2) 精度值最大为38

STRING 理论上可以存储2G的数据，实际可能达不到这个值

VARCHAR ：VARCHAR(100) CHAR：CHAR(100) 固定长度的字符串，如果有必要会有空格填充。

BINARY 存储可变长度的二进制数据

TIMESTAMP DATE年月日

复杂数据类型：

ARRAY, MAP, STRUCT, and UNION

STRUCT：类型组合

UNION：类型里选择一种类型

CREATE TABLE complex (

c1 ARRAY<INT>,

c2 MAP<STRING, INT>,

c3 STRUCT<a:STRING, b:INT, c:DOUBLE>,

c4 UNION<STRING, INT>

)

操作和功能：

SHOW FUNCTIONS 列出hive支持功能

hive> DESCRIBE FUNCTION length; 功能的具体描述

length(str | binary) - Returns the lengthof str or number of bytes in binary

data

外部表和内部表：

CREATE TABLE managed_table (dummy STRING);

LOAD DATA INPATH '/user/tom/data.txt' INTOtable managed_table;

移动hdfs://user/tom/data.txt 到hive的数据仓库目录下。

删除表：DROP TABLE managed_table;

外部表：

CREATE EXTERNAL TABLE external_table (dummy STRING)

LOCATION '/user/tom/external_table';

LOAD DATA INPATH'/user/tom/data.txt' INTO TABLE external_table;

外部表可以指定数据存储的路径。EXTERNAL关键字下，hive不检查在定义的时的外部位置是否存在，意味着可以先创建表在创建这些数据。

删除外部表仅删除元数据信息，数据还存在。

Hive数据仓库笔记（一）的更多相关文章

Hive数据仓库笔记（三）
Joins: Inner joins: hive> SELECT * FROM sales; Joe 2 Hank 4 Ali 0 Eve 3 Hank 2 hive> SELECT * ...
Hive数据仓库笔记（二）
分区和桶: 分区:可以提高查询的效率,只扫描固定范围数据,不用全部扫描 CREATE TABLE logs (ts BIGINT, lineSTRING) PARTITIONED BY (dt S ...
hive学习笔记之一：基本数据类型
欢迎访问我的GitHub https://github.com/zq2599/blog_demos 内容:所有原创文章分类汇总及配套源码,涉及Java.Docker.Kubernetes.DevOPS ...
Hive数据仓库工具安装
一.Hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单SQL查询功能,SQL语句转换为MapReduce任务进行运行. 优点是可以通过类S ...
【大数据】Hive学习笔记
第1章 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计. Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表, ...
Hive—学习笔记（一）
主要内容: 1.Hive的基本工能机制和概念 2.hive的安装和基本使用 3.HQL 4.hive的脚本化运行使用方式 5.hive的基本语法--建表语法 6.hive的基本语法--内部表和外部表. ...
HIVE—数据仓库
1. hive是什么? Hive是基于 Hadoop 的一个数据仓库工具: 1. hive本身不提供数据存储功能,使用HDFS做数据存储: 2. hive也不分布式计算框架,h ...
hive数据仓库建设
hive数据仓库建设 1.设计原生日志表原生日志表用来存放上报的原始日志,数据经过清洗加工后会进入到各个日志表中. 1.1 创建数据库 #创建数据库 $hive>create database ...
高速查询hive数据仓库表中的总条数
Author: kwu 高速查询hive数据仓库中的条数.在查询hive表的条数,通常使用count(*).可是数据量大的时候,mr跑count(*)往往须要几分钟的时间. 1.传统方式获得总条数例如 ...

随机推荐

安装git，gitlab和TortoiseGit
全部都是默认配置安装需注册用户:用户名尽量好认测试用户: 注册成功: 生成密钥: 1.首先使用TortoiseGit自带的Puttygen创建本地的公/私钥对 2.点击Generate按钮,在窗口 ...
windows转mac-开发环境搭建（二）：mac上java环境搭建
1.首先下载jdk,地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2.安 ...
Java文件及文件夹的创建与删除
功能这个实例实现了在D盘创建一个文件和文件夹,并删除它们. 函数介绍 createNewFile():当文件不存在时,根据绝对路径创建该文件. delete():删除文件或者文件夹. ...
CodeForces-747B
在两种情况下不能得到答案:1.n不是4的整数倍 2.某个字符的数量大于n/4 如果满足上述条件直接打印"===",否则填充数组. AC代码: #include<cstdio& ...
【BZOJ3993】星际战争
Time Limit: 1000 ms Memory Limit: 128 MB Description 3333年,在银河系的某星球上,X军团和Y军团正在激烈地作战.在战斗的某一阶段,Y军团一 ...
DNS 访问 Service - 每天5分钟玩转 Docker 容器技术（138）
在 Cluster 中,除了可以通过 Cluster IP 访问 Service,Kubernetes 还提供了更为方便的 DNS 访问. kubeadm 部署时会默认安装 kube-dns 组件. ...
【前端】Vue和Vux开发WebApp日志三、完善gulp任务
转载请注明出处:http://www.cnblogs.com/shamoyuu/p/vue_vux_3.html 项目github地址:https://github.com/shamoyuu/vue- ...
FusionCharts重写单系列图
/** * @Title:FusionChart.java * @Package:com.yhd.chart.model * @Description:封装FusionChart单系列图 * @aut ...
stm32开发之串口的调试
总的函数如下 void USART1Configuration(void){ RCC_APB2PeriphClockCmd(RCC_APB2Periph_GPIOA | RCC_APB2Peri ...
JSP自定义标签配置
JSP自定义标签配置 JSP自定义标签 <taglib> <taglib-uri>/WEB-INF/you.tld</taglib-uri> ...

Hive数据仓库笔记（一）

Hive数据仓库笔记（一）的更多相关文章

随机推荐

热门专题