Hive篇--相关概念整理一

一.前述

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

二.Hive相关概念

1.元数据：包括在Hdfs上的映射。除了文件内容，剩下的都是元数据信息。

2.操作符：表HDFS的一个操作或者一道MapReduce作业。

3.内部表：元数据删除，同时删除数据，由hive自身管理。

.外部表：元数据删除，真正存在HDFS上的数据不会删除，只是做了一个引用。外部表分区删除分区不会丢失数据

5.分区表（内部表）：对应两个HDFS 上的一个目录，多级分区对应多层目录,分区字段不在表中。

6.UDF:一进一出,重写evaluate函数

7.UDAF :多进一出

8.UDTF: 一进多出

PS：

添加分区时必须指定全部分区。删除的时候没有必要指定全部，指定某一个会删除相关的。

三。案例

内部表：

内部表

create table psn0 (

id int,

name string,

likes ARRAY<string>,

address MAP<string, string>

) ROW FORMAT DELIMITED

FIELDS TERMINATED BY ',' //每一行中的每一列的区分方式

COLLECTION ITEMS TERMINATED BY '-' //map或Array的每个元素分隔符

MAP KEYS TERMINATED BY ':';//Map中key和value的切割符

LOAD DATA LOCAL INPATH '/root/data1' INTO TABLE psn0;

LOAD DATA INPATH '/data1' INTO TABLE psn0;

22,小明22,eat-code-play,北京:天安门广场-上海:黄浦江

外部表

create EXTERNAL table psn1 (

id int,

name string,

likes ARRAY<string>,

address MAP<string, string>

) ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

COLLECTION ITEMS TERMINATED BY '-'

MAP KEYS TERMINATED BY ':'

LOCATION '/psn1';//只是做了一个映射

分区表
create table psn3 (

id int,

name string,

likes ARRAY<string>,

address MAP<string, string>

)

PARTITIONED BY (sex string, age int) //分区

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

COLLECTION ITEMS TERMINATED BY '-'

MAP KEYS TERMINATED BY ':';

LOAD DATA LOCAL INPATH '/root/data1' INTO TABLE psn3 partition (sex='man', age=1);

LOAD DATA LOCAL INPATH '/root/data2' INTO TABLE psn3 partition (sex='man', age=10);

外部表 分区  删除分区  不会丢失数据

create EXTERNAL table psn5 (

id int,

name string,

likes ARRAY<string>,

address MAP<string, string>

)

PARTITIONED BY (sex string, age int)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY ','

COLLECTION ITEMS TERMINATED BY '-'

MAP KEYS TERMINATED BY ':'

location '/psn5';

LOAD DATA LOCAL INPATH '/root/data1' INTO TABLE psn5 partition (sex='man', age=1);

ALTER TABLE psn5 DROP PARTITION (sex='man', age=1);

两种创建表的方式（这两种创建方式都是从其他表中读取的结果创建）
CREATE TABLE tbl1

   AS

SELECT id, name , likes

FROM psn2;

FROM page_view_stg pvs//这句话实际上也可以放在后面

INSERT OVERWRITE TABLE page_view1

       SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null, pvs.ip, pvs.cnt;//放在这FROM page_view_stg pvs
From psn2

From psn2

insert into table psnjg

select count(*) as ct ;

根据正则匹配，序列化Hive支持读时检查，写时不检查
CREATE TABLE logtbl (

    host STRING,

    identity STRING,

    t_user STRING,

    time STRING,

    request STRING,

    referer STRING,

    agent STRING)

  ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'

  WITH SERDEPROPERTIES (

    "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) \\[(.*)\\] \"(.*)\" (-|[0-9]*) (-|[0-9]*)"

  )

  STORED AS TEXTFILE;

Hive篇--相关概念整理一的更多相关文章

Hive篇--相关概念和使用二
一.基本概念 Hive分桶: 1.概念分桶表是对列值取哈希值的方式,将不同数据放到不同文件中存储.对于hive中每一个表.分区都可以进一步进行分桶.(可以对列,也可以对表进行分桶)由列的哈希值除以桶 ...
【SQL系列】深入浅出数据仓库中SQL性能优化之Hive篇
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[SQL系列]深入浅出数据仓库中SQL性能优化之 ...
关于Unity中的涉及到Attribute的相关概念整理（@WhiteTaken）
这两天事情比较多,没有来得及更新,现在把我这两天看的attributes相关内容进行整理. 涉及到的相关概念包括: C#中的特性概念及用法创建自己的特性以及通过反射访问特性 C#中的特性概念以及用法 ...
Hadoop之Hive篇
想了解Hadoop整体结构及各框架角色建议飞入这篇文章,写的很好:http://www.open-open.com/lib/view/open1385685943484.html .以下文章是本人参考 ...
2. Hive常见操作命令整理
该笔记主要整理了<Hive编程指南>中一些常见的操作命令,大致如下(持续补充中): 1. 查看/设置/修改变量2. 执行命令3. 搜索相关内容4. 查看库表信息5. 创建表6. 分区7. ...
基于Hive进行数仓建设的资源元数据信息统计：Hive篇
在数据仓库建设中,元数据管理是非常重要的环节之一.根据Kimball的数据仓库理论,可以将元数据分为这三类: 技术元数据,如表的存储结构结构.文件的路径业务元数据,如血缘关系.业务的归属过程元数据 ...
深入浅出数据仓库中SQL性能优化之Hive篇
转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,R ...
一篇笔记整理JVM工作原理
首先要了解的 >>数据类型 Java虚拟机中,数据类型可以分为两类:基本类型和引用类型. 基本类型的变量保存原始值,即:他代表的值就是数值本身:而引用类型的变量保存引用值.“引用值”代表了 ...
Hive篇之安装
1,安装 hive的版本的选择,是选择内置的数据库保存元数据,还是用外部的mysql之类的数据库保存元数据,同时,如果使用外置的mysql,需要注意对mysql远程访问的配置. 再就是关于文件的配置了 ...

随机推荐

利用阿里云搭建frp实现外网远程桌面链接内网电脑
主要应用场景:针对学生放假回家使用外网无法远程操作学校的服务器或者电脑,这里通过阿里云的云服务器搭建一个frp服务,实现内网穿透,从而可以直接通过远程桌面或者其他工具实现对校园网内的服务器或者电脑进行 ...
利用easygui模块编写的华氏温度与摄氏温度转换的小程序
-*- coding:utf-8 -*- #Author:'Lmc' #DATE: 2019/4/23/0023 下午 4:23:08 #FileName:tem_compare_gui.PY imp ...
Django----将列表按照一定的顺序展示
1.要求:按照文章的时间降序排列,并且只展示前5篇文章 2.需要用到:list的切片知识 ###改造view.py中的视图方法 #列表页 def get_article(request): artic ...
tomcat运行后提示Could not create the Java Virtual Machine.
大致的问题是Java虚拟机(JVM)分配的内存大于系统可用内存,一开始去网上找了些资料,大多是都是说修改MyEclipse安装目录下的elicpse.ini文件中的内存大小.但我试了之后发现然并软,后 ...
vs2015配置OpenCV遇到的问题
OpenCV的配置过程可以参考博文:https://www.cnblogs.com/linshuhe/p/5764394.html 简要记载配置过程: 1.官网下载OpenCV安装包,并解压到目录,例 ...
在deepin上安装YouCompleteMe
详细安装步骤在github上有,https://github.com/Valloric/YouCompleteMe,我这里是自己总结的简化版安装步骤. 步骤1.安装Vundle 首先,clone到本地 ...
用户注册之后,通过网易邮箱服务器(smtp.163.com)发送电子邮箱到注册者邮箱的的确认通知短信.(可根据需求自行调整)
Member 是数据实体,穿过来的也就是当前注册用户的信息. 存储的数据一定要有邮箱信息 private void SendAuthCodeToMember(Member member) ...
关于gulp-sftp上传到服务器
首先下载npm模块 npm install --save-dev gulp gulp-sftp webpack del gulp-sftp 上传服务器主要依赖 gulp.webpack必备 del 是 ...
history.pushState()和history.replaceState()
Html5 新增history对象的两个方法:history.pushState()和history.replaceState(),方法执行后,浏览器地址栏会变成你传的url,而页面并不会重新载入或跳 ...
tensorflow-线性函数训练例子一
import tensorflow as tfimport numpy as np #create datax_data = np.random.rand(100).astype(np.float32 ...

Hive篇--相关概念整理一

Hive篇--相关概念整理一的更多相关文章

随机推荐

热门专题