hadoop笔记之Hive的数据存储(外部表)

Hive的数据存储(外部表)

外部表

指向已经在HDFS中存在的数据，可以创建Partition
它和内部表在元数据的组织上是相同的，而实际数据的存储则有较大的差异
外部表只有一个过程，加载数据和创建表同时完成，并不会移动到数据仓库目录中，只是与外部数据建立一个链接。而删除一个外部表时，仅删除该链接

○如何创建一个外部表？

hdfs源文件查看

[root@hadooppseudo ~]# ls student0*
student01.txt  student02.txt  student03.txt
[root@hadooppseudo ~]# more student01.txt
Tom,23
Mary,20
[root@hadooppseudo ~]# more student02.txt
Mike,25
[root@hadooppseudo ~]# more student03.txt
Scott,21
King,20
[root@hadooppseudo ~]# hdfs dfs -put student01.txt /input
[root@hadooppseudo ~]# hdfs dfs -put student02.txt /input
[root@hadooppseudo ~]# hdfs dfs -put student03.txt /input

把student0*.txt各文件放入hdfs的过程中, 需要确认input目录已存在，否则hdfs会认为把student01.txt放入名为input的文件中,再放入student02.txt时会提示 File exist

创建一张外部表来指向这三个文件

create external table external_student
(sid int,sname string,age int)
row format delimited fields terminated by ','
location '/input';

查询一下表中的数据

select * from external_student;
  Tom     23
  Mary    20
  Mike    25
  Scott   21
  King    20

将外部其中一个文件从hdfs中删除掉

[root@hadooppseudo ~]# hdfs dfs -rm /input/student03.txt

此时hive中

select * from external_student;
  Tom     23
  Mary    20
  Mike    25

相应数据也被删除掉了

如果我们再执行

[root@hadooppseudo ~]# hdfs dfs -put student03.txt /input

那么再次执行查询，hive中消失的两行数据又回来了

select * from external_student;
  Tom     23
  Mary    20
  Mike    25
  Scott   21
  King    20

这就是外部表

hadoop笔记之Hive的数据存储(外部表)的更多相关文章

hadoop笔记之Hive的数据存储(内部表)
Hive的数据存储(内部表) Hive的数据存储(内部表) 基于HDFS 可使用hadoop给我们提供的web管理工具查看数据.打开管理工具localhost:9000–>Utilities下的 ...
hadoop笔记之Hive的数据存储(桶表)
Hive的数据存储(桶表) Hive的数据存储(桶表) 桶表桶表是对数据进行哈希取值,然后放到不同文件中存储. 比如说,创建三个桶,而创建桶的原则可以按照左边表中学生的名字来创建对应的桶.这样子把左 ...
hadoop笔记之Hive的数据存储(视图)
Hive的数据存储(视图) Hive的数据存储(视图) 视图(view) 视图是一种虚表,是一个逻辑概念:可以跨越多张表既然视图是一种虚表,那么也就是说用操作表的方式也可以操作视图但是视图是建立在 ...
hadoop笔记之Hive的数据存储(分区表)
Hive的数据存储(分区表) Hive的数据存储(分区表) 分区表 Partition对应于数据库的Partition列的密集索引在Hive中,表中的一个Partition对应于表下的一个目录,所有 ...
Hive 表操作（HIVE的数据存储、数据库、表、分区、分桶）
1.Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式存储结构主要包括:数据库.文件.表.试图 Hive默认可以直接加载文本文件(TextFile),还 ...
大数据软件安装之Hadoop（Apache）（数据存储及计算）
大数据软件安装之Hadoop(Apache)(数据存储及计算) 一.生产环境准备 1.修改主机名 vim /etc/sysconfig/network 2.修改静态ip vim /etc/udev/r ...
GreenPlum 大数据平台--外部表(三)
一,外部表介绍 Greenplum 在数据加载上有一个明显的优势,就是支持数据的并发加载,gpfdisk是并发加载的工具,数据库中对应的就是外部表所谓外部表,就是在数据库中只有表定义.没有数据,数据 ...
hadoop笔记之Hive入门(Hive的体系结构)
Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是 ...
hadoop笔记之Hive入门(什么是Hive)
Hive入门(一) Hive入门(一) 什么是Hive? Hive是个数据仓库,数据仓库就是数据库,但又与一般意义上的数据库有点区别实际上,Hive是构建在hadoop HDFS上的一个数据仓库. ...

随机推荐

一点用JS写控制权限的心得
<!DOCTYPE html><html lang="en"><head> <meta charset="UTF-8" ...
通过设置cookie实现单点登录
最近要做个登录一个客户端跳转到另一个网站不用再登录,有两种方法,第一种就是写接口通过客户端传值账号直接到目标网站,另一种是写入cookie到目标网站.由于目标网站之前就是通过cookie实现单点登录, ...
转：消除SDK更新时的“https://dl-ssl.google.com refused”错误
消除SDK更新时,有可能会出现这样的错误: Download interrupted: hostname in certificate didn't match: <dl-ssl.google. ...
Oracle使用imp导入dmp数据提示：只有DBA才能导入有其他DBA导入的文件
使用imp导入时提示:只有DBA才能导入有其他DBA导入的文件查看权限,发现admin和default栏没有打钩,打上勾就可以了: 打上勾,保存后,继续导入数据,如下: 成功!
TcpClient
public class TcpClientSession { protected TcpClient Client { get; set; } /// <summary> /// 远程地 ...
BigDecimal用法详解（转）
BigDecimal用法详解 http://www.cnblogs.com/linjiqin/p/3413894.html 一.简介Java在java.math包中提供的API类BigDecim ...
About
about: Thanks to NetEase company, the people contribute to NetEase online course, Stephen Prata(< ...
使用CRT定位内存泄漏
1. 使能内存泄漏检测#define _CRTDBG_MAP_ALLOC#include <stdlib.h>#include <crtdbg.h>注1:语句顺序不能修改:注2 ...
文件搜索查找功能VC++
1.搜索指定文件夹下的文件名和路径 #undef UNICODE #include <iostream> #include <string> #include <vect ...
获取当前url并指定url中的字符效果
效果介绍:1.获取当前url 2.通过获取的url,找到指定的字符并判断 3.如果是指定字符,页面跳转到博客园:如果不是页面跳转到百度例如:http://www.cnblogs.com/fs521c ...

hadoop笔记之Hive的数据存储(外部表)

Hive的数据存储(外部表)

外部表

hadoop笔记之Hive的数据存储(外部表)的更多相关文章

随机推荐

热门专题