hive外表parquet文件

外表关联parquet文件

1. 为什么关联了一次数据文件就不能二次被使用；

2. 为什么删除了employee，select还是可以而且有数据，1,2可能是一个问题

外表drop只是metadata表内容删除，hdfs的/user/hive/warehouse中依然有此表；但是如果是manage table，则删除后，hdfs里面的文件也会删除，select之后也会报错；所以SQL引擎在处理查询的时候应该是直接到hive的存储位置去执行sql，而不是查metadata表信息。但是后来的测试中发现可能过一会之后，又不能查询了，可能存在缓存，或者metadata同步问题？但是hdfs里面的parquet文件确实没有删除，所以drop掉表之后，再创建其实还是会有之前的通过load data导入数据；

load data，将会导致数据文件从原始位置移动到hive建表的仓库，除了这种方式之外，还有一种不移动原数据的方式，就是在create external table的时候，声明location

创建parquet存储的外表

CREATE EXTERNAL TABLE student(id INT,name STRING) STORED AS PARQUETFILE LOCATION /data/parquet/employee.parquet;

hive创建外表和parquet

今天主要调研一个问题：parquet文件外表关联，字段名称是否可以修改；答案是不可以；select语句还是会根据字段名和parquet文件里面定义的字段名做匹配来显示数据；

我创建了一个employee对象的json文件，id（String），name，address；

创建hive外表，id设置INT；select报错；

创建了一个hive外表，id，name；load data，查询正常，显示id，name；

创建hive外表，c1，c2；查询不报错，但是显示的数据都是NULL；后来通过alter table指令增加了id和name，增加两列显示对应字段信息；

这说明查询引擎并不要求外表字段一定要和parquet文件头定义的字段完全一致；但是只要列名和类型一致；外表可以多字段，少字段，但是列名匹配的，类型也要匹配。

hive外表parquet文件的更多相关文章

使用parquet-hadoop.jar包解析hive parquet文件时，遇到FIXED_LEN_BYTE_ARRAY转换为Decimal 以及 INT96转换为timestamp问题
在使用parquet-hadoop.jar包解析parquet文件时,遇到decimal类型的数据为乱码,具体解决方法如下: 使用parquet-Hadoop.jar解析httpfs服务提供的parq ...
Hive 导入 parquet 格式数据
Hive 导入 parquet 数据步骤如下: 查看 parquet 文件的格式构造建表语句倒入数据一.查看 parquet 内容和结构下载地址社区工具 GitHub 地址命令查看结构: ...
Hive 导入 parquet 格式数据（未完，待续）
Hive 导入 parquet 格式数据 Parquet 格式文件,查看Schema Parquet 之mapreduce Hive 导入 parquet 格式数据
sqoop无法导出parquet文件到mysql
1.问题描述在CDH集群中我们需要将Hive表的数据导入到RDBMS数据库中,使用Sqoop工具可以方便的将Hive表数据抽取到RDBMS数据库中,在使用Sqoop抽取Hive Parquet表时作 ...
大数据：Parquet文件存储格式
一.Parquet的组成 Parquet仅仅是一种存储格式,它是语言.平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎 ...
大数据：Parquet文件存储格式【转】
一.Parquet的组成 Parquet仅仅是一种存储格式,它是语言.平台无关的,并且不需要和任何一种数据处理框架绑定,目前能够和Parquet适配的组件包括下面这些,可以看出基本上通常使用的查询引擎 ...
scala读取parquet文件
import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQL ...
hive中控制文件生产个数
在有些时候,想要控制hql执行的mapper,reducer个数,reducer设置过少,会导致每个reducer要处理的数据过多,这样可能会导致OOM异常,如果reducer设置过多,则会导致产生很 ...
Hive执行sql文件
方法1: hive -f sql文件 t.sql文件内容: ; 执行命令 hive -f t.sql 方法2: 进入hive shell, 执行source命令进入hive 终端 $ hive hi ...

随机推荐

[翻译]用PostCSS改善你的CSS代码质量
“代码质量”这个术语对于程序员来说并不陌生.毕竟,每个开发人员都知道,代码只是能工作是不够的.它还应该具备其他要素:它应该是可读的,良好的格式和一致性.它也应该符合一些标准的量化指标.不过这些在写CS ...
C3p0的参数
C3p0的参数设置:ComboPooledDataSource和BasicDataSource一样提供了一个用于关闭数据源的close()方法,这样我们就可以保证Spring容器关闭时数据源能够成功释 ...
编写基本的 udev 规则
来自: https://linux.cn/article-9365-1.html?utm_source=index&utm_medium=more 读者对象理解 udev 背后的基本概念,学 ...
SSD: Single Shot MultiBox Detector 编译方法总结
SSD是一个基于单网络的目标检测框架,它是基于caffe实现的,所以下面的教程是基于已经编译好的caffe进行编译的. caffe的编译可以参考官网 caffe Installation Instal ...
JNIjw05
ZC: 这个代码,没有真正的运行测试 1.VC6(CPP)的DLL代码: #include<stdio.h> #include "jniZ_JNIjw05.h" #in ...
落地案例｜日本雅虎如何在 OpenStack 上大规模构建和运行 Kubernetes
今天的帖子是由日本雅虎的基础设施工程团队撰写,内容是他们如何在 Kubernetes 上运行 OpenStack.这篇帖子是由日本雅虎的工程博客编译而来. 简介: 这篇帖子大致描述了日本雅虎在 Goo ...
TUNING FOR ALL FLASH DEPLOYMENTS
Ceph Tuning and Best Practices for All Flash Intel® Xeon® ServersLast updated: January 2017 TABLE OF ...
BZOJ 3329 Xorequ：数位dp + 矩阵快速幂
传送门题意现有如下方程:$ x \oplus 3x = 2x $ 其中 $ \oplus $ 表示按位异或. 共 $ T $ 组数据,每组数据给定正整数 $ n $,任务如下: 求出小于等于 $ ...
DatePicker日期与时间控件
DatePicker日期与时间控件一.简介二.方法最日常的使用方法了日期控件DatePicker 时间控件TimePicker 月份从0开始三.代码实例效果图: 代码: fry.Activ ...
安装（解密）win10 10074 esd 更新 10162 esd
最新ESD:http://ms-vnext.net/Win10esds/ 公开下载:http://ms-vnext.net/Win10esds/urls/ ----------------更新 --- ...

hive外表parquet文件

hive外表parquet文件的更多相关文章

随机推荐

热门专题