Hive中导入Amazon S3中的分区表数据的操作

Hive中创建S3的外部表

数据在S3存放的数据是按时间纬度存放的，每天的数据存放在各自的目录下，目录结构如下截图：

每个目录下面的数据是CSV文件，现在将其导入到Hive中进行查询，通过创建对应的表结构：

CREATE EXTERNAL TABLE `palmplay_log_pv_s3_csv`(
`meta_id` string COMMENT 'from deserializer',
`brand` string COMMENT 'from deserializer',
`channel` string COMMENT 'from deserializer',
`countrycode` string COMMENT 'from deserializer')
partitioned by (dt String)
ROW FORMAT SERDE
'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES (
"separatorChar" = "\t",
"quoteChar" = "'",
"escapeChar" = "\\"
)
STORED AS TEXTFILE
LOCATION
's3a://palmplay_log_pv_csv';

然后通过如下语句进行查询：

select * from palmplay_log_pv_s3_csv limit 10;
select * from palmplay_log_pv_s3_csv where dt='2018-04-09' limit 10;

此时是查询不到结果，因为这个时候分区表的分区信息并没有加载到Hive的Metastore中，需要先执行将分区信息加载到Metastore中，才可以查询到数据。

加载表的分区信息到Metastore中

从S3中将表的分区信息加载到Hive的Metastore中，这个同从HDFS中加载表的分区信息是一样的，执行以下命令进行加载：

MSCK REPAIR TABLE palmplay_log_pv_s3_csv;

然后再执行select查询就可以查询到数据了。

注：可以使用hive.metastore.fshandler.threads参数（缺省值为15，配置在hive-site.xml中）来增加用于在MSCK阶段中扫描分区的线程数。

如果你想了解大数据的学习路线，想学习大数据知识以及需要免费的学习资料可以加群：784789432.欢迎你的加入。每天下午三点开直播分享基础知识，晚上20:00都会开直播给大家分享大数据项目实战。

对表进行分析
在Amazon S3上处理数据时，分析表的步骤与在HDFS中处理数据时的步骤相同。
可以通过设置hive.stats.autogather = true或运行analyze table table_name compute statistics命令自动收集表统计信息，例如：
ANALYZE TABLE table_name PARTITION（dt ='2018-04-09'）COMPUTE STATISTICS;
但是，列统计信息只能通过运行列命令的分析表测试计算统计信息来收集，例如：

ANALYZE TABLE table_name PARTITION（ds ='2018-04-09'）COLUMNS;

有关更多信息和示例，请参阅Apache文档。

参考：https://hortonworks.github.io/hdp-aws/s3-hive/index.html

Hive中导入Amazon S3中的分区表数据的操作的更多相关文章

eclipse中导入项目后中文成乱码解决办法
转自:http://blog.163.com/lang_zi_ming/blog/static/1140161762010412112650774/ 编程时在往eclipse中导入项目后项目中的中文 ...
微软BI 之SSIS 系列 - 在 SSIS 中导入 ACCESS 数据库中的数据
开篇介绍来自天善学院一个学员的问题,如何在 SSIS 中导入 ACCESS 数据表中的数据. 在 SSIS 中导入 ACCESS 数据库数据 ACCESS 实际上是一个轻量级的桌面数据库,直接使 ...
用kattle将数据从SQLserver中导入到vertica中
今天简单的学习了一下ETL工具kattle了,只是简单的上手,不过这也已经够我去做POC了. 首先大体介绍一下kattle,Kettle是一款国外开源的ETL工具,纯java编写,可以在Window. ...
oracle数据库中导入Excel表格中的数据
1.点击[工具]-->[ODBC 导入器],如图: 2.在导入器里选择第一个[来自ODBC的数据],用户名/系统DSN-->填写[Excel Files],输入用户名和密码,点击 [连接] ...
网易UI自动化测试工具Airtest中导入air文件中的方法
最近看了一下网易的Airtest ,UI测试工具,写了一些后在导入其他air文件中的.py文件,卡了一下,现在博客中纪录一下导入其他air文件的方式: 在Airtest 测试工具中,导入其他air文件 ...
详解Amazon S3上传/下载数据
AWS简单储存服务(Amazon S3)是非常坚牢的存储服务,拥有99.999999999%的耐久性(记住11个9的耐久性). 使用CloudBerry Explorer,从Amazon S3下载数据 ...
MySQL中导入Excel表格中的数据
在数据库中建立好响应的数据库.表(参考excel表格中列中的名字和内容): 将excel表格另存为txt文件,选择“文本文件(制表符分割)”: 打开相应的txt文件,只留下要导入的数据(windows ...
从S3中导入数据到Dynamodb
本节如果你已经从Dynamodb中导出过数据,而且导出的文件以及被存入S3.文件内部结构会在Verify Data Export File 中描写叙述. 我们称之前导出数据的原始表为source ta ...
使用Apache Hudi + Amazon S3 + Amazon EMR + AWS DMS构建数据湖
1. 引入数据湖使组织能够在更短的时间内利用多个源的数据,而不同角色用户可以以不同的方式协作和分析数据,从而实现更好.更快的决策.Amazon Simple Storage Service(amaz ...

随机推荐

phpmyadmin文件上传限制
修改php.ini文件中的四个属性upload_max_filesize,post_max_size,max_execution_time,memory_limit,如图所示: 保存重启系统;打开ph ...
简说mvc路由
首先我们通过在Global.asax中的Application_Start将路由信息注册到RouteTable的Routes静态属性中.如下代码所示: public class RouteTable ...
Shell使用手册
1.循环数组 list=(20180531 20180430 20180331 20180228 20180131 20171231 20171130 20171031 20170930 201708 ...
Android studio ocr初级app开发问题汇总（含工程代码）
博客第一篇文章,稍作修改,增加文字介绍开发目的最近由于某些需求,需要在Android手机端实现OCR功能,大致为通过手机照相,识别出相片中的中文信息字段.但是由于新手光环+流程不熟悉,遇到了各种各 ...
kafka概要设计
Kafka核心功能即:高性能的消息发送与高性能的消息消费下载安装包后即可启动Kafka服务器,但是此前需要首先启动Zookeeper服务器,Zookeeper是为Kafka提供协调服务的工具,Ka ...
vue-cli + webpack自动生成项目
# 全局安装 vue-cli $ npm install --global vue-cli # 创建一个基于 webpack 模板的新项目 $ vue init webpack palanWebsit ...
JavaScript（核心、BOM、DOM）
http://www.flyne.org/article/407 JavaScript(核心.BOM.DOM) JavaScript是基于对象和事件驱动的客户端脚本语言.有如下特点: 交互性安全性( ...
leetcode shell
leetcode 195. 第十行 # | | 第一种是先取出前10行,然后取出最后一行.(但是不足10行,也可以取出最后一行) 正解: tail -n +K :从第K行取出所有然后取出第一行 le ...
E、CSL 的魔法【模拟】（“新智认知”杯上海高校程序设计竞赛暨第十七届上海大学程序设计春季联赛）
题目传送门:https://ac.nowcoder.com/acm/contest/551#question 题目描述有两个长度为 n 的序列,a0,a1,…,an−1a0,a1,…,an−1和 b ...
No.4 - 3D 空间的卡片翻转动效
参考 ①张鑫旭http://www.zhangxinxu.com/wordpress/2012/09/css3-3d-transform-perspective-animate-transition/ ...

Hive中导入Amazon S3中的分区表数据的操作

Hive中导入Amazon S3中的分区表数据的操作的更多相关文章

随机推荐

热门专题