使用 Hive装载数据的几种方式

装载数据

1、以LOAD的方式装载数据

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION(partcol1=val1, partcol2=val2 ...)]

1) 使用LOCAL这个关键字，那么这个路径应该为本地文件系统路径，是拷贝本地数据到位于HDFS上的目标位置，而不使用LOCAL这个关键字，那么这个路径应该为HDFS中的路径，是把本身就在HDFS上的数据转移到目标位置。同时，因为文件是以这种方式移动的，Hive要求源文件和目标文件以及目录应该在同一个文件系统中，不可以使用ＬOAD DATA 语句将数据从一个集群的HDFS中转移到另一个集群的HDFS中。

2) 如果使用OVERWRITE 关键字，那么目标文件夹中之前存在的数据将会删除，如果没有这个关键字，而目标文件夹中已经存在同名的文件时，会保留之前的文件并且会重新命名新文件为“之前的文件名_序列号”（这是在Hive v0.9.0版本中修复的，之前的版本是有同名的文件会被覆盖重写）。

3) 如果目标表是分区表那么需要使用PARTITION 的子句，而且还必须为每个分区的键指定一个值。

4) 对于 INPATH 子句使用的文件路径不可以包含任何文件夹。

5) Hive不会验证装载的数据和表的模式是否匹配，而会验证文件格式是否和表结构定义的一致。如，表创建时定义的存储格式是sequencefile，那么转载进去的文件也应该是sequencefile 格式的文件。

2、通过SELECT 语句向表中插入数据

insert overwrite table user_install_status2 partition (dt='20141117')

select aid,pkgname,uptime,type,country,gpcategory from

user_install_status

where dt='20141117';

1)使用了OVERWRITE 关键字，因此之前分区的内容将会被覆盖掉。而不使用OVERWRITE 或者使用INTO替换掉OVERWRITE 的话，那么Hive将会以追加的方式写入数据（这是在Hive v0.8.0版本才有的）。

2) 如果分区特别的多会多次扫描表进行插入数据，非常耗费资源。可以用下面的方式只扫描一次表就把所有的分区的数据进行插入。

FORM user_install_status

insert overwrite table user_install_status2 partition (dt='20141117')

select aid,pkgname,uptime,type,country,gpcategory where dt='20141117'

insert overwrite table user_install_status2 partition (dt='20141118')

select aid,pkgname,uptime,type,country,gpcategory where dt='20141118'

insert overwrite table user_install_status2 partition (dt='20141119')

select aid,pkgname,uptime,type,country,gpcategory where dt='20141119'

insert overwrite table user_install_status2 partition (dt='20141120')

select aid,pkgname,uptime,type,country,gpcategory where dt='20141120'；

3、动态分区插入

insert overwrite table user_install_status2 partition (dt)

select ....., dt

from user_install_status ;

1）Hive 是根据SELECT 语句的最后一列来确定分区字段dt 的值。

2）动态分区默认情况下没有开启，要通过设置如下两个参数来开启

set hive.exec.dynamic.partition=true; 开启动态分区

set hive.exec.dynamic.partition.mode=nonstrict;设为非严格模式执行，严格模式要求至少一个分区字段是静态的

4、单个查询语句中创建表并加载数据

create table user_install_status3 as

select aid, pkgname, uptime, type, country, gpcategory

from user_install_status

where dt='20141228';

1）这种做法往往是从一个大的数据集中抽取一个小的数据集。

2）这种做法不能用于外部表。

使用 Hive装载数据的几种方式的更多相关文章

hive 导出数据的几种方式
1.使用insert导出这种方式的优点在于既可以导出到hdfs上还可以导出到本地目录下面以导出emp表中数据为例 insert overwrite local directory "/o ...
Linux就这个范儿第15章七种武器 linux 同步IO: sync、fsync与fdatasync Linux中的内存大页面huge page/large page David Cutler Linux读写内存数据的三种方式
Linux就这个范儿第15章七种武器 linux 同步IO: sync.fsync与fdatasync Linux中的内存大页面huge page/large page David Cut ...
【代码笔记】iOS-向服务器传JSON数据的两种方式
一,代码. - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. ...
ios网络学习------4 UIWebView的加载本地数据的三种方式
ios网络学习------4 UIWebView的加载本地数据的三种方式分类: IOS2014-06-27 12:56 959人阅读评论(0) 收藏举报 UIWebView是IOS内置的浏览器, ...
.NET MVC控制器向视图传递数据的四种方式
.NET MVC控制器向视图传递数据的四种方式: 1.ViewBag ViewBag.Mvc="mvc"; 2.ViewData ViewBag["Mvc"] ...
Linux就这个范儿第18章这里也是鼓乐笙箫 Linux读写内存数据的三种方式
Linux就这个范儿第18章这里也是鼓乐笙箫 Linux读写内存数据的三种方式 P703 Linux读写内存数据的三种方式 1.read ,write方式会在用户空间和内核空间不断拷贝数据, ...
Solr 删除数据的几种方式
原文出处:http://blog.chenlb.com/2010/03/solr-delete-data.html 有时候需要删除 Solr 中的数据(特别是不重做索引的系统中,在重做索引期间).删除 ...
讨论HTTP POST 提交数据的几种方式
转自:http://www.cnblogs.com/softidea/p/5745369.html HTTP/1.1 协议规定的 HTTP 请求方法有 OPTIONS.GET.HEAD.POST.PU ...
MATLAB 显示输出数据的三种方式
MATLAB 显示输出数据的三种方式 ,转载 https://blog.csdn.net/qq_35318838/article/details/78780412 1.改变数据格式当数据重复再命令行 ...

随机推荐

拍照、本地图片工具类（兼容至Android7.0）
拍照.本地图片工具类:解决了4.4以上剪裁会提示"找不到文件"和6.0动态授予权限,及7.0报FileUriExposedException异常问题. package com.hb ...
jQuery / zepto ajax 全局默认设置
jQuery / zepto 的 $.ajax 方法需要配置很多选项, 有些是很常用的每个 ajax 请求都要用到的, 可以全局设置, 避免每次都写. 注意: 此处用的 jQuery 版本是 1.8. ...
第九章 Criteria查询及注解
第九章 Criteria查询及注解9.1 使用Criteria查询数据 9.1.1 条件查询 Criteria查询步骤: 1)使用session接口的cr ...
[编织消息框架][网络IO模型]aio
asynchronous I/O (the POSIX aio_functions)—————异步IO模型最大的特点是完成后发回通知. [编织消息框架][网络IO模型]NIO(select and ...
Linux防火墙配置—允许转发
一.实验目标在上一次"Linux基础网络搭建实验"中,内.外网虚拟机之所以能Ping通,是因为暂时关闭了防火墙,然而现实中这样操作显然存在很大的安全隐患,所以本次实验在上次实验的 ...
SVD之最小二乘【推导与证明】
0.SLAM中SVD进行最小二乘的应用在SLAM应用中,计算Homography Matrix,Fundamental Matrix,以及做三角化(Triangulation)时,都会用到最小二乘 ...
SublimeText3编译JavaScript
这个操作很简单总的来说分为两步,1.安装Node.js 2.添加SublimeText3 JS编译系统首先我们去官网下载node.js https://nodejs.org/en/ 然后安装验证 ...
我拖拖拖--H5拖放API基础篇
不要搞错,本文不是讲如何拖地的.看过<javascript精粹>朋友应该知道,他实现拖放的过程比较复杂,现在时代不同了,我们用H5的新的拖放API就能非常方便的实现拖放效果了.最近在园子见 ...
c#读取html
第一部分:读取后,再次存入到源文件中Stream myStream = new FileStream("d:\\hhh.html", FileMode.Open);Encoding ...
React Native技术做的一个项目“微笑阅读”
最近用React Native做了一个APP应用,有点心得: React Native确实比Hybrid应用渲染快,响应快,用户体验更好: React Native比原生简单多了,会Js就可以了,开发 ...

使用 Hive装载数据的几种方式

使用 Hive装载数据的几种方式的更多相关文章

随机推荐

热门专题