装载数据
1、以LOAD的方式装载数据
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION(partcol1=val1, partcol2=val2 ...)]
1) 使用LOCAL这个关键字,那么这个路径应该为本地文件系统路径,是拷贝本地数据到位于HDFS上的目标位置,而不使用LOCAL这个关键字,那么这个路径应该为HDFS中的路径,是把本身就在HDFS上的数据转移到目标位置。 同时,因为文件是以这种方式移动的,Hive要求源文件和目标文件以及目录应该在同一个文件系统中,不可以使用LOAD DATA 语句将数据从一个集群的HDFS中转移到另一个集群的HDFS中。
2) 如果使用OVERWRITE 关键字,那么目标文件夹中之前存在的数据将会删除,如果没有这个关键字,而目标文件夹中已经存在同名的文件时,会保留之前的文件并且会重新命名新文件为“之前的文件名_序列号”(这是在Hive v0.9.0版本中修复的,之前的版本是有同名的文件会被覆盖重写)。
3) 如果目标表是分区表那么需要使用PARTITION 的子句,而且还必须为每个分区的键指定一个值。
4) 对于 INPATH 子句使用的文件路径不可以包含任何文件夹。
5) Hive不会验证装载的数据和表的模式是否匹配,而会验证文件格式是否和表结构定义的一致。如,表创建时定义的存储格式是sequencefile,那么转载进去的文件也应该是sequencefile 格式的文件。
 
2、通过SELECT 语句向表中插入数据
insert overwrite table user_install_status2 partition (dt='20141117')
select aid,pkgname,uptime,type,country,gpcategory from
user_install_status
where dt='20141117';
1)使用了OVERWRITE 关键字,因此之前分区的内容将会被覆盖掉。而不使用OVERWRITE 或者使用INTO替换掉OVERWRITE 的话,那么Hive将会以追加的方式写入数据(这是在Hive v0.8.0版本才有的)。
2) 如果分区特别的多会多次扫描表进行插入数据,非常耗费资源。可以用下面的方式只扫描一次表就把所有的分区的数据进行插入。
FORM user_install_status
insert overwrite table user_install_status2 partition (dt='20141117')
select aid,pkgname,uptime,type,country,gpcategory where dt='20141117'
insert overwrite table user_install_status2 partition (dt='20141118')
select aid,pkgname,uptime,type,country,gpcategory where dt='20141118'
insert overwrite table user_install_status2 partition (dt='20141119')
select aid,pkgname,uptime,type,country,gpcategory where dt='20141119'
insert overwrite table user_install_status2 partition (dt='20141120')
select aid,pkgname,uptime,type,country,gpcategory where dt='20141120';
 
3、动态分区插入
insert overwrite table user_install_status2 partition (dt)
select ....., dt
from user_install_status ;
1)Hive 是根据SELECT 语句的最后一列来确定分区字段dt 的值。
2)动态分区默认情况下没有开启,要通过设置如下两个参数来开启
set hive.exec.dynamic.partition=true; 开启动态分区
set hive.exec.dynamic.partition.mode=nonstrict;设为非严格模式执行,严格模式要求至少一个分区字段是静态的
 
4、单个查询语句中创建表并加载数据
create table user_install_status3 as
select aid, pkgname, uptime, type, country, gpcategory
from user_install_status
where dt='20141228';
1) 这种做法往往是从一个大的数据集中抽取一个小的数据集。
2)这种做法不能用于外部表。

使用 Hive装载数据的几种方式的更多相关文章

  1. hive 导出数据的几种方式

    1.使用insert导出 这种方式的优点在于既可以导出到hdfs上还可以导出到本地目录 下面以导出emp表中数据为例 insert overwrite local directory "/o ...

  2. Linux就这个范儿 第15章 七种武器 linux 同步IO: sync、fsync与fdatasync Linux中的内存大页面huge page/large page David Cutler Linux读写内存数据的三种方式

    Linux就这个范儿 第15章 七种武器  linux 同步IO: sync.fsync与fdatasync   Linux中的内存大页面huge page/large page  David Cut ...

  3. 【代码笔记】iOS-向服务器传JSON数据的两种方式

    一,代码. - (void)viewDidLoad { [super viewDidLoad]; // Do any additional setup after loading the view. ...

  4. ios网络学习------4 UIWebView的加载本地数据的三种方式

    ios网络学习------4 UIWebView的加载本地数据的三种方式 分类: IOS2014-06-27 12:56 959人阅读 评论(0) 收藏 举报 UIWebView是IOS内置的浏览器, ...

  5. .NET MVC控制器向视图传递数据的四种方式

    .NET MVC控制器向视图传递数据的四种方式: 1.ViewBag  ViewBag.Mvc="mvc"; 2.ViewData ViewBag["Mvc"] ...

  6. Linux就这个范儿 第18章 这里也是鼓乐笙箫 Linux读写内存数据的三种方式

    Linux就这个范儿 第18章  这里也是鼓乐笙箫  Linux读写内存数据的三种方式 P703 Linux读写内存数据的三种方式 1.read  ,write方式会在用户空间和内核空间不断拷贝数据, ...

  7. Solr 删除数据的几种方式

    原文出处:http://blog.chenlb.com/2010/03/solr-delete-data.html 有时候需要删除 Solr 中的数据(特别是不重做索引的系统中,在重做索引期间).删除 ...

  8. 讨论HTTP POST 提交数据的几种方式

    转自:http://www.cnblogs.com/softidea/p/5745369.html HTTP/1.1 协议规定的 HTTP 请求方法有 OPTIONS.GET.HEAD.POST.PU ...

  9. MATLAB 显示输出数据的三种方式

    MATLAB 显示输出数据的三种方式 ,转载 https://blog.csdn.net/qq_35318838/article/details/78780412 1.改变数据格式 当数据重复再命令行 ...

随机推荐

  1. 《Python自然语言处理》第一章-练习17

    问题描述: 使用text9.index()查找词sunset的索引值.你需要将这个词作为一个参数插入到圆括号之间.通过尝试和出错的过程中,找到完整的句子中包含这个词的切片. 解题思路: 用两个集合,一 ...

  2. NOIP2015游记——一次开心又失望的旅行

    啊,一年一度的NOIP终于是结束了 以前的大神都有写自己的感受 然而我居然给忘了!!!! 吓得我赶紧来写一份游记 Day.-INF--出发前一个星期 机智的我选择了停课 就是为了OIER这伟大而又光荣 ...

  3. HDU 2846 Trie查询

    给出若干模式串,再给出若干询问串,求每个询问串作为多少个模式串的子串出现. 如果一个串是另一个串的子串,则一定是另一个串某个前缀的后缀或者某个后缀的前缀.根据字典树的性质,将模式串的每一个后缀插入字典 ...

  4. DirectFB 之 动画播放初步

    在基于linux的嵌入式仿真平台开发中,终端的美观和可定制是一个重要的问题.单调的"白纸黑字"型表现方式可谓大煞风景.改造linux控制台使之美观可定制地展示开机信息和logo成为 ...

  5. 使用Apache Spark 对 mysql 调优 查询速度提升10倍以上

    在这篇文章中我们将讨论如何利用 Apache Spark 来提升 MySQL 的查询性能. 介绍 在我的前一篇文章Apache Spark with MySQL 中介绍了如何利用 Apache Spa ...

  6. C#基础知识-数据类型(一)

    俗话说温故而知新,学习一门知识最好的方法就是不断的去咀嚼回味,学习编程更是如此.对于.NET平台中的C#语言而言,有着强大的类库.不断的在更新迭代几乎每隔一年都会更新一个新的模块,.NET Framw ...

  7. 二、Windows基础数据类型

    六.Windows Data Types 简介: 6.1.这些数据类型都是C语言数据类型的再次的进行包装. 6.2.因为考虑到如果使用的是C中的基础数据类型可能无法表示,想表示的精准的含义. 6.3. ...

  8. eclipse中集成hadoop插件

    1.下载并安装eclipse2.https://github.com/winghc/hadoop2x-eclipse-plugin3.下载插件到eclipse的插件目录 4.配置hadoop安装目录  ...

  9. hdu2612 Find a way BFS

    题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2612 思路: 裸的BFS,对于Y,M分别进行BFS,求出其分别到达各个点的最小时间: 然后对于@的点, ...

  10. [ERR] Node 172.168.63.202:7001 is not empty. Either the nodealready knows other nodes (check with CLUSTER NODES) or contains some

    关于启动redis集群时: [ERR] Node 172.168.63.202:7001 is not empty. Either the nodealready knows other nodes ...