Hive - 建表和加载数据指令小结以及使用Load data指令的注意事项

类似Mysql的数据库概念：

hive> CREATE DATABASE cui;

hive> USE cui;

创建表：

CREATE TABLE test(

first STRING,

second STRING

)

默认记录和字段分隔符：

\n 每行一条记录

^A 分隔列（八进制 \001）

^B 分隔ARRAY或者STRUCT中的元素，或者MAP中多个键值对之间分隔（八进制 \002）

^C 分隔MAP中键值对的“键”和“值”（八进制 \003）

自定义分隔符：

CREATE TABLE test(

……

)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\001'

COLLECTION ITEMS TERMINATED BY '\002'

MAP KEYS TERMINATED BY '\003'

LINES TERMINATED BY '\n'

查看信息：

DESCRIBE DATABASE cui;

DESCRIBE DATABASE EXTENDED cui;

分区表：

CREATE TABLE test(

……

)

PARTITIONED BY ( country STRING ); #分区键和字段不能重复

------------------------------------------------------------------

加载数据:

LOAD DATA LOCAL INPATH '/path/to/local/files'

OVERWRITE INTO TABLE test

PARTITION (country='CHINA')

有LOCAL表示从本地文件系统加载（文件会被拷贝到HDFS中）

无LOCAL表示从HDFS中加载数据（注意：文件直接被移动！！！而不是拷贝！！！并且。。文件名都不带改的。。）

OVERWRITE 表示是否覆盖表中数据（或指定分区的数据）（没有OVERWRITE 会直接APPEND，而不会滤重!）

关于加载数据的LOCAL关键字:

【使用前】：

[cui@node1 ~]$ hadoop fs -ls /workspace
Found 2 items
-rw-r--r-- 1 yjt-app1-web1 supergroup 1716110 2016-01-14 16:31 /workspace/IOS_OPERA_STATISTICS_20160113.01.DAT
-rw-r--r-- 1 yjt-app1-web1 supergroup 520964539 2016-01-14 21:20 /workspace/bpUserinfo_201511.log

【使用中】：

hive> LOAD DATA INPATH '/workspace/bpUserinfo_201511.log' INTO table testkv;
Loading data to table default.testkv
Table default.testkv stats: [numFiles=3, numRows=0, totalSize=520964575, rawDataSize=0]
OK
Time taken: 1.015 seconds

【使用后】：

[cui@node1 ~]$ hadoop fs -ls /workspace
Found 1 items
-rw-r--r-- 1 yjt-app1-web1 supergroup 1716110 2016-01-14 16:31 /workspace/IOS_OPERA_STATISTICS_20160113.01.DAT

[cui@node1 ~]$ hadoop fs -ls /user/hive/warehouse/testkv
Found 5 items
drwxrwxr-x   - yjt-app1-web1 supergroup          0 2016-01-14 21:06 /user/hive/warehouse/testkv/.hive-staging_hive_2016-01-14_21-06-53_158_2726638877292950395-1
drwxrwxr-x   - yjt-app1-web1 supergroup          0 2016-01-14 21:08 /user/hive/warehouse/testkv/.hive-staging_hive_2016-01-14_21-08-59_461_1557138301562621871-1
-rwxrwxr-x   1 yjt-app1-web1 supergroup 520964539 2016-01-14 21:20 /user/hive/warehouse/testkv/bpUserinfo_201511.log
-rwxrwxr-x   1 yjt-app1-web1 supergroup         24 2016-01-14 21:09 /user/hive/warehouse/testkv/part-00000
-rwxrwxr-x   1 yjt-app1-web1 supergroup         12 2016-01-14 21:09 /user/hive/warehouse/testkv/part-00001

如果加载同样文件名的文件，会被自动重命名：

【使用前】：

[cui@node1 ~]$ cp ~/oltpUserSqlLogs/crm/data/bpUserinfo_201504.log .
[cui@node1 ~]$ mv bpUserinfo_201504.log bpUserinfo_201511.log
[cui@node1 ~]$ hadoop fs -put bpUserinfo_201511.log /workspace
[cui@node1 ~]$ hadoop fs -ls /workspace
Found 2 items
-rw-r--r--   1 yjt-app1-web1 supergroup    1716110 2016-01-14 16:31 /workspace/IOS_OPERA_STATISTICS_20160113.01.DAT
-rw-r--r--   1 yjt-app1-web1 supergroup   40393299 2016-01-15 13:20 /workspace/bpUserinfo_201511.log

【使用中】：

hive> LOAD DATA INPATH '/workspace/bpUserinfo_201511.log' INTO table testkv;
Loading data to table default.testkv
Table default.testkv stats: [numFiles=4, numRows=0, totalSize=561357874, rawDataSize=0]
OK
Time taken: 1.745 seconds

【使用后】：

[cui@node1 ~]$ hadoop fs -ls /workspace
Found 1 items
-rw-r--r-- 1 yjt-app1-web1 supergroup 1716110 2016-01-14 16:31 /workspace/IOS_OPERA_STATISTICS_20160113.01.DAT

[cui@node1 ~]$ hadoop fs -ls /user/hive/warehouse/testkv
Found 6 items
drwxrwxr-x   - yjt-app1-web1 supergroup          0 2016-01-14 21:06 /user/hive/warehouse/testkv/.hive-staging_hive_2016-01-14_21-06-53_158_2726638877292950395-1
drwxrwxr-x   - yjt-app1-web1 supergroup          0 2016-01-14 21:08 /user/hive/warehouse/testkv/.hive-staging_hive_2016-01-14_21-08-59_461_1557138301562621871-1
-rwxrwxr-x   1 yjt-app1-web1 supergroup 520964539 2016-01-14 21:20 /user/hive/warehouse/testkv/bpUserinfo_201511.log
-rwxrwxr-x   1 yjt-app1-web1 supergroup   40393299 2016-01-15 13:20 /user/hive/warehouse/testkv/bpUserinfo_201511_copy_1.log
-rwxrwxr-x   1 yjt-app1-web1 supergroup         24 2016-01-14 21:09 /user/hive/warehouse/testkv/part-00000
-rwxrwxr-x   1 yjt-app1-web1 supergroup         12 2016-01-14 21:09 /user/hive/warehouse/testkv/part-00001

Hive - 建表和加载数据指令小结以及使用Load data指令的注意事项的更多相关文章

[Hive_3] Hive 建表指定分隔符
0. 说明 Hive 建表示例及指定分隔符 1. Hive 建表 Demo 在 Hive 中输入以下命令创建表 user2 create table users2 (id int, name stri ...
hive sequencefile导入文件遇到FAILED: SemanticException Unable to load data to destination table. Error: The file that you are trying to load does not match the file format of the destination table.错误
hive sequencefile导入文件遇到FAILED: SemanticException Unable to load data to destination table. Error: Th ...
hive建表与数据的导入导出
建表: create EXTERNAL table tabtext(IMSI string,MDN string,MEID string,NAI string,DestinationIP string ...
Apache Hive 建表操作的简单描述
客户端连接hive [root@bigdata-02 bin]# ./beeline Beeline version by Apache Hive beeline: Connecting : Ente ...
Oracle 自动生成hive建表语句
从 oracle 数据库导数到到 hive 大数据平台,需要按照大数据平台的数据规范,重新生成建表的 SQL 语句,方便其间,写了一个自动生成SQL的存储过程. ① 创建一张表,用来存储源表的结构,以 ...
CDH集群部署hive建表中文乱码
背景:部署CDH集群的 hive 服务,选用 mysql 作为 hive 元数据的存储数据库,通过 hive cli 建表时发现中文注释均乱码. 现象:hive端建表中文注释乱码. 定位: 已经确认过 ...
利用MySQL原数据信息批量转换指定库数据表生成Hive建表语句
1.写出文件工具类 package ccc.utile; import java.io.*; /** * @author ccc * @version 1.0.0 * @ClassName Write ...
Hive建表和内外部表的使用
原文链接: https://www.toutiao.com/i6766784274965201415 一.普通建表方式 create table stu_info( id int, name stri ...
hive建表没使用LZO存储格式，可是数据是LZO格式时遇到的问题
今天微博大数据平台发邮件来说.他们有一个hql执行失败.可是从gateway上面的日志看不出来是什么原因导致的,我帮忙看了一下.最后找到了问题的解决办法,下面是分析过程: 1.执行失败的hql: IN ...

随机推荐

PC-大概最全的黑客工具表了
纯真IP数据库查询程序 remote administrator (rar解密)ZiperelloV2.0 汉化版.zip (代理跳板)SkSockServer1.09.zip [ar ...
说一说window.parent
<iframe>标签是很常用的,嵌在页面之中,可以做独立的加载和刷新.比如说,页面分左右或者上下结构,一般左侧和上侧是导航部分,右侧和下侧是目标页面的展示部分,只需要设置导航链接的targ ...
maven分模块间依赖注意事项
1.被依赖模块应该先通过 maven -install 命令将该模块打包为jar发布到本地仓库 2.引用的模块通过在pom.xml文件中添加dependence引用 maven -package 将项 ...
【转】Java Thread.join()详解
http://www.open-open.com/lib/view/open1371741636171.html 一.使用方式. join是Thread类的一个方法,启动线程后直接调用,例如: ? 1 ...
ThinkPHP3.1新特性：多层MVC支持
ThinkPHP基于MVC(Model-View-Controller,模型-视图-控制器)模式,不过均支持多层(multi-Layer)设计. 模型(Model)层:默认的模型层由Model类构成, ...
linux调度器信息解读
http://blog.csdn.net/wudongxu/article/category/791519
QT事件
qtevents多线程工作object存储 Another Look at Events(再谈Events) 最近在学习Qt事件处理的时候发现一篇很不错的文章,是2004年季刊的一篇文章,网上有这篇文 ...
update 改写 merge into
update语句改写成merge into有时会提高运行速度看两个案例 1.根据业务将两个嵌套子查询改写成max,速度有3min提升到3s UPDATE OPER_792.LL_SCB_YDKB_2 ...
oracle EBS 基于Host并发程序的开发(转)
参考此编文章 http://www.doc88.com/p-0972680953307.html http://www.cnblogs.com/benio/archive/2011/06/10/207 ...
Spring-data-redis操作redis cluster
Redis 3.X版本引入了集群的新特性,为了保证所开发系统的高可用性项目组决定引用Redis的集群特性.对于Redis数据访问的支持,目前主要有二种方式:一.以直接调用jedis来实现:二.使用sp ...

Hive - 建表和加载数据指令小结 以及使用Load data指令的注意事项

Hive - 建表和加载数据指令小结 以及使用Load data指令的注意事项的更多相关文章

随机推荐

热门专题

Hive - 建表和加载数据指令小结以及使用Load data指令的注意事项

Hive - 建表和加载数据指令小结以及使用Load data指令的注意事项的更多相关文章