hive数据导入导出

一、导入数据4种方式

建表语句

create table test(

name string,

friends array,

children map<string, int>,

address struct<street:string, city:string>

)

row format delimited fields terminated by ','

collection items terminated by '_'

map keys terminated by ':'

lines terminated by '\n';

row format delimited fields terminated by ',' – 列分隔符

collection items terminated by '_' --MAP STRUCT 和 ARRAY 的分隔符(数据分割符号)

map keys terminated by ':'    – MAP中的key与value的分隔符

lines terminated by '\n'; – 行分隔符

1、本地文件导入到Hive表,需提前创建表

row format delimited fields terminated by '|'

lines terminated by '\n'

stored as textfile;

load data local inpath "/tmp/user/data/demo_local.parquet" into table db_tmp.demo_local;

2、HDFS文件导入到Hive表,需提前创建表

load data inpath "/tmp/user/data/demo_hdfs.parquet" into table db_tmp.demo_hdfs;

3、Hive表导入到Hive表

insert into table demo_hive select * from demo_hive_b;

4、创建表时从其他Hive表导入

create table demo_a as select * from demo_hive_b;

5、通过sqoop将mysql库导入到Hive表

-- 默认导入到default库

sqoop import --connect

jdbc:mysql://127.0.0.1:3306/casedb

--username root

--password password

--table demo --hive-import

--create-hive-table -m 1

-- 指定导入的数据库

sqoop import --connect

jdbc:mysql://127.0.0.1:3306/casedb

--username root

--password root --table demo

--hive-import --create-hive-table

--hive-table database.demo -m 1

二、导出数据

1、导出到本地

insert overwrite local directory

"/home/hadoop/data/"

row format dilimited

fields terminated by ","

select * from demo_hive_b;

2、导出到HDFS

insert overwrite directory

"/home/hadoop/data/"

row format dilimited

fields terminated by ","

select * from demo_hive_b;

3、Hive命令行导出

# Linux bash终端

# 重定向方式

hive -e "select * from demo_hive_b" >>

/home/hadoop/data/demo_output.txt

# sql文件方式

echo "select * from demo_hive_b" >

/home/hadoop/data/demo_output.sql

hive -f /home/hadoop/data/demo_output.sql >>

/home/hadoop/data/demo_output.txt

4、导出文件时，会遇本来表中本来字段值为null的字段导出时为\n

insert overwrite directory '/data/files/map_table_4'

ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'

WITH SERDEPROPERTIES (

'field.delim'=',',

'serialization.format'= '',

'serialization.null.format'=''

) STORED AS TEXTFILE

select foo, null, bar from map_table;

三、备注

1）设置 alter table name SET SERDEPROPERTIES('serialization.null.format' = '\N');

则：底层数据保存的是'\N',通过查询显示的是'NULL'
这时如果查询为空值的字段可通过语句：a is null 或者 a='\\N'

2）设置 alter tablename SET SERDEPROPERTIES('serialization.null.format' = 'NULL');
则：底层数据保存的是'NULL',通过查询显示的是'NULL'
这时如果查询为空值的字段可通过语句：a is null 或者 a='NULL'

3）设置 alter tablename SET SERDEPROPERTIES('serialization.null.format' = '');
则：底层数据保存的是'',通过查询显示的是'NULL'
'' 与 length（xx）=0
'' 表示的是字段不为null且为空字符串，此时用 a is null 是无法查询这种值的，必须通过 a='' 或者 length(a)=0 查询。

hive之数据导入导出的更多相关文章

2.11 Hive中数据导入导出Import和Export使用
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ImportExport 一.Export.Import Export ...
kettle连接Hive中数据导入导出（6）
1.hive往外写数据 http://wiki.pentaho.com/display/BAD/Extracting+Data+from+Hive+to+Load+an+RDBMS 连接hive
数据仓库Hive数据导入导出
Hive库数据导入导出 1.新建表data hive (ebank)> create table data(id int,name string) > ROW FORMAT DELIMIT ...
如何利用sqoop将hive数据导入导出数据到mysql
运行环境 centos 5.6 hadoop hive sqoop是让hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,hive之间数据导入导出的一个工具. 上海尚学堂 ...
从零自学Hadoop(16)：Hive数据导入导出，集群数据迁移上
阅读目录序导入文件到Hive 将其他表的查询结果导入表动态分区插入将SQL语句的值插入到表中模拟数据文件下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并 ...
Hive 实战(1)--hive数据导入/导出基础
前沿: Hive也采用类SQL的语法, 但其作为数据仓库, 与面向OLTP的传统关系型数据库(Mysql/Oracle)有着天然的差别. 它用于离线的数据计算分析, 而不追求高并发/低延时的应用场景. ...
Hive常用操作之数据导入导出
一.Hive数据导入导出 1.hive数据导出很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词 ...
利用sqoop将hive数据导入导出数据到mysql
一.导入导出数据库常用命令语句 1)列出mysql数据库中的所有数据库命令 # sqoop list-databases --connect jdbc:mysql://localhost:3306 ...
Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具
Sqoop是一款开源的工具,主要用于在Hadoop相关存储(HDFS.Hive.HBase)与传统关系数据库(MySql.Oracle等)间进行数据传递工作.Sqoop最早是作为Hadoop的一个第三 ...

随机推荐

OPC UA分布式IO模块
OPC UA IO模块对工业物联网的影响 OPC UA IO模块是指IO模块支持OPC UA协议,可以直接与OPC Client进行通信,这样就可以从OPC Client上直接远程通过以太网对IO口进 ...
8月份的.NET Conf 活动专注于 .NET MAUI
.NET Conf:Focus on MAUI 是一个为期一天的免费直播活动,将于太平洋时间 8 月 9 日上午 9 点开始,来自社区和 Microsoft 团队的演讲者们将分享使用MAUI .了解. ...
使用.NET简单实现一个Redis的高性能克隆版（一）
译者注该原文是Ayende Rahien大佬业余自己在使用C# 和 .NET构建一个简单.高性能兼容Redis协议的数据库的经历. 首先这个"Redis"是非常简单的实现,但是他 ...
Spring的Model 和 Map的原理
Model 和 Map 为什么在Model和Map中放值传入后会出现在request的上面. 9.1.源码解析准备测试代码 @GetMapping("/goto") public ...
C++ 练气期之函数探幽
1. 函数基础一个C++程序中,往往需要包含若干个函数,可以说函数是C++程序的基础组成元件,是程序中的头等公民. 如果要理解程序中使用函数的具体意义,则需要了解语言发展过程中致力要解决的 2 问题 ...
巨细靡遗流程控制,Go lang1.18入门精炼教程，由白丁入鸿儒，Go lang流程结构详解EP09
流程结构就是指程序逻辑到底怎么执行,进而言之,程序执行逻辑的顺序.众所周知,程序整体都是自上由下执行的,但有的时候,又不仅仅是从上往下执行那么简单,大体上,Go lang程序的流程控制结构一共有三种: ...
HCIA-Datacom 3.3 实验三：以太网链路聚合实验
实验介绍随着网络规模不断扩大,用户对骨干链路的带宽和可靠性提出越来越高的要求.在传统技术中,常用更换高速率的接口板或更换支持高速率接口板的设备的方式来增加带宽,但这种方案需要付出高额的费用,而且不够 ...
【java】学习路径17-StringBuffer、StringBuilder的使用与区别
本文讲解StringBuffer和StringBuilder的使用与区别. 1-- String String类型我们已经很熟悉了,String一旦被赋值,其在堆中的数据便无法修改. 平时我们的&qu ...
C++ IO流_数据的旅行之路
1. 前言程序中的数据总是在流动着,既然是流动就会有方向.数据从程序的外部流到程序内部,称为输入:数据从程序内部流到外部称为输出. C++提供有相应的API实现程序和外部数据之间的交互,统称这类AP ...
Util和Helper类
Util和Helper Util Util类,应该是一个无状态的类,只有静态方法. 比如在获取某些类的全局实例化对象的时候可以使用. public class ParamUtil { ... publ ...

hive之数据导入导出