如何将hive表中的数据导出

近期经常将现场的数据带回公司测试，所以写下该文章，梳理一下思路。

1.首先要查询相应的hive表，比如我要将c_cons这张表导出，我先查出hive中是否有这张表。

查出数据，证明该表在hive中存在。

2.查询该表的表结构（建表语句），为了更快的将表数据导入的公司的hive表中。查询表结构语句：show create table c_cons

3.根据你hive配置地址找到表在hadoop集群中的文件位置。

我的c_cons表的位置在：/user/hive/warehouse/c_cons里面。

4.在集群上输入：hadoop fs -get /user/hive/warehouse/c_cons，变可将文件下载到本地。不指定位置就下载到root目录下（shell命令参考：http://hadoop.apache.org/docs/r1.0.4/cn/hdfs_shell.html）

5.有时候文件过大，拷贝太占U盘空间，所以要进行打包。

-r 压缩 c_cons目录下的所有文件，压缩成的文件名为c_cons.zip （linux压缩解压参考：http://jingyan.baidu.com/article/6d704a13f9981a28da51ca70.html）

6.然后将c_cons.zip拷到U盘，带走。

7.回到公司，将c_cons.zip放在集群本地，进行解压。

解压到默认目录直接：unzip c_cons.zip 就可以了。

如果指定目录，例如解压到home目录下 unzip c_cons.zip –d /home/

8.将解压出来的文件上传到hadoop集群，我放在集群的/jsdata/目录下。使用shell命令：hadoop fs -put /home/c_cons /jsdata/

9.然后根据查询出的建表语句建表。

10.将数据导入到hive表中：load data inpath '/jsdata/c_cons into table c_cons

如何将hive表中的数据导出的更多相关文章

MSSQL中把表中的数据导出成Insert
use master go if exists (select name from sysobjects where name = 'sp_generate_insert_script') begin ...
如何将sqlserver表中的数据导出sql语句或生成insert into语句 [转]
输入表名,生成插入语句 drop proc proc_insert //如果存在就删除 go create proc proc_insert (@tablename varchar(256)) as ...
使用spark对hive表中的多列数据判重
本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate. 1.先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关 ...
用sqoop将mysql的数据导入到hive表中
1:先将mysql一张表的数据用sqoop导入到hdfs中准备一张表需求将 bbs_product 表中的前100条数据导导出来只要id brand_id和 name 这3个字段数据存 ...
Mysql 导出数据库和指定表中的数据
参考地址:http://jingyan.baidu.com/article/b7001fe14240ab0e7282dde9.html [root@youo zw]# mysqldump -u roo ...
Hive通过查询语句向表中插入数据注意事项
最近在学习使用Hive(版本0.13.1)的过程中,发现了一些坑,它们或许是Hive提倡的比关系数据库更加自由的体现(同时引来一些问题),或许是一些bug.总而言之,这些都需要使用Hive的开发人员额 ...
查看hive中某个表中的数据、表结构及所在路径
查看hive中action_data_myisam表中的数据.表结构及所在路径 1.客户端进入hive环境:hive 2.查看表数据,鉴于数据量大,这里只显示前五条:select * from act ...
hive删除表和表中的数据
hive删除表和表中的数据,以及按分区删除数据 hive删除表: drop table table_name; hive删除表中数据: truncate table table_name; hive按 ...
大数据入门到精通18--sqoop 导入关系库到hdfs中和hive表中
一,选择数据库,这里使用标准mysql sakila数据库 mysql -u root -D sakila -p 二.首先尝试把表中的数据导入到hdfs文件中,这样后续就可以使用spark来dataf ...

随机推荐

Hadoop之HDFS文件系统
概念 HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件:其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色. HDFS的设计适合一次写入,多次读出的场景,且不 ...
【Luogu P1048 Luogu P1016】采药/疯狂的采药
采药/疯狂的采药两道模板题,分别是0-1背包和完全背包. 0-1背包二维:dp[i][j]=max(dp[i-1][j-time[i]]+v[i],dp[i-1][j]); 由于i的状态由i-1的 ...
通过 Python 理解 Mixin 概念
Mixin 的概念 Mixin 即 Mix-in,常被译为"混入",是一种编程模式,在 Python 等面向对象语言中,通常它是实现了某种功能单元的类,用于被其他子类继承,将功能组 ...
Jeewx-Boot 1.1 版本发布，基于SpringBoot的开源微信管家系统
项目介绍 JeewxBoot是一款基于SpringBoot的开源微信管家系统,采用SpringBoot2.1.3 + Mybatis + Velocity 框架技术.支持微信公众号.微信第三方平台(扫 ...
【Android - 自定义View】之自定义九宫格手势解锁控件
首先来介绍一下这个自定义View: (1)这个自定义View的名称叫做 LockView ,继承自View类: (2)这个自定义View实现了应用中常见的九宫格手势解锁功能,可以用于保证应用安全: ( ...
R 语言学习笔记（1）——R 工作空间与输入输出
什么是工作空间? 工作空间(workspace)就是当前 R 的工作环境,它储存着所有用户定义的对象(objectives)包括了向量.矩阵.函数.数据框.列表等. 处理 R 文件的工作流程 #设置当 ...
plot()与dev 函数族的使用
1. plot()的类型选择 plot()函数,属于graphics包中. plot(a,b,type="value") type:以什么样的形式来画a,b之间的关系: ·&quo ...
计算机硬件-CPU
计算机硬件-CPU 冯.诺依曼计算机体系 1.计算机硬件设备由存储器.运算器.控制器.输入设备和输出设备五部分 2.采取二进制形式和指令 3.将程序(数据和指令序列)预先存放在主存储器中,使计算机在工 ...
Linux发展历史（简略）
LINUX UNIX历史发展 1969肯汤姆森在DEC PDP-7机器上开发出了UNIX系统 1971肯汤姆森的同事丹尼斯里奇发明了C语言 1973UNIX系统绝大部分用C语言重写,为提高UNI ...
VUE+DRF系列
vue基础系列 001 路飞学诚项目简介 002 Vue简介 003 Vue引入 004 文本指令 005 事件指令 006 斗篷指令 007 属性指令 008 表单指令 009 条件指令 010 路 ...

如何将hive表中的数据导出

如何将hive表中的数据导出的更多相关文章

随机推荐

热门专题